在MPI集群上使用CUDA_CMS教程

CUDA给的例子中有simpleMPI程序，给每台电脑上安装好了CUDA（也可能安装好驱动就好了），它可以在集群上运行，在不同节点上跑，各个节点都可以调用自己的GPU计算。为了大幅提升数据传输性能，我们必须启用CUDA-aware技术，它使得不同节点之间的GPU数据可以直接经过网卡传输，不需要通过主机内存。为了使数据传输能达到最大性能，CUDA-aware需要一系列技术支持，包括GPUDirect RDMA、Unified Virtual Address等。主流版本的MPI都可以支持这些技术，为了完整支持这些技术，MPI的编译比原先稍微复杂了一些。以 openmpi 为例，官网上给出了如何安装，如何运行的讲解。

How do I build Open MPI with CUDA-aware support

What kind of CUDA support exists in Open MPI

配置和编译 Open MPI >= 200

官方推荐使用最新版本，我也就用最新版本。

关于GDRCopy：顾名思义，它是基于GPUDirect RDMA的库，用于数据拷贝。以下仅是个人理解，GPUDirect RDMA技术支持第三方设备有直接读写GPU内存的能力，比如一块GPU直接通过网卡读写另一块GPU的内存，CPU也可以直接通过网卡直接读写另一块GPU的内存。GPU不像CPU一样低延迟，用CPU读写远程GPU内存延迟低一些。

关于UCX：统一通信。MPI的通信层。

我不太懂这两个库，不管怎么样，按照官方推荐把这两个安装上去就好了，我们不会直接调用这两个库。

CUDA CUDA(Compute Unified Device Architecture)，显卡厂商NVidia推出的运算平台。 CUDA是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。它包含了CUDA指令集架构（ISA）以及GPU内部的并行计算引擎。开发人员现在可以使用C语言来为CUDA架构编写程序，C语言是应用最广泛的一种高级编程语言。所编写出的程序于是就可以在支持CUDA的处理器上以超高性能运行。将来还会支持其它语言，包括FORTRAN以及C++。随着显卡的发展，GPU越来越强大，而且GPU为显示图像做了优化。在计算上已经超越了通用的CPU。如此强大的芯片如果只是作为显卡就太浪费了，因此NVidia推出CUDA，让显卡可以用于图像计算以外的目的。目前只有G80、G92、G94和GT200平台的NVidia显卡才能使用CUDA，工具集的核心是一个C语言编译器。G80中拥有128个单独的ALU，因此非常适合并行计算，而且数值计算的速度远远优于CPU。 CUDA的SDK中的编译器和开发平台支持Windows、Linux系统，可以与Visual Studio2005集成在一起。 Geforce8CUDA（Compute Unified Device Architecture）是一个新的基础架构，这个架构可以使用GPU来解决商业、工业以及科学方面的复杂计算问题。它是一个完整的GPGPU解决方案，提供了硬件的直接访问接口，而不必像传统方式一样必须依赖图形API接口来实现GPU的访问。在架构上采用了一种全新的计算体系结构来使用GPU提供的硬件资源，从而给大规模的数据计算应用提供了一种比CPU更加强大的计算能力。CUDA采用C语言作为编程语言提供大量的高性能计算指令开发能力，使开发者能够在GPU的强大计算能力的基础上建立起一种效率更高的密集数据计算解决方案。从CUDA体系结构的组成来说，包含了三个部分：开发库、运行期环境和驱动（表2）。开发库是基于CUDA技术所提供的应用开发库。目前CUDA的11版提供了两个标准的数学运算库——CUFFT（离散快速傅立叶变换）和CUBLAS（离散基本线性计算）的实现。这两个数学运算库所解决的是典型的大规模的并行计算问题，也是在密集数据计算中非常常见的计算类型。开发人员在开发库的基础上可以快速、方便的建立起自己的计算应用。此外，开发人员也可以在CUDA的技术基础上实现出更多的开发库。运行期环境提供了应用开发接口和运行期组件，包括基本数据类型的定义和各类计算、类型转换、内存管理、设备访问和执行调度等函数。基于CUDA开发的程序代码在实际执行中分为两种，一种是运行在CPU上的宿主代码（Host Code），一种是运行在GPU上的设备代码（Device Code）。不同类型的代码由于其运行的物理位置不同，能够访问到的资源不同，因此对应的运行期组件也分为公共组件、宿主组件和设备组件三个部分，基本上囊括了所有在GPGPU开发中所需要的功能和能够使用到的资源接口，开发人员可以通过运行期环境的编程接口实现各种类型的计算。由于目前存在着多种GPU版本的NVidia显卡，不同版本的GPU之间都有不同的差异，因此驱动部分基本上可以理解为是CUDA-enable的GPU的设备抽象层，提供硬件设备的抽象访问接口。CUDA提供运行期环境也是通过这一层来实现各种功能的。目前基于CUDA开发的应用必须有NVIDIA CUDA-enable的硬件支持，NVidia公司GPU运算事业部总经理Andy Keane在一次活动中表示：一个充满生命力的技术平台应该是开放的，CUDA未来也会向这个方向发展。由于CUDA的体系结构中有硬件抽象层的存在，因此今后也有可能发展成为一个通用的GPGPU标准接口，兼容不同厂商的GPU产品 CUDA 工具包是一种针对支持CUDA功能的GPU（图形处理器）的C语言开发环境。CUDA开发环境包括: · nvcc C语言编译器 · 适用于GPU（图形处理器）的CUDA FFT和BLAS库 · 分析器 · 适用于GPU（图形处理器）的gdb调试器（在2008年3月推出alpha版） · CUDA运行时（CUDA runtime）驱动程序（目前在标准的NVIDIA GPU驱动中也提供） · CUDA编程手册 CUDA开发者软件开发包（SDK）提供了一些范例（附有源代码），以帮助使用者开始CUDA编程。这些范例包括: · 并行双调排序 · 矩阵乘法 · 矩阵转置 · 利用计时器进行性能评价 · 并行大数组的前缀和（扫描） · 图像卷积 · 使用Haar小波的一维DWT · OpenGL和Direct3D图形互 *** 作示例 · CUDA BLAS和FFT库的使用示例 · CPU-GPU C—和C++—代码集成 · 二项式期权定价模型 · Black-Scholes期权定价模型 · Monte-Carlo期权定价模型 · 并行Mersenne Twister（随机数生成） · 并行直方图 · 图像去噪 · Sobel边缘检测滤波器 · MathWorks MATLAB® 新的基于11版CUDA的SDK 范例现在也已经发布了。技术功能 ·在GPU（图形处理器）上提供标准C编程语言 · 为在支持CUDA的NVIDIA GPU（图形处理器）上进行并行计算而提供了统一的软硬件解决方案 · CUDA兼容的GPU（图形处理器）包括很多：从低功耗的笔记本上用的GPU到高性能的，多GPU的系统。 · 支持CUDA的GPU（图形处理器）支持并行数据缓存和线程执行管理器 · 标准FFT（快速傅立叶变换）和BLAS（基本线性代数子程序）数值程序库 · 针对计算的专用CUDA驱动 · 经过优化的，从中央处理器（CPU）到支持CUDA的GPU（图形处理器）的直接上传、下载通道 · CUDA驱动可与OpenGL和DirectX图形驱动程序实现互 *** 作 · 支持Linux 32位/64位以及Windows XP 32位/64位 *** 作系统 · 为了研究以及开发语言的目的，CUDA提供对驱动程序的直接访问，以及汇编语言级的访问 NVIDIA进军高性能计算领域，推出了Tesla&CUDA高性能计算系列解决方案，CUDA技术，一种基于NVIDIA图形处理器（GPU）上全新的并行计算体系架构，让科学家、工程师和其他专业技术人员能够解决以前无法解决的问题，作为一个专用高性能GPU计算解决方案，NVIDIA把超级计算能够带给任何工作站或服务器，以及标准、基于CPU的服务器集群 CUDA是用于GPU计算的开发环境，它是一个全新的软硬件架构，可以将GPU视为一个并行数据计算的设备，对所进行的计算进行分配和管理。在CUDA的架构中，这些计算不再像过去所谓的GPGPU架构那样必须将计算映射到图形API（OpenGL和Direct 3D）中，因此对于开发者来说，CUDA的开发门槛大大降低了。CUDA的GPU编程语言基于标准的C语言，因此任何有C语言基础的用户都很容易地开发CUDA的应用程序。由于GPU的特点是处理密集型数据和并行数据计算，因此CUDA非常适合需要大规模并行计算的领域。目前CUDA除了可以用C语言开发，也已经提供FORTRAN的应用接口，未来可以预计CUDA会支持C++、Java、Python等各类语言。可广泛的应用在图形动画、科学计算、地质、生物、物理模拟等领域。 2008年NVIDIA推出CUDA SDK20版本，大幅提升了CUDA的使用范围。使得CUDA技术愈发成熟目前，支持CUDA的GPU销量已逾1亿，数以千计的软件开发人员正在使用免费的CUDA软件开发工具来解决各种专业以及家用应用程序中的问题。这些应用程序从视频与音频处理和物理效果模拟到石油天然气勘探、产品设计、医学成像以及科学研究，涵盖了各个领域。目前市面上已经部署了超过一亿颗支持CUDA的GPU，数以千计的软件开发人员正在使用免费的CUDA软件工具来为各种应用程序加速。 CUDA 的核心有三个重要抽象概念：线程组层次结构、共享存储器、屏蔽同步（ barrier synchronization），可轻松将其作为C 语言的最小扩展级公开给程序员。 CUDA 软件堆栈由几层组成，一个硬件驱动程序，一个应用程序编程接口(API) 和它的Runtime，还有二个高级的通用数学库，CUFFT 和CUBLAS。硬件被设计成支持轻量级的驱动和Runtime 层面，因而提高性能。

您好，要安装Nvidia MX130的CUDA，首先需要确认您的计算机是否支持CUDA功能，以及您的系统是否支持CUDA功能。如果支持，您可以从Nvidia官网上下载CUDA安装程序，然后安装CUDA驱动程序，最后安装CUDA工具包。安装完成后，您可以在控制面板中找到CUDA驱动程序，以及CUDA工具包，可以使用这些工具包来进行深度学习和计算机视觉等应用。

（1）先查看当前服务器下的显卡情况： nvidia-smi

（2）用如下命令指定某张卡，来运行程序：

CUDA_VISIBLE_DEVICES=4 python mainpy --cuda

1、CUDA（Compute Unified Device Architecture），是显卡厂商NVIDIA推出的运算平台。 CUDA是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。

2、它包含了CUDA指令集架构（ISA）以及GPU内部的并行计算引擎。开发人员可以使用C语言来为CUDA架构编写程序，C语言是应用最广泛的一种高级编程语言。所编写出的程序可以在支持CUDA的处理器上以超高性能运行。CUDA30已经开始支持C++和FORTRAN。

CUDA(Compute Unified Device Architecture)，显卡厂商NVidia推出的运算平台。 CUDA™是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。

随着显卡的发展，GPU越来越强大，而且GPU为显示图像做了优化。在计算上已经超越了通用的CPU。如此强大的芯片如果只是作为显卡就太浪费了，因此NVidia推出CUDA，让显卡可以用于图像计算以外的目的。

简单来讲，比如通过CUDA架构，视频播放软件可以充分挖掘NVIDIA系列显卡的GPU并行计算能力，轻松进行高清影片的播放，与软件高清解码相比，CPU占用可以下降一半以上。当然，CUDA的应用领域绝不仅仅是视频、图形、游戏，包括各种3D和建模，医疗、能源、科学研究等，到处都可见到这种技术架构的应用。

支持CUDA的硬件环境需要有NVidia GF8系列及以上型号的显卡，并且安装185版本以上的显卡驱动程序。以QQ影音播放器来讲，要想开启CUDA硬件解码加速，可以打开QQ影音的“播放器设置”，进入“高清加速”面板，在“硬件优化”中选择“自定义优化模式”，然后在“滤镜配置”中的“视频解码器”中自定义选择相应的“QQ CUDA Video Decoder(CUDADecFilterax)”即可。而关闭CUDA加速，只需取消选择“QQ CUDA Video Decoder(CUDADecFilterax)”，或者切换到“智能高清模式”或“稳定兼容模式”通过这种高清解码定义的开启，并不是说你的画质能够提升多少，而是提升高清视频播放时的流畅以及降低CPU的占用。这个时候，节约下来的CPU空间，可以允许你再去做别的工作，这样就会大大提升你的工作效率，而不至于除了看视频，其他的什么都不能做了。

以上就是关于在MPI集群上使用CUDA全部的内容，包括:在MPI集群上使用CUDA、cuda主要用于哪。具体是什么。、nvidiamx130安装cuda等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/9771499.html

在MPI集群上使用CUDA

发表评论

评论列表（0条）