如何在MFC中调用CUDA_软件运维

有时候，我们需要在比较大的项目中调用CUDA，这就涉及到MFC+CUDA的环境配置问题，以矩阵相乘为例，在MFC中调用CUDA程序。我们参考罗振东iylzd@163.com（国防科学技术大学计算机学院）的方法。

环境： Windows 7 SP1

Microsoft Visual Studio 2010

CUDA 5.0

步骤：

1.首先建立一个空的名叫Matrix Multiplication_KahanMFC的“FCM应用程序”项目：

点击“确定”，这时d出如下窗口

我们需要对默认项目进行一些修改，点击“下一步”，我们设置一个空的MFC项目，选择“单个文档”和“MFC标准”：

点击“完成”。

2.创建CUDA的调用接口函数及其头文件

（1）头文件

“添加”-->“新建项”-->“Visual C++”-->“头文件（.h）”-->“名称”-->“CUDA_Transfer.h” -->“添加”，如下图：

在CUDA_Transfer.h中添加如下代码：

//CUDA_Transfer.h

#include

#include "math.h"

using namespace std

int run_cuda(float* GPU, float* CPU)

如下图所示：

（2）函数

按照和增加头文件相似的方法，添加函数。“添加”-->“新建项”-->“Visual C++”-->“C++文件（.cpp）” -->“名称”-->“CUDA_Transfer.cpp” -->“添加”，如下图：

在CUDA_Transfer.cpp中添加如下代码：

//CUDA_Transfer.cpp

#include "CUDA_Transfer.h"

#include "stdafx.h"

extern "C" int runtest(float* GPU, float* CPU)

int run_cuda(float* GPU, float* CPU)

{

runtest(GPU,CPU)

return 0

}

如下图所示：

需要注意的是在MFC的文件中是不能包含（include）.cu文件的，会报错，所以我们使用extern "C"的方式来实现函数的调用。

3. 创建存放cuda 代码的筛选器，名为CUDA

“添加”-->“新建筛选器”，重命名为CUDA

4. 在筛选器CUDA中创建一个CUDA源代码文件，kernel.cu。

我们直接把已经写好的矩阵相乘的程序kernel.cu复制到项目目录下，添加到CUDA筛选器中去。

添加”-->“现有项”-->“kernel.cu”-->“添加”：

把kernel.cu的int main()函数改为extern "C" int runtest(float* GPU, float* CPU)，两个参数用来获得GPU和CPU计算所使用的时间，单位为毫秒。

5. 右击项目-->“生成自定义”：

在d出的窗口中勾选CUDA 5.0(.target,.props)。如果使用其他版本的CUDA，就勾选对应的版本：

点击“确定”。

6. 修改 kernel.cu的编译链接设置

在解决方案资源管理器中右击kernel.cu文件-->“属性”，在d出窗口中-->“常规”-->“项类型”的下拉列表中选择

点击“应用”后，“常规”下方会出现一个“CUDA C/C++”的设置，没有特殊需求，不需要修改，点击“确定”。

7.修改工程设置。

工程设置需要修改“链接器”-->“输入”-->“附加依赖项”和“生成事件”-->“预先生成事件”-->“命令行”。需要设置的参数比较多，我们采用比较简单的方法。

我们新建一个空的CUDA项目，在这个空CUDA项目的项目属性中找到“链接器”-->“输入”-->“附加依赖项”，把“附加依赖项”中所包含的项复制到我们的MFC项目中：

按照同样的方法，设置“生成事件”-->“预先生成事件”-->“命令行”：

设置完成后，点击“确定”。

8.修改MFC文件，完成调用。

我们需要在MFC中调用CUDA程序，显示出GPU和CPU计算两个1024*1024矩阵相乘所消耗的时间。

在Matrix Multiplication_KahanMFCView.cpp中包含（include）"CUDA_Transfer.h"

文件；在CMatrixMultiplication_KahanMFCView::OnDraw(CDC* pDC)中添加如下代码：

float GPU

float CPU

run_cuda(&GPU, &CPU)

CString strGPU,strCPU

strGPU.Format(_T("GPU:%f \n"),GPU)

strCPU.Format(_T("CPU:%f \n"),CPU)

pDC->TextOut(0,0,strGPU)

pDC->TextOut(0,30,strCPU)

如图所示：

然后重新生成解决方案，运行。

计算要花费一些时间，需要等待，测试的时候可以把矩阵大小改小一些。因为把程序加到了OnDraw中，所以每当刷新窗口时候（例如调整窗口大小时），都会调用。由于计算耗时比较长，窗口看起来会像无响应一样，等计算完成就好了。

运行的结果如下：

在矩阵比较大的情况下，GPU的加速效果明显，GPU耗时只需要620ms，而CPU需要23438ms，要花费将近40倍的时间。

1.在SDK自带的例子程序中，发现SRC文件珜下有.cpp文件和.cu文件。这两种文件的关系和各自的作用是什么呀？

答：SDK自带例子中的.cpp文件主要是一些CPU端处理，或者是使用CPU计算对照组结果，在某些例子中也会在.cpp文件中以函数的形式调用封装成C或者C++函数的GPU端代码.cu文件中通常是与GPU核函数和CUDA　API相关的内容。

2.在SDK自带的例子程序中，有一些带有_kernel的.cu文件，在Visual Studio工程中的图标上有一个红色的符号，是什么意思？

答：大多数SDK例子程序都将设备端代码和主机端代码放在不同的文件中，以template为例如：它的主机端代码在template.cu中，设备端代码在template_kernel.cu中，并且有一个用于对照的CPU 和GPU结果的cpmpute_gold.cpp文件。template_kernel.cu 在visual Studio工程中的符号代表它不参与编译。注意到template.cu文件中已经通过#include"template_kernel.cu"包含了template_kernel.cu。如果要将SDK中的代码直接用于其他工程中，一定要注意将带有_kernel后缀的.cu文件排除在编译外，避免重复定义。

3.为什么编译CUDA程序时，经常出现未定义变量的错误？

答：存储在某些存储器中的某些变量，如__constant__,__device__,texture, 必须在所有的函数定义外定义，即定义的全局变量。这些变量必须有正确的作用域，例如texture型变量必须对设备端代码和主机端代码同时可见，并且如果需要从主机端访问时，也要对主机端代码可见。SDK中的例子通过文件包含解决了这些问题。读者可以将主机端代码和设备端代码都写在一个.cu文件中，或都是将这些变量定义在头文件中（注意避免重复定义）来解决这些问题。

4.为什么在工程中无法使用原子函数，双精度等功能？

答：首先，必须确定目前使用的设备的计算能力版本能支持相应的函数；其次，在编译时，nvcc编译器默认的目标设备为计算能力1.0版本，无法支持高计算能力版本的函数，需要通过-code，-arch等编译选项打开。

5.CUDA程序运行时出现蓝屏、死机等现象，或者打印出kernel luanch timed out？

答：早期版本的CUDA更加容易出现蓝屏或者死机，目前已经大有改善。造成蓝屏、死机、自动重启等现象的常见原因主要有：访问显存时发生趆界、多个线程竞写同一数据。kernel launch timed out的原因是Windows *** 作系统会查询显卡状态，如果显卡长时间没有反应就会重启显卡，这限制了一个kernel的执行时间。经过试验，在XP系统下kernel不能超过12秒，而Vista和Win7 *** 作系统的时间还要更短一些。如果发生这一问题，应该首先检查代码中是否出现了死循环或者竞写，然后采用减小kernel、采用stream *** 作等手段避免。如果确实需要在一个kernel中完成较大的计算量，可以使用更强的显卡、使用专门的Tesla流计算方案、改用Linux *** 作系统，或者使用一块不进行显示的显卡（但是Vista和Win7有时会关闭没有插显示器的显卡）。未来版本的CUDA会对这些问题继续进行改进。

6.为什么在编译或者运行时会出现资源不足的提示？

如果在程序中使用了太多的register,shared,texture或者constant资源，在编译时会出现报错；如果运行中使用了太多的显存，或者是一个block中的线程太多，在运行时会出现错误。在低运算能力版本的硬件上运行为高计算能力设备编写的程序时也会发生错误。在使用变量时，需要注意各种变量的大小不能超过目标设备的计算能力版本本的相应限制，使用的显存也不能超过显存的量（如果这个显卡还需要输出显示，还要减去显示使用的显存大小）。解决资源方法主要有：减少程序使用的资源，注意释放不用的显存和内存，可者将问题进行分治。如果确有需要，应该使用拥有更大存储器的显卡，或者Tesla,Quadro等专业解决方案。

7.为什么时候在程序中无法得到正确的结果？为什么有时每次运行的结果都不同？为什么GPU的结果与CPU的结果不同？

答：由于CUDA中存在大量线程的并行，因此程序中细小的错误也会产生相当严重的后果。造成结果错误的可能原因有：死循环、类型溢出、错误的数据类型、访存赿界、竞写、缺乏同步、编译器因素等。如果是发生多线程竞写一个数据的情况，应该采用原子 *** 作来避免；在shared memory 发生warp间交换 *** 作的数据时，一定要使用栅栏同步保证数据的可靠性；编译器会优化掉它认为多余的的存储访问，要通过valid关键字进行管理；过于复杂的循环有时无法被正确解析，产生错误结果。如果同一个程序对同一组数据每次运行得到的结果不同，一般是发生了竞写，或者缺乏同步。GPU和CPU的运算单元采用了不同的微架构，因此即使都符合IEEE 754规范，结果不一样是理所当然的。由于CPU 中可以使用更长字长的存储器来保存中间变量，因此通常使用CPU计算得到的结果要略高一些。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/12057223.html

如何在MFC中调用CUDA

发表评论

评论列表（0条）