如何进行CUDA C程序核函数的调试_系统运维

由于CUDA调试工具的不完善、CUDA调试工具上手难度较高，并行思想本身就难调试等因素，CUDA调试一直都是一件很蛋疼的事情。写CUDA也有三四年了，前段时间在群里见别人问CUDA调试的问题，突然有想法写个CUDA调试的博客。自己经验尚浅，希望各位大大看过后能够在评论里指点一二，共同完善这篇博客。

本博客只针对逻辑bug。

1 定位bug

出现bug的第一想法自然是定位bug。cuda比较奇特的地方在于，有时报错bug在500行，但500行出的代码没有错误，而是在1000行的地方逻辑错了，十分头疼。

下面介绍三种我总结的定位bug方法：

1.1 二分法

一半一半的注释代码，定位bug。比较笨拙和麻烦，但是十分好用。

1.2 输出定位法

将整体代码分为几个模块，正常的CUDA代码大概可以分为数据初始化，内存申请，内存拷贝，核函数执行，结果拷贝等模块。在每个模块结束后输出标志，示例如图1。这样在调试时就可以根据输出快速定位bug大约在什么位置。如下图：

1.3 调试工具

对于部分bug，可以用调试工具更快速的定位。

在linux下，对于访存越界等问题，cuda gdb可以直接定位在崩溃那一行。

win下是Nsight，我不熟悉nsight，求大神补充。

2 解决bug

比较简单的bug，定位后基本就一眼就解决了。但对于复杂的bug，还是比较费劲的。

2.1 调试工具

单步调试，打断点。无论是cuda gdb还是Nsight，都可以定位到某一个线程上进行调试，可以说是非常强大。cuda gdb和nsight都有英文官方文档，建议大家都学一学，熟练后调试事半功倍。

但因为大量线程随机并行执行，有时并不知道该定位到哪个线程上；线程调试不容易控制；定位到单线程调试比较费劲，费时间；教程少（虽然有官方文档），上手难度较大一些。这些都是CUDA调试工具没有被广泛接受的原因。

2.2 缩小数据量或线程数并在核函数中打印

大量线程并行是导致CUDA调试难度大的最大原因，尽量的减少并行量是一个非常好的降低调试难度的办法。“小并行”甚至“串行”能够大大方便调试。

在Fermi以后的架构中，可以在核函数中使用printf。

在合理范围内缩小数据量，进而减少线程数，比如输入图像大小改为16*16。或者修改线程为<<<1,1>>>，printf打印，看是否与预期结果相同。

3 预防bug

每一个写CUDAer大概都有花几个小时甚至几天调一个bug的经历。既然bug这么难调，那么预防bug就显得尤其重要了。

3.1 写代码前一定要完全构思好架构

社会快速发展，人的心也变得着急了。写CUDA代码之前，一定要沉得住气，多花点时间在纸上构思代码，将代码模块化，哪里容易出问题，哪里该写输出，哪里该检查。

3.2 函数返回结果检查

函数返回结果检查能够非常好的定位bug，是基本的编程意识。

虽然代码可能看起来会比较冗余，示例如下，也可以参考cuda sample里的代码。

3.3 函数输入检查

在调用比较重要的函数时，建议用assert检查输入参数与预期值是否相同。

3.4 核函数内检查

举个例子，遇到的情况是在拷贝shred memory时，拷贝逻辑比较复杂。此时可以写一个检查函数，以保证拷贝的正确性。

核函数内代码如下：

有以下步骤：

1.源程序的编译

在Linux下面,如果要编译一个C语言源程序,我们要使用GNU的gcc编译器. 下面

我们以一个实例来说明如何使用gcc编译器.

假设我们有下面一个非常简单的源程序(hello.c):

int main(int argc,char **argv)

{

printf("Hello Linux\n")

}

要编译这个程序,我们只要在命令行下执行:

gcc -o hello hello.c

gcc 编译器就会为我们生成一个hello的可执行文件.执行./hello就可以看到程

序的输出结果了.命令行中 gcc表示我们是用gcc来编译我们的源程序,-o 选项表示

我们要求编译器给我们输出的可执行文件名为hello 而hello.c是我们的源程序文件.

gcc编译器有许多选项,一般来说我们只要知道其中的几个就够了. -o选项我们

已经知道了,表示我们要求输出的可执行文件名. -c选项表示我们只要求编译器输出

目标代码,而不必要输出可执行文件. -g选项表示我们要求编译器在编译的时候提

供我们以后对程序进行调试的信息.

知道了这三个选项,我们就可以编译我们自己所写的简单的源程序了,如果你

想要知道更多的选项,可以查看gcc的帮助文档,那里有着许多对其它选项的详细说

明.

2.Makefile的编写

假设我们有下面这样的一个程序,源代码如下:

#include "mytool1.h"

#include "mytool2.h"

int main(int argc,char **argv)

{

mytool1_print("hello")

mytool2_print("hello")

}

#ifndef _MYTOOL_1_H

#define _MYTOOL_1_H

void mytool1_print(char *print_str)

#endif

#include "mytool1.h"

void mytool1_print(char *print_str)

{

printf("This is mytool1 print %s\n",print_str)

}

#ifndef _MYTOOL_2_H

#define _MYTOOL_2_H

void mytool2_print(char *print_str)

#endif

#include "mytool2.h"

void mytool2_print(char *print_str)

{

printf("This is mytool2 print %s\n",print_str)

}

当然由于这个程序是很短的我们可以这样来编译

gcc -c main.c

gcc -c mytool1.c

gcc -c mytool2.c

gcc -o main main.o mytool1.o mytool2.o

这样的话我们也可以产生main程序,而且也不时很麻烦.但是如果我们考虑一

下如果有一天我们修改了其中的一个文件(比如说mytool1.c)那么我们难道还要重

新输入上面的命令?也许你会说,这个很容易解决啊,我写一个SHELL脚本,让她帮我

去完成不就可以了.是的对于这个程序来说,是可以起到作用的.但是当我们把事情

想的更复杂一点,如果我们的程序有几百个源程序的时候,难道也要编译器重新一

个一个的去编译?

为此,聪明的程序员们想出了一个很好的工具来做这件事情,这就是make.我们

只要执行以下make,就可以把上面的问题解决掉.在我们执行make之前,我们要先

编写一个非常重要的文件.--Makefile.对于上面的那个程序来说,可能的一个

Makefile的文件是:

# 这是上面那个程序的Makefile文件

main:main.o mytool1.o mytool2.o

gcc -o main main.o mytool1.o mytool2.o

main.o:main.c mytool1.h mytool2.h

gcc -c main.c

mytool1.o:mytool1.c mytool1.h

gcc -c mytool1.c

mytool2.o:mytool2.c mytool2.h

gcc -c mytool2.c

有了这个Makefile文件,不过我们什么时候修改了源程序当中的什么文件,我们

只要执行make命令,我们的编译器都只会去编译和我们修改的文件有关的文件,其

它的文件她连理都不想去理的.

下面我们学习Makefile是如何编写的.

在Makefile中也#开始的行都是注释行.Makefile中最重要的是描述文件的依赖

关系的说明.一般的格式是:

target: components

TAB rule

第一行表示的是依赖关系.第二行是规则.

比如说我们上面的那个Makefile文件的第二行

main:main.o mytool1.o mytool2.o

表示我们的目标(target)main的依赖对象(components)是main.o mytool1.o

mytool2.o 当倚赖的对象在目标修改后修改的话,就要去执行规则一行所指定的命

令.就象我们的上面那个Makefile第三行所说的一样要执行 gcc -o main main.o

mytool1.o mytool2.o 注意规则一行中的TAB表示那里是一个TAB键

Makefile有三个非常有用的变量.分别是$@,$^,$<代表的意义分别是:

$@--目标文件,$^--所有的依赖文件,$<--第一个依赖文件.

如果我们使用上面三个变量,那么我们可以简化我们的Makefile文件为:

# 这是简化后的Makefile

main:main.o mytool1.o mytool2.o

gcc -o $@ $^

main.o:main.c mytool1.h mytool2.h

gcc -c $<

mytool1.o:mytool1.c mytool1.h

gcc -c $<

mytool2.o:mytool2.c mytool2.h

gcc -c $<

经过简化后我们的Makefile是简单了一点,不过人们有时候还想简单一点.这里

我们学习一个Makefile的缺省规则

.c.o:

gcc -c $<

这个规则表示所有的 .o文件都是依赖与相应的.c文件的.例如mytool.o依赖于

mytool.c这样Makefile还可以变为:

# 这是再一次简化后的Makefile

main:main.o mytool1.o mytool2.o

gcc -o $@ $^

.c.o:

gcc -c $<

好了,我们的Makefile 也差不多了,如果想知道更多的关于Makefile规则可以查

看相应的文档.

3.程序库的链接

试着编译下面这个程序

#include

int main(int argc,char **argv)

{

double value

printf("Value:%f\n",value)

}

这个程序相当简单,但是当我们用 gcc -o temp temp.c 编译时会出现下面所示

的错误.

/tmp/cc33Kydu.o: In function `main':

/tmp/cc33Kydu.o(.text+0xe): undefined reference to `log'

collect2: ld returned 1 exit status

出现这个错误是因为编译器找不到log的具体实现.虽然我们包括了正确的头

文件,但是我们在编译的时候还是要连接确定的库.在Linux下,为了使用数学函数,我

们必须和数学库连接,为此我们要加入 -lm 选项. gcc -o temp temp.c -lm这样才能够

正确的编译.也许有人要问,前面我们用printf函数的时候怎么没有连接库呢?是这样

的,对于一些常用的函数的实现,gcc编译器会自动去连接一些常用库,这样我们就没

有必要自己去指定了. 有时候我们在编译程序的时候还要指定库的路径,这个时候

我们要用到编译器的 -L选项指定路径.比如说我们有一个库在 /home/hoyt/mylib下

,这样我们编译的时候还要加上 -L/home/hoyt/mylib.对于一些标准库来说,我们没

有必要指出路径.只要它们在起缺省库的路径下就可以了.系统的缺省库的路径/lib

/usr/lib /usr/local/lib 在这三个路径下面的库,我们可以不指定路径.

还有一个问题,有时候我们使用了某个函数,但是我们不知道库的名字,这个时

候怎么办呢?很抱歉,对于这个问题我也不知道答案,我只有一个傻办法.首先,我到

标准库路径下面去找看看有没有和我用的函数相关的库,我就这样找到了线程

(thread)函数的库文件(libpthread.a). 当然,如果找不到,只有一个笨方法.比如我要找

sin这个函数所在的库. 就只好用 nm -o /lib/*.so|grep sin>~/sin 命令,然后看~/sin

文件,到那里面去找了. 在sin文件当中,我会找到这样的一行libm-2.1.2.so:00009fa0

W sin 这样我就知道了sin在 libm-2.1.2.so库里面,我用 -lm选项就可以了(去掉前面

的lib和后面的版本标志,就剩下m了所以是 -lm).

4.程序的调试

我们编写的程序不太可能一次性就会成功的,在我们的程序当中,会出现许许

多多我们想不到的错误,这个时候我们就要对我们的程序进行调试了.

最常用的调试软件是gdb.如果你想在图形界面下调试程序,那么你现在可以选

择xxgdb.记得要在编译的时候加入 -g选项.关于gdb的使用可以看gdb的帮助文件.由

于我没有用过这个软件,所以我也不能够说出如何使用. 不过我不喜欢用gdb.跟踪

一个程序是很烦的事情,我一般用在程序当中输出中间变量的值来调试程序的.当

然你可以选择自己的办法,没有必要去学别人的.现在有了许多IDE环境,里面已经自

己带了调试器了.你可以选择几个试一试找出自己喜欢的一个用.

5.头文件和系统求助

有时候我们只知道一个函数的大概形式,不记得确切的表达式,或者是不记得函数在那个头文件进行了说明.这个时候我们可以求助系统，比如说我们想知道fread这个函数的确切形式,我们只要执行 man fread 系统就会输出着函数的详细解释的.和这个函数所在的头文件说明了。如果我们要write这个函数说明，当我们执行man write时，输出的结果却不是我们所需要的。因为我们要的是write这个函数的说明，可是出来的却是write这个命令的说明。为了得到write的函数说明我们要用man 2 write。2表示我们用的是write这个函数是系统调用函数，还有一个我们常用的是3表示函数是c的库函数。

1、在英伟达的官网上下载对应系统版本的cuda5.5工具包，我的笔记本是32位的，下载的包是cuda_5.5.22_linux_32.run，当然下载deb包也可以，deb包可双击安装。推荐使用run包。

2、检查自己的系统是否符合安装条件，这一点很重要，我开始没有检测GCC，导致后面几次安装失败。命令$lspci | grep -i nvidia ，检测电脑是否安装NVIDIA显卡，命令$gcc --version,检测GCC版本，注意：CUDA5.5只支持GCC4.6版本，如果显示的不是下图所示，则需要重新将GCC链接。同时安装头文件和编译环境$sudo apt-get install linux-headers-$(uname -r) build-essential

3、gcc版本是4.6的跳过此步。如果gcc版本不是4.6的，则需要将GCC重新链接，在目录/usr/bin下，只需两个命令即可完成重新链接。

$sudo mv gcc gcc.bak

$sudo ln -s gcc-4.6 gcc

4、删除之前的Ubuntu nvidia驱动包，$sudo apt-get –purge remove nvidia*,并将开源驱动nouveau屏蔽掉，使用命令$sudo vim /etc/modprobe.d/blacklist.conf，添加blacklist vga16fb blacklist nouveau blacklist rivafb blacklist nvidiafb blacklist rivatv。

5、关闭图形环境，$sudo stop lightdm，按Ctrl＋Alt＋F1，打开一个终端，登录。进入下载的Ubuntu nvidia驱动安装文件所在目录,$sudo sh ./cuda_5.5.22_linux_32.run命令进行安装。如果遇到failed，不用着急，打开安装log，排查问题，warning不用管，看ERROR。

6、安装完成后，需要重启。此时电脑清晰多了，说明安装成功。从事GPU开发的我们还需要装上cuda和openCL库的支持：$sudo apt-get install nvidia-current-dev。

注意事项

ubuntu不需要重新编译内核，记得centos和red hat需要，命令也简单：$sudo dracut -v /boot/initramfs-$(uname -r).img $(uname -r)

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/7165846.html

如何进行CUDA C程序核函数的调试

发表评论

评论列表（0条）