由于CUDA调试工具的不完善、CUDA调试工具上手难度较高,并行思想本身就难调试等因素,CUDA调试一直都是一件很蛋疼的事情。写CUDA也有三四年了,前段时间在群里见别人问CUDA调试的问题,突然有想法写个CUDA调试的博客。自己经验尚浅,希望各位大大看过后能够在评论里指点一二,共同完善这篇博客。
本博客只针对逻辑bug。
1 定位bug
出现bug的第一想法自然是定位bug。cuda比较奇特的地方在于,有时报错bug在500行,但500行出的代码没有错误,而是在1000行的地方逻辑错了,十分头疼。
下面介绍三种我总结的定位bug方法:
1.1 二分法
一半一半的注释代码,定位bug。比较笨拙和麻烦,但是十分好用。
1.2 输出定位法
将整体代码分为几个模块,正常的CUDA代码大概可以分为数据初始化,内存申请,内存拷贝,核函数执行,结果拷贝等模块。在每个模块结束后输出标志,示例如图1。这样在调试时就可以根据输出快速定位bug大约在什么位置。如下图:
1.3 调试工具
对于部分bug,可以用调试工具更快速的定位。
在linux下,对于访存越界等问题,cuda gdb可以直接定位在崩溃那一行。
win下是Nsight,我不熟悉nsight,求大神补充。
2 解决bug
比较简单的bug,定位后基本就一眼就解决了。但对于复杂的bug,还是比较费劲的。
2.1 调试工具
单步调试,打断点。无论是cuda gdb还是Nsight,都可以定位到某一个线程上进行调试,可以说是非常强大。cuda gdb和nsight都有英文官方文档,建议大家都学一学,熟练后调试事半功倍。
但因为大量线程随机并行执行,有时并不知道该定位到哪个线程上;线程调试不容易控制;定位到单线程调试比较费劲,费时间;教程少(虽然有官方文档),上手难度较大一些。这些都是CUDA调试工具没有被广泛接受的原因。
2.2 缩小数据量或线程数并在核函数中打印
大量线程并行是导致CUDA调试难度大的最大原因,尽量的减少并行量是一个非常好的降低调试难度的办法。“小并行”甚至“串行”能够大大方便调试。
在Fermi以后的架构中,可以在核函数中使用printf。
在合理范围内缩小数据量,进而减少线程数,比如输入图像大小改为16*16。或者修改线程为<<<1,1>>>,printf打印,看是否与预期结果相同。
3 预防bug
每一个写CUDAer大概都有花几个小时甚至几天调一个bug的经历。既然bug这么难调,那么预防bug就显得尤其重要了。
3.1 写代码前一定要完全构思好架构
社会快速发展,人的心也变得着急了。写CUDA代码之前,一定要沉得住气,多花点时间在纸上构思代码,将代码模块化,哪里容易出问题,哪里该写输出,哪里该检查。
3.2 函数返回结果检查
函数返回结果检查能够非常好的定位bug,是基本的编程意识。
虽然代码可能看起来会比较冗余,示例如下,也可以参考cuda sample里的代码。
3.3 函数输入检查
在调用比较重要的函数时,建议用assert检查输入参数与预期值是否相同。
3.4 核函数内检查
举个例子,遇到的情况是在拷贝shred memory时,拷贝逻辑比较复杂。此时可以写一个检查函数,以保证拷贝的正确性。
核函数内代码如下:
有以下步骤:1.源程序的编译
在Linux下面,如果要编译一个C语言源程序,我们要使用GNU的gcc编译器. 下面
我们以一个实例来说明如何使用gcc编译器.
假设我们有下面一个非常简单的源程序(hello.c):
int main(int argc,char **argv)
{
printf("Hello Linux\n")
}
要编译这个程序,我们只要在命令行下执行:
gcc -o hello hello.c
gcc 编译器就会为我们生成一个hello的可执行文件.执行./hello就可以看到程
序的输出结果了.命令行中 gcc表示我们是用gcc来编译我们的源程序,-o 选项表示
我们要求编译器给我们输出的可执行文件名为hello 而hello.c是我们的源程序文件.
gcc编译器有许多选项,一般来说我们只要知道其中的几个就够了. -o选项我们
已经知道了,表示我们要求输出的可执行文件名. -c选项表示我们只要求编译器输出
目标代码,而不必要输出可执行文件. -g选项表示我们要求编译器在编译的时候提
供我们以后对程序进行调试的信息.
知道了这三个选项,我们就可以编译我们自己所写的简单的源程序了,如果你
想要知道更多的选项,可以查看gcc的帮助文档,那里有着许多对其它选项的详细说
明.
2.Makefile的编写
假设我们有下面这样的一个程序,源代码如下:
#include "mytool1.h"
#include "mytool2.h"
int main(int argc,char **argv)
{
mytool1_print("hello")
mytool2_print("hello")
}
#ifndef _MYTOOL_1_H
#define _MYTOOL_1_H
void mytool1_print(char *print_str)
#endif
#include "mytool1.h"
void mytool1_print(char *print_str)
{
printf("This is mytool1 print %s\n",print_str)
}
#ifndef _MYTOOL_2_H
#define _MYTOOL_2_H
void mytool2_print(char *print_str)
#endif
#include "mytool2.h"
void mytool2_print(char *print_str)
{
printf("This is mytool2 print %s\n",print_str)
}
当然由于这个程序是很短的我们可以这样来编译
gcc -c main.c
gcc -c mytool1.c
gcc -c mytool2.c
gcc -o main main.o mytool1.o mytool2.o
这样的话我们也可以产生main程序,而且也不时很麻烦.但是如果我们考虑一
下如果有一天我们修改了其中的一个文件(比如说mytool1.c)那么我们难道还要重
新输入上面的命令?也许你会说,这个很容易解决啊,我写一个SHELL脚本,让她帮我
去完成不就可以了.是的对于这个程序来说,是可以起到作用的.但是当我们把事情
想的更复杂一点,如果我们的程序有几百个源程序的时候,难道也要编译器重新一
个一个的去编译?
为此,聪明的程序员们想出了一个很好的工具来做这件事情,这就是make.我们
只要执行以下make,就可以把上面的问题解决掉.在我们执行make之前,我们要先
编写一个非常重要的文件.--Makefile.对于上面的那个程序来说,可能的一个
Makefile的文件是:
# 这是上面那个程序的Makefile文件
main:main.o mytool1.o mytool2.o
gcc -o main main.o mytool1.o mytool2.o
main.o:main.c mytool1.h mytool2.h
gcc -c main.c
mytool1.o:mytool1.c mytool1.h
gcc -c mytool1.c
mytool2.o:mytool2.c mytool2.h
gcc -c mytool2.c
有了这个Makefile文件,不过我们什么时候修改了源程序当中的什么文件,我们
只要执行make命令,我们的编译器都只会去编译和我们修改的文件有关的文件,其
它的文件她连理都不想去理的.
下面我们学习Makefile是如何编写的.
在Makefile中也#开始的行都是注释行.Makefile中最重要的是描述文件的依赖
关系的说明.一般的格式是:
target: components
TAB rule
第一行表示的是依赖关系.第二行是规则.
比如说我们上面的那个Makefile文件的第二行
main:main.o mytool1.o mytool2.o
表示我们的目标(target)main的依赖对象(components)是main.o mytool1.o
mytool2.o 当倚赖的对象在目标修改后修改的话,就要去执行规则一行所指定的命
令.就象我们的上面那个Makefile第三行所说的一样要执行 gcc -o main main.o
mytool1.o mytool2.o 注意规则一行中的TAB表示那里是一个TAB键
Makefile有三个非常有用的变量.分别是$@,$^,$<代表的意义分别是:
$@--目标文件,$^--所有的依赖文件,$<--第一个依赖文件.
如果我们使用上面三个变量,那么我们可以简化我们的Makefile文件为:
# 这是简化后的Makefile
main:main.o mytool1.o mytool2.o
gcc -o $@ $^
main.o:main.c mytool1.h mytool2.h
gcc -c $<
mytool1.o:mytool1.c mytool1.h
gcc -c $<
mytool2.o:mytool2.c mytool2.h
gcc -c $<
经过简化后我们的Makefile是简单了一点,不过人们有时候还想简单一点.这里
我们学习一个Makefile的缺省规则
.c.o:
gcc -c $<
这个规则表示所有的 .o文件都是依赖与相应的.c文件的.例如mytool.o依赖于
mytool.c这样Makefile还可以变为:
# 这是再一次简化后的Makefile
main:main.o mytool1.o mytool2.o
gcc -o $@ $^
.c.o:
gcc -c $<
好了,我们的Makefile 也差不多了,如果想知道更多的关于Makefile规则可以查
看相应的文档.
3.程序库的链接
试着编译下面这个程序
#include
int main(int argc,char **argv)
{
double value
printf("Value:%f\n",value)
}
这个程序相当简单,但是当我们用 gcc -o temp temp.c 编译时会出现下面所示
的错误.
/tmp/cc33Kydu.o: In function `main':
/tmp/cc33Kydu.o(.text+0xe): undefined reference to `log'
collect2: ld returned 1 exit status
出现这个错误是因为编译器找不到log的具体实现.虽然我们包括了正确的头
文件,但是我们在编译的时候还是要连接确定的库.在Linux下,为了使用数学函数,我
们必须和数学库连接,为此我们要加入 -lm 选项. gcc -o temp temp.c -lm这样才能够
正确的编译.也许有人要问,前面我们用printf函数的时候怎么没有连接库呢?是这样
的,对于一些常用的函数的实现,gcc编译器会自动去连接一些常用库,这样我们就没
有必要自己去指定了. 有时候我们在编译程序的时候还要指定库的路径,这个时候
我们要用到编译器的 -L选项指定路径.比如说我们有一个库在 /home/hoyt/mylib下
,这样我们编译的时候还要加上 -L/home/hoyt/mylib.对于一些标准库来说,我们没
有必要指出路径.只要它们在起缺省库的路径下就可以了.系统的缺省库的路径/lib
/usr/lib /usr/local/lib 在这三个路径下面的库,我们可以不指定路径.
还有一个问题,有时候我们使用了某个函数,但是我们不知道库的名字,这个时
候怎么办呢?很抱歉,对于这个问题我也不知道答案,我只有一个傻办法.首先,我到
标准库路径下面去找看看有没有和我用的函数相关的库,我就这样找到了线程
(thread)函数的库文件(libpthread.a). 当然,如果找不到,只有一个笨方法.比如我要找
sin这个函数所在的库. 就只好用 nm -o /lib/*.so|grep sin>~/sin 命令,然后看~/sin
文件,到那里面去找了. 在sin文件当中,我会找到这样的一行libm-2.1.2.so:00009fa0
W sin 这样我就知道了sin在 libm-2.1.2.so库里面,我用 -lm选项就可以了(去掉前面
的lib和后面的版本标志,就剩下m了所以是 -lm).
4.程序的调试
我们编写的程序不太可能一次性就会成功的,在我们的程序当中,会出现许许
多多我们想不到的错误,这个时候我们就要对我们的程序进行调试了.
最常用的调试软件是gdb.如果你想在图形界面下调试程序,那么你现在可以选
择xxgdb.记得要在编译的时候加入 -g选项.关于gdb的使用可以看gdb的帮助文件.由
于我没有用过这个软件,所以我也不能够说出如何使用. 不过我不喜欢用gdb.跟踪
一个程序是很烦的事情,我一般用在程序当中输出中间变量的值来调试程序的.当
然你可以选择自己的办法,没有必要去学别人的.现在有了许多IDE环境,里面已经自
己带了调试器了.你可以选择几个试一试找出自己喜欢的一个用.
5.头文件和系统求助
有时候我们只知道一个函数的大概形式,不记得确切的表达式,或者是不记得函数在那个头文件进行了说明.这个时候我们可以求助系统,比如说我们想知道fread这个函数的确切形式,我们只要执行 man fread 系统就会输出着函数的详细解释的.和这个函数所在的头文件说明了。如果我们要write这个函数说明,当我们执行man write时,输出的结果却不是我们所需要的。因为我们要的是write这个函数的说明,可是出来的却是write这个命令的说明。为了得到write的函数说明我们要用man 2 write。2表示我们用的是write这个函数是系统调用函数,还有一个我们常用的是3表示函数是c的库函数。
1、在英伟达的官网上下载对应系统版本的cuda5.5工具包,我的笔记本是32位的,下载的包是cuda_5.5.22_linux_32.run,当然下载deb包也可以,deb包可双击安装。推荐使用run包。2、检查自己的系统是否符合安装条件,这一点很重要,我开始没有检测GCC,导致后面几次安装失败。命令$lspci | grep -i nvidia ,检测电脑是否安装NVIDIA显卡,命令$gcc --version,检测GCC版本,注意:CUDA5.5只支持GCC4.6版本,如果显示的不是下图所示,则需要重新将GCC链接。同时安装头文件和编译环境$sudo apt-get install linux-headers-$(uname -r) build-essential
3、gcc版本是4.6的跳过此步。如果gcc版本不是4.6的,则需要将GCC重新链接,在目录/usr/bin下,只需两个命令即可完成重新链接。
$sudo mv gcc gcc.bak
$sudo ln -s gcc-4.6 gcc
4、删除之前的Ubuntu nvidia驱动包,$sudo apt-get –purge remove nvidia*,并将开源驱动nouveau屏蔽掉,使用命令$sudo vim /etc/modprobe.d/blacklist.conf,添加blacklist vga16fb blacklist nouveau blacklist rivafb blacklist nvidiafb blacklist rivatv。
5、关闭图形环境,$sudo stop lightdm,按Ctrl+Alt+F1,打开一个终端,登录。进入下载的Ubuntu nvidia驱动安装文件所在目录,$sudo sh ./cuda_5.5.22_linux_32.run命令进行安装。如果遇到failed,不用着急,打开安装log,排查问题,warning不用管,看ERROR。
6、安装完成后,需要重启。此时电脑清晰多了,说明安装成功。 从事GPU开发的我们还需要装上cuda和openCL库的支持:$sudo apt-get install nvidia-current-dev。
注意事项
ubuntu不需要重新编译内核,记得centos和red hat需要,命令也简单:$sudo dracut -v /boot/initramfs-$(uname -r).img $(uname -r)
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)