裸机到yolov5GPU开始训练

裸机到yolov5GPU开始训练,第1张

裸机开始部署显卡驱动+CUDA+cudnn CUDA起手(关键)

一般的教程都从安装显卡驱动开始,但是因为现在的各种pytorch版本支持的CUDA不一样,一个小小版本的不合适就会导致最后训练的时候出问题。


所以首先我们要确定自己需要的CUDA版本。



我们可以使用pytorch官网的配置方法配置,这样出错的概率会比较低,当前网站https://pytorch.org/中的配置方法如图
我们可以使用(但是先不要使用,后边再使用)在anaconda中创建的环境进行pytorch的配置。


conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch

从中我们看到cudatoolkit的版本为11.3,我们则去CUDA官网下载11.3版本的CUDA https://developer.nvidia.com/cuda-toolkit-archive
如图选择我们ubuntu18.04系统对应的CUDA11.3的runfile
我们注意到CUDA中wget的命令行里,CUDA11.3.1后面还有一段数字:cuda_11.3.1_465.19.01_linux.run
这个465.19.01就是本CUDA版本需要NVIDA显卡驱动在465.19.01版本以上。


所以我们需要到NVIDIA官网:https://www.nvidia.com/en-us/geforce/drivers/(破玩意真TM卡)上下载465.19.01版本以上的显卡驱动就可以。


显卡驱动继续

下载好后使用下述命令可以查看 nouveau 驱动是否运行:

lsmod | grep nouveau

若出现下述结果:

nouveau 1863680 9
video 49152 1 nouveau
ttm 102400 1 nouveau
mxm_wmi 16384 1 nouveau
drm_kms_helper 180224 1 nouveau
drm 479232 12 drm_kms_helper,ttm,nouveau
i2c_algo_bit 16384 2 igb,nouveau
wmi 28672 4 intel_wmi_thunderbolt,wmi_bmof,mxm_wmi,nouveau
说明 nouveau 驱动正在运行。


2.运行下述命令禁用该驱动:

sudo bash -c "echo blacklist nouveau > /etc/modprobe.d/blacklist-nvidia-nouveau.conf"
sudo bash -c "echo options nouveau modeset=0 >> /etc/modprobe.d/blacklist-nvidia-nouveau.conf"

检查命令是否正确:

cat /etc/modprobe.d/blacklist-nvidia-nouveau.conf

若出现下述结果说明命令正确:

blacklist nouveau
options nouveau modeset=0

3.更新设置并重启:

sudo update-initramfs -u
sudo reboot

4.重启后重新输入下述命令:

lsmod | grep nouveau

若没有任何输出说明禁用 nouveau 驱动成功

之后可以开始安装了
首先进入命令行模式: 一般的电脑是ctrl+alt+F2~F7进入命令行界面,ctrl+alt+F1回到图形化界面。



也有我这种戴尔的ctrl+alt+F7是进入图形界面ctrl+alt+F1-F6才是进入命令行界面的(不重要)
进入后输入你的用户名和密码,之后命令行输入

sudo service lightdm stop

禁用图形化界面,这时候就无法进入图形化界面了。



如果中途发现有问题可以使用

sudo service lightdm start

重新激活图形化界面,你就可以回来了。


会到上面,stop之后进入你英伟达显卡驱动的目录,使用官方文档里说的

sudo ./NVIDIA-Linux-x86_64-510.39.01.run

注意自己换自己的版本号!!!
安装就好了,一路yes,直到最后提示complete。


打开终端,输入nvidia-smi显示出信息就说明你安装成功了

回到CUDA

把驱动装好了就回来安装CUDA吧,到刚才wget下载的CUDA目录下,执行

sudo sh 你的安装文件

然后选择的时候把driver去掉,因为我们上一步已经装好了

cudnn收尾

这个就按照你的CUDA版本找对应的cudnn的把include和lib64的文件拷进CUDA路径下,网上教程太多了,随便找一个就行。


安装好了环境,到YOLOv5了

在官网下载最新的yolov5-master
下载之后在anaconda里创建一个YOLOv5的环境,anaconda环境网上随便找个教程都有装的,支持python3.8以上的就行。



在你的终端前面都有个(base)之后,执行

conda create -n yoloGPU python==3.8

生成一个用来GPU训练的环境,这时候可以执行最早pytorch官网里的那条了

conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch

慢的话请参考https://blog.csdn.net/weixin_43226196/article/details/122710103
(谢谢大佬的帖子,快多了)

装好之后进入yolo的目录,安装yolo的依赖

pip3 install -r requirement.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

后面的-i是换成清华源安装,会快很多

至此所有的yolo配置已经完成,开始训练吧。


记得调用train.py脚本的时候加参数–decive 0

但是!没想到吧,还有其他援助。



yolov5的预训练权重下载不下来,因为源是google drive的,文件夹里自带的脚本调用safe_download也基本没有速度,这时候你需要一个外国朋友帮你去github下载。


什么?没有外国朋友怎么办?自己爬墙结交外国朋友去吧(只能帮到这了,怎么爬墙自己想办法吧)

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/568356.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-09
下一篇 2022-04-09

发表评论

登录后才能评论

评论列表(0条)

保存