Ubuntu20.04+3090ti+cudatoolkit=11.3+tensorflow-gpu=2.6+pytorch=1.10 环境配置踩坑记录 可通过配置文件迁移引用

Ubuntu20.04+3090ti+cudatoolkit=11.3+tensorflow-gpu=2.6+pytorch=1.10 环境配置踩坑记录 可通过配置文件迁移引用,第1张

Ubuntu20.04+3090ti+cudatoolkit=11.3+tensorflow-gpu=2.6.2+pytorch=1.10.2 环境配置

最近实验室刚配了一台3090ti的服务器用来跑实验,最近经过几天的折腾终于把tensoflow和pytorch的环境搭建好了,下面就把踩过的坑讲一下,希望能帮助一些同样需要配置的伙伴。

说明:本博客非教程帖,非保姆教程,有些步骤并没有记录,所以不要按我下面的指令配置,只是提供参考和说明。

1、基础条件:
CPU:Intel i9 12900KF,
GPU:微星3090ti 24GB显存,
系统:Ubuntu 20.04
显卡驱动: 510.54

2、第一个坑:显卡驱动不用非得装最新,也不用非得装官网的驱动。
通过命令查看自己显卡的驱动版本:

nvidia-smi


开始我是从官网下载的驱动,然后通过tty命令装的,但是在装的过程中出错了,所以又重装的系统,后来就直接使用Ubuntu 系统的包装的,这样流程相对简单,事实证明也没有问题。

3、第二个坑:cuda和cudnn的安装

这里通过上面的图片可以看到CUDA Version: 11.6
这里的cuda版本其实并不是系统的cuda真实版本,我的理解是该驱动下可以支持的cuda最高版本

nvcc -V


通过 nvcc -V 命令可以看到,我安装的的cuda版本为11.0,只要是11.0以上版本应该都是可以的

3090系列的显卡必须保证cuda版本为11.0以上,这里务必注意

如果你的nvcc -V 命令并不能输出cuda版本,如果看到这里的你准备去安装cuda的话,我劝你可以先不用去装cuda,直接进行后面的tensorflow和pytorch配置,这也就是第二个坑,在后面的配置你会发现,conda虚拟环境中会重新安装cudatoolkit,所以cuda不是必须安装的,在虚拟环境中安装完全可以。 所以看到这里的你可以停一停,不用先着急配置cuda,除非你有其他的需求显卡的需求。

4、tensorflow-gpu配置

这里我是使用的Anaconda3进行的环境配置,所以以下的说明都是在conda虚拟环境中进行的。

tensorflow-gpu安装过程中会伴随安装一个cudatoolkit包,安装确认之前(Yes/No),务必查看自己安装的tensorflow-gpu版本伴随安装的cudatoolkit版本,保证在11.0以上

第三个坑:conda命令下的tensorflow-gpu版本过低,使用pip安装更高版本
如果你使用conda命令安装,即

conda install tensorflow-gpu

在python=3.6的版本下,最高只支持到了2.4.1。但是tensorflow-gpu==2.4.1伴随安装的是cudatoolkit==10.1,在3090ti中无法使用进行加速运算,在后面跑程序的时候你会发现,数据会放到显存中,但是无法运算。

# 查看库中的各版本
conda search tensorflow-gpu


所以这里我们要使用的是pip进行安装,pip 库中包含更高版本的tensorflow-gpu,

#先查看pip下tensorflow的版本
pip install tensorflow-gpu==

python=3.6环境下安装tensorflow-gpu==2.6.2

pip install tensorflow-gpu==2.6.2

python=3.7环境下安装tensorflow-gpu==2.8.0

pip install tensorflow-gpu==2.8.0

然后再使用conda 安装cudatoolkit==11.3.1

conda install cudatoolkit==11.3.1

5、pytorch配置

pytorch配置和tensorflow一样,需要注意的是在安装包之前,确认使用的cudatoolkit版本大于11.0,否则安装更高版本的pytorch。
这里python==3.6环境下,pytorch安装1.10.0以上版本

这里我还遇到了一个python=3.6的小版本过低的问题,最后升级到python==3.6.13小问题解决,所以尽量使用当前的最新python版本。

期间我还遇到了其他的小问题,比如python=3.7下的包可以使用,但是配置到3.6版本下就无法使用了。

总结:

1、进行深度学习框架的安装,cudn可以在虚拟环境中安装,外部不配置也可以

**

2、3090ti 在进行tensorflow-gpu和pytorch安装的过程中,确保cudatoolkit的版本大于11.0,若在安装其他包的时候,伴随将cudatoolkit降级的 *** 作,谨慎进行,查看安装更高版本

**

3、conda下的某些包版本并不高,可以配合使用pip进行安装

最后给出我的两套环境下的yml配置文件,同样3090ti的显卡下,可以查看或者直接安装我的配置:

py36
python=3.6.13
tensorflow-gpu=2.6.2
tensorboard=2.6.0
keras=2.6.0
pytorch=1.10.2
scikit-learn=0.24.2
cudatoolkit=11.3.1
配置文件下载

py37
python=3.7.13
tensorflow-gpu=2.8.0
tensorboard=2.8.0
keras=2.8.0
pytorch=1.11.0
scikit-learn=1.0.2
cudatoolkit=11.3.1
配置文件下载

# 重现我的虚拟环境
conda env create -f environment.yml

希望能帮助一些小伙伴,少踩一些坑,有理解的不对的或者未说清楚的,欢迎指正交流~

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/715502.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-25
下一篇 2022-04-25

发表评论

登录后才能评论

评论列表(0条)

保存