珍岛GPU云服务器适用于深度学习,针对AI,数据分析在各种规模上实现出色的加速,应对极其严峻的计算挑战,同时珍岛云提供多种GPU实例规格。推荐品牌: LINKZOL(联众集群);
可以参考其官网;
*** 作系统可以安装Ubuntu 1404 LTS,需要如下软件:
编译器:GNU编译器,包括C/C++/Fortran编译器;
Intel编译器,包括C/C++/Fortran编译器、MKL、等;
并行环境:OpenMPI、MPICH等MPI并行环境;
GPU开发环境:最新CUDA驱动、编译器、调试器、SDK及例子文件等;
cuDNN加速,CUDA FFT、CUDA BLAS等;
深度学习框架:Caffe, Torch, Theano, BIDMach、TensorFlow;其中,Caffe需要编译提供python接口和Matla(支持mex编译)接口;
DNN平台:基于B/S架构,便于用户实时且可视化地进行DNN的训练、测试
推荐配置一:
计算平台采用:LZ743GR-2G/Q
系统:Ubuntu 14043 x64
CPU:Intel Xeon十核E5-2630v4(22GHz,80 GT/s)
内存:原厂64GB内存 (16GB×4) DDR4 2133MHZ ECC-REG(带内存校错技术,最大支持2T)
系统硬盘:INTEL 25寸240G 企业级SSD固态硬盘(最大支持8块硬盘,类型:SATA,SSD)
系统硬盘:希捷35寸4T 7200RPM 企业级硬盘(最大支持8块硬盘,类型:SATA,SSD;)
GPU卡:2块NVIDIA TATAN-X GPU卡 (CUDA核心数3584个核心,12G DDR5 显存,最大2个GPU卡)
电源:1200W High efficiency (96%)金牌电源
推荐配置二:
计算平台采用:LZ-748GT
系统:Ubuntu 14043 x64
CPU:Intel Xeon十二核E5-2650v4(22GHz,96 GT/s)
内存:原厂256GB内存 (16GB×16) DDR4 2133MHZ ECC-REG(带内存校错技术,最大支持2T)
系统硬盘:2块INTEL 25寸480G 企业级SSD固态硬盘(最大支持8块硬盘,类型:SATA,SSD)
系统硬盘:3块希捷35寸4T 7200RPM 企业级硬盘(最大支持8块硬盘,类型:SATA,SSD;)
GPU卡:4块TESLA TITANX GPU计算卡或者4块tesla P4O GPU卡 (CUDA核心数3584个核心,12G DDR5 显存,最大4个GPU卡)
电源:2000W High efficiency (94%)冗余钛金电源
推荐配置三:
计算平台采用:LZ428GR-8G/Q
系统:Ubuntu 14043 x64
CPU:Intel Xeon十四核E5-2690v4(26GHz,96GT/s)
内存:原厂256GB内存 (16GB×16) DDR4 2133MHZ ECC-REG(带内存校错技术,最大支持2T)
系统硬盘:2块INTEL 25寸480G 企业级SSD固态硬盘(最大支持8块硬盘,类型:SATA,SSD)
系统硬盘:3块希捷25寸2T 7200RPM 企业级硬盘(最大支持8块硬盘,类型:SATA,SSD;)
GPU卡:8块TESLA P40 GPU计算卡或者8块NVIDIA TATAN-X GPU卡 (CUDA核心数3584个核心,12G DDR5 显存,最大8个GPU卡)
电源:1600W(2+2) High efficiency (96%)钛金电源;
可以咨询:1381O114665
搞AI,谁又能没有“GPU之惑”?下面列出了一些适合进行深度学习模型训练的GPU,并将它们进行了横向比较,一起来看看吧!
CPU与GPU对比
CPU是一个有多种功能的优秀领导者。它的优点在于调度、管理、协调能力强,计算能力则位于其次。而GPU相当于一个接受CPU调度的“拥有大量计算能力”的员工。
下图是处理器内部结构图:
DRAM即动态随机存取存储器,是常见的系统内存。
Cache存储器:电脑中作为高速缓冲存储器,是位于CPU和主存储器DRAM之间,规模较小,但速度很高的存储器。
算术逻辑单元ALU是能实现多组算术运算和逻辑运算的组合逻辑电路。
当需要对大数据bigdata做同样的事情时,GPU更合适,当需要对同一数据做很多事情时,CPU正好合适。
GPU能做什么?关于图形方面的以及大型矩阵运算,如机器学习算法等方面,GPU就能大显身手。
简而言之,CPU擅长统领全局等复杂 *** 作,GPU擅长对大数据进行简单重复 *** 作。CPU是从事复杂脑力劳动的教授,而GPU是进行大量并行计算的体力劳动者。
深度学习是模拟人脑神经系统而建立的数学网络模型,这个模型的最大特点是,需要大数据来训练。因此,对电脑处理器的要求,就是需要大量的并行的重复计算,GPU正好有这个专长,时势造英雄,因此,GPU就出山担当重任了。
太长不看版
截至2020年2月,以下GPU可以训练所有当今语言和图像模型:
以下GPU可以训练大多数(但不是全部)模型:RTX 2080 Ti:11GB VRAM,约1150美元GTX 1080 Ti:11GB VRAM,返厂翻新机约800美元RTX 2080:8GB VRAM,约720美元RTX 2070:8GB VRAM,约500美元
以下GPU不适合用于训练现在模型:RTX 2060:6GB VRAM,约359美元。
在这个GPU上进行训练需要相对较小的batch size,模型的分布近似会受到影响,从而模型精度可能会较低。
GPU购买建议
RTX 2060(6 GB):你想在业余时间探索深度学习。RTX 2070或2080(8 GB):你在认真研究深度学习,但GPU预算只有600-800美元。8 GB的VRAM适用于大多数模型。RTX 2080 Ti(11 GB):你在认真研究深度学习并且您的GPU预算约为1,200美元。RTX 2080 Ti比RTX 2080快大约40%。Titan RTX和Quadro RTX 6000(24 GB):你正在广泛使用现代模型,但却没有足够买下RTX 8000的预算。Quadro RTX 8000(48 GB):你要么是想投资未来,要么是在研究2020年最新最酷炫的模型。NV TESLA V100 (32GB):如果你需要在NVIDIA数据中心使用CUDA,那么TESLA就是必选品了。图像模型
内存不足之前的最大批处理大小:表示GPU没有足够的内存来运行模型。
性能(以每秒处理的图像为单位):表示GPU没有足够的内存来运行模型。
语言模型
内存不足之前的最大批处理大小:表示GPU没有足够的内存来运行模型。
性能: GPU没有足够的内存来运行模型。
使用Quadro RTX 8000结果进行标准化后的表现
图像模型
语言模型
结论
语言模型比图像模型受益于更大的GPU内存。注意右图的曲线比左图更陡。这表明语言模型受内存大小限制更大,而图像模型受计算力限制更大。具有较大VRAM的GPU具有更好的性能,因为使用较大的批处理大小有助于使CUDA内核饱和。具有更高VRAM的GPU可按比例实现更大的批处理大小。只懂小学数学的人都知道这很合理:拥有24 GB VRAM的GPU可以比具有8 GB VRAM的GPU容纳3倍大的批次。比起其他模型来说,长序列语言模型不成比例地占用大量的内存,因为注意力(attention)是序列长度的二次项。
附注:测试模型
图像模型:
语言模型:
云轩Cloudhin专注Deep learning和高性能计算服务器定制,针对主要深度学习框架(如TensorFlow、Caffe 2、Theano或Torch)进行了优化和设置,在桌面上即可提供强大的深度学习功能。
深度学习是作为机器学习的一个算法而存在,被称为人工神经网络,由于受到算法理论、数据、硬件的制约,多年以来一直都是单层或浅层的网络结构。随着大数据的发展,以及大规模硬件加速设备的出现,特别是GPU的不断提升,使得神经网络重新受到重视。深度学习的发展需要大数据跟计算力的支撑,蓝海大脑专注于人工智能领域,适用于GPU高性能计算、深度学习训练及推理等场景,覆盖服务器、静音工作站等多种产品形态,能够满足客户全场景需求,80%做人工智能科研等领域研究的重点高校已应用蓝海大脑的产品。显卡、处理器的搭配,确实需要门当户对,才能发挥出全部性能。比如GTX1080TI显卡,配i7-7700就是合适的,内存也配10GB以上。
深度学习如果配双显卡,用E5至强处理器,应该是更好的搭配。最近在学习机器学习,看到了深度学习这一部分。用tensorflow写了几个例子,CNN的,然后在我的15年版的MacbookPro上跑了跑了,训练速度真是不忍直视,而且,风扇呼呼转,真是心疼我这个Mac了。于是意识到显卡这个东西真是个门槛。因此才想着搞一台高配置的主机来跑深度网络。
既然是跑深度学习,那么直接在电商网站上搜一下深度学习主机买来不就得了? 理论总是那么简单。。。
事实上,我看了下专门跑深度学习的主机,基本都是服务器级别的,动辄2W+ 。我是没这么多银子来投入这个的,没办法,穷人啊。
那么,想一下自己需求,找一个合适的主机吧。我的目的也很简单的:
好了, 这么一罗列就明确了,就是一个高配游戏主机喽。不要误会,这是巧合~~ 于是 我去闲鱼上瞅了瞅,看出点门道,一般i7 8700 + 1080Ti显卡的主机,就可以卖到1W了~~ 啧啧 游戏真是败家。
一开始我也想着直接买个这种主机,省事儿,不过既然都花到1W了,对各个配置外观就很在意了。看了很多主机,感觉都不是理想中的样子,要么机箱丑, 要么主板渣,要么硬盘和内存规格不够。其实我主要在意的是CPU和显卡,只要这两个满足就OK啊,然后就可以慢慢攒出自己想要的主机了。我看了闲鱼上的价格,i7 8代CPU的价格,代购的话也就2500左右,为了以后升级考虑,直接上了i7 8086K(这是个intel为了纪念第一代8086芯片40周年的纪念品,其实是从8700K中挑出来的体质好的片),4GHZ,高主频,干事儿快。1080Ti的显卡是最具性价比的了,二手价格4K左右,不过容易踩到雷买到挖矿的卡~ 这个小心了。
总的来说,各个配件都准备妥当了,来一下清单:
总计: 9800吧~(真贵)~ 总的来说,必直接先闲鱼上的主机要好一些,多了可配置性。
这个就不展开了,按照说明书一步步来就好。主要是安装顺序以及接线。
安装顺序:电源装到机箱 -> CPU装到主板 -> 主板装到机箱 -> 水冷 散热风扇 -> 接线
这里有两个地方需要注意:
最后上个成品图 啊哈哈~
这么好的显卡不玩玩游戏是不是亏了?? 那就保留一个win系统吧~
现在网上的双系统如何安装帖子都是老教程了~ Ubuntu都发布了1804,支持UEFI+GPT。那么如何搞呢?
首先,先安装win10,如果是自己制作U盘启动项,务必选择UEFI+GPT组合模式,也就是做用UEFI模式引导,硬盘为GPT格式。如果不是,那么需要检查一下并完成转换,这里有个教程,直接用win10自带的工具就能做到,但是前提是win10升级到1703之后的版本。
用Win10自带的MBR2GPT无损转换GPT磁盘分区形式
然后就是安装Ubuntu1804了。我是安装在一个磁盘里,因此需要先空出一定大小的未分配空间。然后制作Ubuntu1804的U盘启动项,选择UEFI+GPT组合模式。这里是官方教程:
win系统上制作Ubuntu的U盘启动
然后按照这个教程就好了: Windows10+Ubuntu1804双系统安装
安装好Ubuntu1804之后登录进去发现系统变漂亮了(但是还是一贯的难用,相比Mac和win)。可以进行一些美化 *** 作。。 好像很多人喜欢这个,贴个教程吧: Linux也可以这样美——Ubuntu1804安装、配置、美化-踩坑记
之后就是配置我们的深度学习环境了。目前我主要用tensorflow,只记录这个。
主要步骤:
好了,可以从GitHub上下点example跑起来了,CNN的计算有了1080TI的加持还是很快的,开心~~
需要配置远程访问,jupyter notebook服务。远程Pycharm调试环境。
这里有个麻烦,就是家里是局域网,而且接的是长城渣宽带,没有独立IP,需要用frp中转一下。针对人工智能的深度学习场景,思腾合力研发出深思AW4211-8GR服务器,具有高性能、高密度、可扩展性强的特点,支持双路AMD7002系列处理器,CPU直通设计,延迟降低至少150ms,同时节省PCIE Switch成本,可广泛应用于AI、深度学习场景,也可作为GPU计算集群高密度、高性能的节点平台。想了解更多可以百度一下
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)