首先的问题的是,我们需要什么样的计算机。
关于硬件:
需要至少4G内存,最好可以达到16G以上内存;
至少500G硬盘空间。通常一个RNA-seq的数据量为20G左右,如果再加上分析之后的结果,可能达到50G,所以即使你有500G的空间,也分析不了几组数据。所以硬盘空间越多越好,比如说2TB或者使用高速网络存贮界质。
CPU,至少2核。因为你在运行程序时,通常100%占到CPU,如果没有2核,计算机多半会假死在那里。如果有8核,或者以上更好。
GPU,很多程序开始使用GPU运算,如果能有好的GPU显卡,也是推荐的,但不是必须的。
为了达到以上的条件,入门极的比如说Mac Pro。进阶级的就是独立server,高级的是supercomputer clusters,支持qsub之类的。或者可以购买云计算服务。
对于 *** 作系统,在工作站方面,推荐Mac OS。它运行稳定,与LINUX同源。需要下载安装Xcode和wget就可以了。当然你还可以很方便的安装office办公软件,以及photoshop,AI等工具。最后安装好R/Bioconductor,就可以开始工作了。如果买了兼容机,可以安装上Linux/UNIX系统。它在安装上R/Bioconductor之后基本上就可以了。它的缺点是办公软件,绘图软件的安装。最差的就是Windows了。需要安装比如GCC编译器,make工具,mingw64, perl, zip/unzip, tar, wget, ghostscript等等。
有了软件及硬件,接下来的工作就是了解一些常识以武装你的大脑,这是整个运行环境中最重要的一环。首先,你需要学习了掌握UNIX常用命令,并且不反感字符界面。其次学会安装,设置及构建网络服务,比如apache的websever,以及mysql的数据库服务。第三安装及设置一个Galaxy。当然,第二步及第三步可能会有难度,可以先使用Galaxy本身的服务,但是它有很多限制,所以最好还是自己安装一个比较好。第四步,学习一门计算机语言,比如c, python, ruby, java等,还有一门脚本式语言工具,比如perl。第五步,学习使用R/Bioconductor。第六步,统计学。
至此,你的NGS分析环境就设置完成了。如果快的话,你可以两三个月就设置完成,达到起步的阶段,之后就是漫长的学习过程。慢的话,四年本科也不一定学到多少。
社会因素:当今社会是一个信息爆炸的时代,大学生可以通过网络获得各种各样的多元信息,这其中也包括大量的宗教信息。多元文化发展为当代大学生提供了更广阔的交流学台,经济快速发展的同时也严重瓦解着传统的人生观、世界观、道德观。从小生活在宠溺之中,认识水平和认识能力有限。 扩展资料个人因素:大学生虽已成人,但是思维还不是很成熟,看待问题容易片面化,不能透过表面看到实质。尤其在外界与自己的想法发成冲突时,容易钻牛角尖,容易出现极端的想法和行为。由于大部分孩子都是家中的独生子女,从小被父母长辈溺爱,心理承受能力差,以自我为中心,难以客观公正的看待自己,出现问题不能及时真诚坦率的认错,解决应对问题的'能力较弱。在面对多元文化的冲击时,易受到各种思潮的影响,自认为追求自由,信仰自由,却并不了解自由的真正含义,对宗教信仰也没有深入的了解,更多的是在受到挫折打击时,作为一种逃避现实的理由而信教。
chmod 755 shellsh 表示任何人对shellsh文件可读可执行。7=4+2+1。5=4+1。
当文件有了可执行权限时候,不一定可执行。需要涉及到环境变量的概念。 如/usr/bin 目录下,大部分的系统命令都在这个目录下。
系统中环境变量的名字是:PATH。输入:echo $PATH 显示已有的内容。如果我们想自己的命令能够被系统找到,就需加入环境变量。具体 *** 作如下:
查看当前:echo $PATH
显示:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games
添加:export PATH=${PATH}:/home/zhanghan
查看:echo $PATH
显示:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/home/zhanghan
以上只是对当前终端有效,退出后就无效了,
所以:在安装了新的软件,或者写了新的脚本后,都把软件的可执行程序和可执行的脚本所在目录,加到环境变量里面就可以了。
怎么写文件,当以后界面关闭后还能一直保存环境变量的改变
服务器输入命令:ls -la 。若是没有 bash_profile文件则新建,在文件bash_profile中加入:export PATH=${PATH}:/home/zhanghan保存退出,则每次系统自动检索到。
PATH只是众多环境变量中的一个变量,用于存储可执行文件所在的目录,以便在用户输入命令的时候可以查询的到。尤其是自己写的脚本或者安装的程序,系统不会知道它们在哪个路劲下,需要我们去提供给系统新的路径,学名叫设置环境变量。上次说完cpu,接下来说说主板,内存,散热,显卡,硬盘,机箱,电源。
如果把cpu比做发动机的话,那其他的那主板就是汽车底盘,其他所有都是小配件。
选定了cpu,其他所以的选择范围轮廓基本就有了。
首先,为了生产力,我肉疼的选了个i9-9940x的是cpu,二手的近3000RMB。
昂贵的CPU只有配昂贵的x299型主板,又肉疼了一下。
cpu上主版不到10分钟,温度已近100℃,风冷是没指望了,只能上水冷,而且必须是360水冷。这样散热器就选好啦。
接着,根据cpu所匹配的内存选了2666hz, 嗯,如果是要超频的话。可以选择3000hz或3200hz,因为肉疼,所以我还是选2666hz,如果喜欢玩超频的朋友,就选高点的吧!因为考虑到主板插槽和cpu最大支持的内存容量,买16g内存条性价比较高,从小白进阶的我今天才知道内存是对对买的。
如果CPU有核显功能。那可以不需要买显卡,但是我的没有,所以就得自己配了。因为生信分析不需要作渲染,动画和3D设计,所以最普通的亮机卡就行。我选了个Gt730型号的200+RMB就搞定了。
最后就是意想不到的幺蛾子了:机箱。
本以为机箱就是档灰尘用的,随便二手得了,要不是考虑到散热和可燃的问题,我都想垃圾堆里捡个纸箱解决了。结果,咸鱼中的机箱基本上都不支持有邮寄,因为易损,大多支持自提。结果我不得不放弃二手渠道,买新的。
因为涉及搬运的问题,所以我拒绝玻璃侧板。给我当头一棒的是这样的机箱基本找不到,除非是专业服务器机箱。那服务器机箱大多比较窄,会有电源体积,显卡体积问题,难以走线和安装360水冷问题。因为尺寸不匹配,我还不得不退了一次货。在此,一定要提醒大家,看到查看运费险,扣除运费险,我自付30,无处哭诉~
那我忍不住内心的吐槽,主流的审美都是玻璃,大家都为了颜值放弃生产力了吗!鲜花和面包都选鲜花啦?!
更让我惊讶的是一个机箱,居然可以重达十公斤。这是让我一个小姑娘练肌肉的节奏吗!
whatever,最后终于主机配好了!还是开心的啦~
接下来就是装机,加油(ง •̀_•́)ง!
1 生信软件系统的选择——Linux(ubuntu)
对于生信分析人员来说,日常工作,软件运行,跑流程,均在linux下 *** 作。当然,也有基于云端的生信分析平台,如免费的Galaxy,或者某些 公司的一站式云平台。
比较初学者学生物信息还是使用开源软件、学原理、一步一步运行才有意思。这路子,一定要适应Linux的命令行界面。
选择windows还是linux? 一定是linux,windows太多的生物软件不兼容了。
选择linux的哪个版本?推荐桌面版的Ubuntu——稳定,美观,适合初学者之称;次之,Centos——免费、稳定的服务器linux版本之称。
用那种方式安装linux好?推荐虚拟机安装。不太建议双系统,云端这种。因为,对于初学者在系统中,需要反复折腾,测试,搞垮系统是常事。
选择开源的VMbox还是商业版VMware?两者都可以,但各有缺点。VMbox更新比较快,经常更新后,可能会出现报错,系统无法打开的现象,较低版本的反而比较稳定,如果用好了,不建议经常更新。还有一点是,VMbox在鼠标控制上,没有VMware流畅。VMware十分稳定,流程好用。最新版一般要收费。可以选择比最新版版本稍低的,上网搜注册码,免费使用。还是那样,用好了,不要经常更新。某些生信软件会提供VMbox的镜像,如qiime。
VMbox的镜像能不能转到VMware上使用?,答案是可以的,使用VMbox的镜像导出功能,然后使用VMware进行导入,保持两者格式相同。
这段时间,我一直在“整合分析”一些数据。每次开始分析,我就开始“骂”,为什么就没有一个顺手的工具。为什么这个项目有几个表达量表格?为什么我拿到 ID 却又要去找注释信息文件,提取注释信息?为什么我看个表达量,一会看这个Excel表格,一会看那个Excel表格;为什么我就是想要几个基因的序列,我要找到序列文件来分析?
我实在是,受不了了,“十十”!我一直在忍,一直在忍。现在,我受够了。
对于数据分析,我们需要的是“不间断的思绪”,不应该总是让“突然要找某个文件”这种事情来扰乱分析思路。
于是,昨晚(2021年12月25日),年轻人们在朋友圈晒周末活动的同时,我花了整整一个晚上,写了一个 TBtools 插件,取名: BioPanGu 。大体界面如下:
类似 BlastZone,可以按照自己需要,制定不同的目录树。如上图,我按照物种做了归类放置。选中“荔枝”,点击了“Use Curr Proj”,即加载该项目。加载后,注意到左侧有箭头,可以点击隐藏这一面板。
项目加载后,可以看到中间上部显示“CurrProj:荔枝”,即当前分析项目。目前,每个项目分为三种类型数据:
即序列数据,可通过点击 Add Seqs ,给上Fasta格式的序列,即可完成装载。可以看到,图中已经加载了:基因组v3,第一版基因组,蛋白序列v3,名字可以自行指定。
即表达数据,可通过点击 Add Exp, 给上基因表达矩阵,或者事实上,其他任何矩阵也可以。注意需要有表头,同时第一列应该是基因ID。
即注释数据,可通过点击 Add Anno,加上注释信息表格即可。注意最好有表头,同时第一列应该是基因ID。
之间点击“中间面板”任意摁钮,即可自动加载对应数据在右侧面板。
如果是序列信息,那么会自动d出并自动装载好序列数据,只要黏贴 ID 或者区间即可提取序列;如果是表达信息或者是注释信息,同样,都是自动d出自动装载,只要黏贴 ID 即可整理提取。
当然,如果要删除某个数据,键盘摁住 Ctrl ,点击对应按钮即可删除。
PS: 右侧这块是接下来优化的重点,不过目前应该足够使用了。我个人有更多的计划,但是不是现在做。
不瞒大伙,我对这个插件的想法,远不止现在的状态。但时间有限,暂时先写一个能用的,解决我当前数据分析的燃眉之急再说。同样,我在一两年前就有类似工具的想法,只是我一直想动手,但想想又不动了,等又一次分析数据,又想动手,想想又算了我们不应该犹豫做与不做,做的好与不好,只要不是伤天害理,不忠不义,那就做了再说。
当然,最后问题来了,这个插件情况相比于其他功能都会特殊:
于是,先看看大伙的想法再说,投个票吧,看看大伙的想法,尽管很大可能我还是会坚持自己的想法。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)