1,数据,网上现在的数据库很多,最常用的是NCBI,TCGA,千人基因组等,要是想找特定的数据,有tRNA数据库,PDB,NDB等,每个数据库的侧重点都不相同,但是以NCBI最全面,最准确。
2,算法,也可以说是分析方法,网上也有很多的在线分析软件以及能下载的软件,建议你看看《生物信息学分析与实践》这本书,绿色封皮的,书名大概是这个,我的这本书没找到。里面有各种网上软件的寻找和使用方法。
3,文献,当你了解了生物信息的基础知识之后,就可以看论文了,看论文的时候,尽量看近几年的高质量论文,比如bioinformatics等杂志的论文就很不错,建议看看。
我没有给你附上网站的地址,一是因为资料太多,根本说不完,二是尽量自己寻找,以后就知道怎么做了,如果你不知道怎么找的话,就去小木虫上搜一下生物信息学,会有很多相关的较好的方法和建议。如何利用ExPASy网站上的生物信息学软件分析蛋白质的基本性质
基因组包含了构成和维持一个生活有机体所必备的基本信息,由细胞内进行的多种分子生物学反应将这些信息转化为真正的生命现象。基因组的一部分编码蛋白质和RNA,其它部分调控这些大分子的表达。表达的蛋白质及RNA折叠成高度专一的三维结构,在体内的特定位置上实现其功能。这些过程的大量细节都是在分子生物学研究的实验室里揭示出来的,所形成的大量数据,存储于数据库中。生物信息学试图从这些数据中提取新的生物学信息和知识,是一门深深植根于全面深入的实验事实和数据的理论生物学。从目前生物信息学的研究情况来看,国际上公认的生物信息学的研究内容,大致包括以下几个方面: 生物信息的收集、存储、管理与提供。包括建立国际基本生物信息库和生物信息传输的国际联网系统;建立生物信息数据质量的评估与检测系统;生物信息的在线服务;生物信息可视化和专家系统。
1 生信软件系统的选择——Linux(ubuntu)
对于生信分析人员来说,日常工作,软件运行,跑流程,均在linux下 *** 作。当然,也有基于云端的生信分析平台,如免费的Galaxy,或者某些 公司的一站式云平台。
比较初学者学生物信息还是使用开源软件、学原理、一步一步运行才有意思。这路子,一定要适应Linux的命令行界面。
选择windows还是linux? 一定是linux,windows太多的生物软件不兼容了。
选择linux的哪个版本?推荐桌面版的Ubuntu——稳定,美观,适合初学者之称;次之,Centos——免费、稳定的服务器linux版本之称。
用那种方式安装linux好?推荐虚拟机安装。不太建议双系统,云端这种。因为,对于初学者在系统中,需要反复折腾,测试,搞垮系统是常事。
选择开源的VMbox还是商业版VMware?两者都可以,但各有缺点。VMbox更新比较快,经常更新后,可能会出现报错,系统无法打开的现象,较低版本的反而比较稳定,如果用好了,不建议经常更新。还有一点是,VMbox在鼠标控制上,没有VMware流畅。VMware十分稳定,流程好用。最新版一般要收费。可以选择比最新版版本稍低的,上网搜注册码,免费使用。还是那样,用好了,不要经常更新。某些生信软件会提供VMbox的镜像,如qiime。
VMbox的镜像能不能转到VMware上使用?,答案是可以的,使用VMbox的镜像导出功能,然后使用VMware进行导入,保持两者格式相同。
是。NCBI是指美国国立生物技术信息中心,建立关于分子生物学,生物化学,和遗传学知识的存储和分析的自动系统,实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的,先进方法的研究,加速生物技术研究者和医药治疗人员对数据库和软件的使用,全世界范围内的生物技术信息收集的合作努力。蛋白质数据库介绍
蛋白质数据库
1 PIR和PSDPIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,包含超过142,000条蛋白质序列(至99年9月),其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶-底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库,每周可以得到更新部分。
PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括BLAST、FASTA等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。
PIR和PSD的网址是:>
首先的问题的是,我们需要什么样的计算机。
关于硬件:
需要至少4G内存,最好可以达到16G以上内存;
至少500G硬盘空间。通常一个RNA-seq的数据量为20G左右,如果再加上分析之后的结果,可能达到50G,所以即使你有500G的空间,也分析不了几组数据。所以硬盘空间越多越好,比如说2TB或者使用高速网络存贮界质。
CPU,至少2核。因为你在运行程序时,通常100%占到CPU,如果没有2核,计算机多半会假死在那里。如果有8核,或者以上更好。
GPU,很多程序开始使用GPU运算,如果能有好的GPU显卡,也是推荐的,但不是必须的。
为了达到以上的条件,入门极的比如说Mac Pro。进阶级的就是独立server,高级的是supercomputer clusters,支持qsub之类的。或者可以购买云计算服务。
对于 *** 作系统,在工作站方面,推荐Mac OS。它运行稳定,与LINUX同源。需要下载安装Xcode和wget就可以了。当然你还可以很方便的安装office办公软件,以及photoshop,AI等工具。最后安装好R/Bioconductor,就可以开始工作了。如果买了兼容机,可以安装上Linux/UNIX系统。它在安装上R/Bioconductor之后基本上就可以了。它的缺点是办公软件,绘图软件的安装。最差的就是Windows了。需要安装比如GCC编译器,make工具,mingw64, perl, zip/unzip, tar, wget, ghostscript等等。
有了软件及硬件,接下来的工作就是了解一些常识以武装你的大脑,这是整个运行环境中最重要的一环。首先,你需要学习了掌握UNIX常用命令,并且不反感字符界面。其次学会安装,设置及构建网络服务,比如apache的websever,以及mysql的数据库服务。第三安装及设置一个Galaxy。当然,第二步及第三步可能会有难度,可以先使用Galaxy本身的服务,但是它有很多限制,所以最好还是自己安装一个比较好。第四步,学习一门计算机语言,比如c, python, ruby, java等,还有一门脚本式语言工具,比如perl。第五步,学习使用R/Bioconductor。第六步,统计学。
至此,你的NGS分析环境就设置完成了。如果快的话,你可以两三个月就设置完成,达到起步的阶段,之后就是漫长的学习过程。慢的话,四年本科也不一定学到多少。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)