获取序列所对应的分类学信息有两种方法。
一种方法,从NCBI 网站下载gi与taxid 对应表,在Taxonomy 数据库的FTP 地址下载。这个目录下有多个压缩文件,其中针对Windows *** 作系统的两个针对蛋白质序列和核苷酸序列的压缩文件分别是gi_taxid_prot.dmp.gz 和gi_taxid_nucl.dmp.gz 文件。这两个文件都只有两列,左边为gi 号,右边为Taxid。由于这些文件非常大,因此用浏览器来打开这些文件几乎是不可能的。随着时间的推移,这两个文件会越来越大,不过速度不会是指数增长的,并且在美国东部时间的每个星期一2:00 am NCBI 会对其进行更新。
对于Windows 用户还有一个文件称为taxdump.zip 文件。文件解压缩后包括1 个*.prt 文件和6 个*.dmp 文件。Gencode.dmp 文件保存有不同的密码子表,与同目录的gc.prt 联合使用;merged.dmp 是保存有合并的taxid 号的对应表;nodes.dmp 是结点信息;division.dmp 是较大的几个分类;names.dmp 结点名称信息,每个id 对应多行。这些数据被Phylogenie 软件包中的blammer 程序用于构建进化树。
利用ftp 地址的连接利用Http 或ftp 方式将文件下载到本地,通过本地程序或脚本搜索文本,来建立gi 号与Taxid 之间的联系(图)。这种方法比较适合于在线服务的Web 形式的程序,通过在本地不断地及时更新程序就可以完成这项工作。
第二种方法是对Taxonomy 数据库进行API 分析。NCBI 用来保存Taxonomy信息的数据库名称为TAXON。
OMIM数据库之父Victor Almon McKusick先生是位临床医生。该数据库的最原始的版本是一本叫MIM的遗传学书籍,后来挪到了网上,就加了一个“O”称为在线的人类孟德尔遗传学。所以OMIM数据库不同于其他的NCBI数据库。其设计之初是为临床医生提供在线浏览的服务,因此没有相应的序列下载服务。从另外一个角度来说,OMIM的每一条记录讨论的是某一个基因,而与这个基因相关的序列可能有几条,几十条甚至上百条的记录。要解决你的问题,如果数量不多,例如50以内。建议你手工通过OMIM提供的RefSeq的链接获取。这个方法的优点是,你可以挑选你想要的序列(mRNA, DNA或Protein),消耗的时间上与编程差不多。
如果超过100,或需要反复做,就有编程的必要。你可以参考我提供的链接使用eUtils工具来获取序列。
这个问题涉及到NCBI的核心价值——数据共享。从NCBI创建之初她就是为用户”下载“数据而存在。历经近30年的发展,其提供的数据共享的方式也经历了诸多的改变。下面以提供数据共享的技术方式来逐一陈述:1 FTP
FTP是File Transfer Protocol(文件传输协议)的英文简称。在互联网形成之初,非常重要的大文件传输格式。目前NCBI的大文件传输,甚至是整个NCBI网站的数据都可以用这种方式获得。网址为ftp://ftp.ncbi.nlm.nih.gov/.不过要用好这些数据,你需要同时兼备生物学和计算机科学(基本)知识。
2 网页
当然绝大多数生物学家并不需要进行批量数据分析,知识要找到与自己课题相关的数据。NCBI提供了基于网页的查询检索系统。之所以称之为系统是因为其中包含了NCBI所有提供服务的数据库,该系统有一个统一的查询界面,成为Entrez。其语法和规则在查询不同数据库是基本相似,知识需要简单了解相应数据库的特殊字符即可。例如,查询GEO数据库时,只查询dataset数据可以使用[DataSet Type]关键字,但是该关键字在PUBMED并不适用。
3.web服务
web服务在生物信息学和计算机科学中的定义有很大差别,这里特制计算机科学中的web服务。NCBI基于entrez提供了web service服务,用户在自己的程序中调用代码获取数据。主要是eUtils(http://eutils.ncbi.nlm.nih.gov/)。另外,NCBI也提供cgi的查询服务。
4. 序列查询服务
NCBI基于序列的检索服务是其最具特色的数据检索方式,最著名的就是BLAST。尽管后台算法基于字符串的匹配,但是其引入了生物学知识(突变概率等)使其具有和其他搜索引擎如lucene不可比拟的效果。也是NCBI提供的主要服务之一。BLAST接受用户一条或多条序列(PSI-BLAST),返回数据库中与该序列相似的序列。该服务的用途广泛。
5.其他
有些数据可以通过一些特殊的通道获得。例如GEO数据库,可以通过R包GEOquery获得其数据。
(如有遗漏,敬请指教!)
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)