如何从ncbi上下载database

如何从ncbi上下载database,第1张

因此NCBI 的分类学数据库不是一个系统发育或分类学的“专家数据库”(Wheeler et al., 2000)。获取序列所对应的分类学信息有两种方法。一种方法,从NCBI 网站下载gi与taxid 对应表,在Taxonomy 数据库的FTP 地址下载。这个目录下有多个压缩文件,其中针对Windows *** 作系统的两个针对蛋白质序列和核苷酸序列的压缩文件分别是gi_taxid_prot.dmp.gz 和gi_taxid_nucl.dmp.gz 文件。这两个文件都只有两列,左边为gi 号,右边为Taxid。由于这些文件非常大,因此用浏览器来打开这些文件几乎是不可能的。随着时间的推移,这两个文件会越来越大,不过速度不会是指数增长的,并且在美国东部时间的每个星期一2:00 am NCBI 会对其进行更新。对于Windows 用户还有一个文件称为taxdump.zip 文件。文件解压缩后包括1 个*.prt 文件和6 个*.dmp 文件。Gencode.dmp 文件保存有不同的密码子表,与同目录的gc.prt 联合使用;merged.dmp 是保存有合并的taxid 号的对应表;nodes.dmp 是结点信息;division.dmp 是较大的几个分类;names.dmp 结点名称信息,每个id 对应多行。这些数据被Phylogenie 软件包中的blammer 程序用于构建进化树。利用ftp 地址的连接利用Http 或ftp 方式将文件下载到本地,通过本地程序或脚本搜索文本,来建立gi 号与Taxid 之间的联系(图)。这种方法比较适合于在线服务的Web 形式的程序,通过在本地不断地及时更新程序就可以完成这项工作。第二种方法是对Taxonomy 数据库进行API 分析。

这个问题涉及到NCBI的核心价值——数据共享。从NCBI创建之初她就是为用户”下载“数据而存在。历经近30年的发展,其提供的数据共享的方式也经历了诸多的改变。下面以提供数据共享的技术方式来逐一陈述:

1 FTP

FTP是File Transfer Protocol(文件传输协议)的英文简称。在互联网形成之初,非常重要的大文件传输格式。目前NCBI的大文件传输,甚至是整个NCBI网站的数据都可以用这种方式获得。网址为ftp://ftp.ncbi.nlm.nih.gov/.不过要用好这些数据,你需要同时兼备生物学和计算机科学(基本)知识。

2 网页

当然绝大多数生物学家并不需要进行批量数据分析,知识要找到与自己课题相关的数据。NCBI提供了基于网页的查询检索系统。之所以称之为系统是因为其中包含了NCBI所有提供服务的数据库,该系统有一个统一的查询界面,成为Entrez。其语法和规则在查询不同数据库是基本相似,知识需要简单了解相应数据库的特殊字符即可。例如,查询GEO数据库时,只查询dataset数据可以使用[DataSet Type]关键字,但是该关键字在PUBMED并不适用。

3.web服务

web服务在生物信息学和计算机科学中的定义有很大差别,这里特制计算机科学中的web服务。NCBI基于entrez提供了web service服务,用户在自己的程序中调用代码获取数据。主要是eUtils(http://eutils.ncbi.nlm.nih.gov/)。另外,NCBI也提供cgi的查询服务。

4. 序列查询服务

NCBI基于序列的检索服务是其最具特色的数据检索方式,最著名的就是BLAST。尽管后台算法基于字符串的匹配,但是其引入了生物学知识(突变概率等)使其具有和其他搜索引擎如lucene不可比拟的效果。也是NCBI提供的主要服务之一。BLAST接受用户一条或多条序列(PSI-BLAST),返回数据库中与该序列相似的序列。该服务的用途广泛。

5.其他

有些数据可以通过一些特殊的通道获得。例如GEO数据库,可以通过R包GEOquery获得其数据。

(如有遗漏,敬请指教!)


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/sjk/9915733.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-03
下一篇 2023-05-03

发表评论

登录后才能评论

评论列表(0条)

保存