如何从ncbi上下载database_sql

因此NCBI 的分类学数据库不是一个系统发育或分类学的“专家数据库”（Wheeler et al., 2000）。获取序列所对应的分类学信息有两种方法。一种方法，从NCBI 网站下载gi与taxid 对应表，在Taxonomy 数据库的FTP 地址下载。这个目录下有多个压缩文件，其中针对Windows *** 作系统的两个针对蛋白质序列和核苷酸序列的压缩文件分别是gi_taxid_prot.dmp.gz 和gi_taxid_nucl.dmp.gz 文件。这两个文件都只有两列，左边为gi 号，右边为Taxid。由于这些文件非常大，因此用浏览器来打开这些文件几乎是不可能的。随着时间的推移，这两个文件会越来越大，不过速度不会是指数增长的，并且在美国东部时间的每个星期一2：00 am NCBI 会对其进行更新。对于Windows 用户还有一个文件称为taxdump.zip 文件。文件解压缩后包括1 个*.prt 文件和6 个*.dmp 文件。Gencode.dmp 文件保存有不同的密码子表，与同目录的gc.prt 联合使用；merged.dmp 是保存有合并的taxid 号的对应表；nodes.dmp 是结点信息；division.dmp 是较大的几个分类；names.dmp 结点名称信息，每个id 对应多行。这些数据被Phylogenie 软件包中的blammer 程序用于构建进化树。利用ftp 地址的连接利用Http 或ftp 方式将文件下载到本地，通过本地程序或脚本搜索文本，来建立gi 号与Taxid 之间的联系（图）。这种方法比较适合于在线服务的Web 形式的程序，通过在本地不断地及时更新程序就可以完成这项工作。第二种方法是对Taxonomy 数据库进行API 分析。

这个问题涉及到NCBI的核心价值——数据共享。从NCBI创建之初她就是为用户”下载“数据而存在。历经近30年的发展，其提供的数据共享的方式也经历了诸多的改变。下面以提供数据共享的技术方式来逐一陈述：

1 FTP

FTP是File Transfer Protocol(文件传输协议)的英文简称。在互联网形成之初，非常重要的大文件传输格式。目前NCBI的大文件传输，甚至是整个NCBI网站的数据都可以用这种方式获得。网址为ftp://ftp.ncbi.nlm.nih.gov/.不过要用好这些数据，你需要同时兼备生物学和计算机科学（基本）知识。

2 网页

当然绝大多数生物学家并不需要进行批量数据分析，知识要找到与自己课题相关的数据。NCBI提供了基于网页的查询检索系统。之所以称之为系统是因为其中包含了NCBI所有提供服务的数据库，该系统有一个统一的查询界面，成为Entrez。其语法和规则在查询不同数据库是基本相似，知识需要简单了解相应数据库的特殊字符即可。例如，查询GEO数据库时，只查询dataset数据可以使用[DataSet Type]关键字，但是该关键字在PUBMED并不适用。

3.web服务

web服务在生物信息学和计算机科学中的定义有很大差别，这里特制计算机科学中的web服务。NCBI基于entrez提供了web service服务，用户在自己的程序中调用代码获取数据。主要是eUtils（http://eutils.ncbi.nlm.nih.gov/）。另外，NCBI也提供cgi的查询服务。

4. 序列查询服务

NCBI基于序列的检索服务是其最具特色的数据检索方式，最著名的就是BLAST。尽管后台算法基于字符串的匹配，但是其引入了生物学知识（突变概率等）使其具有和其他搜索引擎如lucene不可比拟的效果。也是NCBI提供的主要服务之一。BLAST接受用户一条或多条序列（PSI-BLAST），返回数据库中与该序列相似的序列。该服务的用途广泛。

5.其他

有些数据可以通过一些特殊的通道获得。例如GEO数据库，可以通过R包GEOquery获得其数据。

（如有遗漏，敬请指教！）

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/sjk/9915733.html

如何从ncbi上下载database

发表评论

评论列表（0条）