谁知道怎样在NCBI中找数据库？_sql

NCBI 分类学数据库（taxonomy database）不是分类学或系统发育信息的信息源（primary source），而且也没有自己的一套完整的分类学系统，相反它只是努力整合各种各样来源的系统发育和分类学的知识，包括发表的文献、基于网络的数据库、序列提交者的建议以及来自NCBI 外部的分类学专家。因此NCBI 的分类学数据库不是一个系统发育或分类学的“专家数据库”（Wheeler et al., 2000）。

获取序列所对应的分类学信息有两种方法。

一种方法，从NCBI 网站下载gi与taxid 对应表，在Taxonomy 数据库的FTP 地址下载。这个目录下有多个压缩文件，其中针对Windows *** 作系统的两个针对蛋白质序列和核苷酸序列的压缩文件分别是gi_taxid_prot.dmp.gz 和gi_taxid_nucl.dmp.gz 文件。这两个文件都只有两列，左边为gi 号，右边为Taxid。由于这些文件非常大，因此用浏览器来打开这些文件几乎是不可能的。随着时间的推移，这两个文件会越来越大，不过速度不会是指数增长的，并且在美国东部时间的每个星期一2：00 am NCBI 会对其进行更新。

对于Windows 用户还有一个文件称为taxdump.zip 文件。文件解压缩后包括1 个*.prt 文件和6 个*.dmp 文件。Gencode.dmp 文件保存有不同的密码子表，与同目录的gc.prt 联合使用；merged.dmp 是保存有合并的taxid 号的对应表；nodes.dmp 是结点信息；division.dmp 是较大的几个分类；names.dmp 结点名称信息，每个id 对应多行。这些数据被Phylogenie 软件包中的blammer 程序用于构建进化树。

利用ftp 地址的连接利用Http 或ftp 方式将文件下载到本地，通过本地程序或脚本搜索文本，来建立gi 号与Taxid 之间的联系（图）。这种方法比较适合于在线服务的Web 形式的程序，通过在本地不断地及时更新程序就可以完成这项工作。

第二种方法是对Taxonomy 数据库进行API 分析。NCBI 用来保存Taxonomy信息的数据库名称为TAXON。

OMIM数据库之父Victor Almon McKusick先生是位临床医生。该数据库的最原始的版本是一本叫MIM的遗传学书籍，后来挪到了网上，就加了一个“O”称为在线的人类孟德尔遗传学。所以OMIM数据库不同于其他的NCBI数据库。其设计之初是为临床医生提供在线浏览的服务，因此没有相应的序列下载服务。从另外一个角度来说，OMIM的每一条记录讨论的是某一个基因，而与这个基因相关的序列可能有几条，几十条甚至上百条的记录。

要解决你的问题，如果数量不多，例如50以内。建议你手工通过OMIM提供的RefSeq的链接获取。这个方法的优点是，你可以挑选你想要的序列（mRNA， DNA或Protein），消耗的时间上与编程差不多。

如果超过100，或需要反复做，就有编程的必要。你可以参考我提供的链接使用eUtils工具来获取序列。

这个问题涉及到NCBI的核心价值——数据共享。从NCBI创建之初她就是为用户”下载“数据而存在。历经近30年的发展，其提供的数据共享的方式也经历了诸多的改变。下面以提供数据共享的技术方式来逐一陈述：

1 FTP

FTP是File Transfer Protocol(文件传输协议)的英文简称。在互联网形成之初，非常重要的大文件传输格式。目前NCBI的大文件传输，甚至是整个NCBI网站的数据都可以用这种方式获得。网址为ftp://ftp.ncbi.nlm.nih.gov/.不过要用好这些数据，你需要同时兼备生物学和计算机科学（基本）知识。

2 网页

当然绝大多数生物学家并不需要进行批量数据分析，知识要找到与自己课题相关的数据。NCBI提供了基于网页的查询检索系统。之所以称之为系统是因为其中包含了NCBI所有提供服务的数据库，该系统有一个统一的查询界面，成为Entrez。其语法和规则在查询不同数据库是基本相似，知识需要简单了解相应数据库的特殊字符即可。例如，查询GEO数据库时，只查询dataset数据可以使用[DataSet Type]关键字，但是该关键字在PUBMED并不适用。

3.web服务

web服务在生物信息学和计算机科学中的定义有很大差别，这里特制计算机科学中的web服务。NCBI基于entrez提供了web service服务，用户在自己的程序中调用代码获取数据。主要是eUtils（http://eutils.ncbi.nlm.nih.gov/）。另外，NCBI也提供cgi的查询服务。

4. 序列查询服务

NCBI基于序列的检索服务是其最具特色的数据检索方式，最著名的就是BLAST。尽管后台算法基于字符串的匹配，但是其引入了生物学知识（突变概率等）使其具有和其他搜索引擎如lucene不可比拟的效果。也是NCBI提供的主要服务之一。BLAST接受用户一条或多条序列（PSI-BLAST），返回数据库中与该序列相似的序列。该服务的用途广泛。

5.其他

有些数据可以通过一些特殊的通道获得。例如GEO数据库，可以通过R包GEOquery获得其数据。

（如有遗漏，敬请指教！）

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/10013838.html

谁知道怎样在NCBI中找数据库？

发表评论

评论列表（0条）