NCBI的产生和发展是在美国和全球生物学高速发展,高通量数据急速产生,而缺乏有效的数据分析方法的背景下产生,起初它主要任务是数据的存储和查询。只不过其存储的数据大多以高通量数据为主,例如基因测序,基因组,SNP, 基因芯片,小分子化合物和GWAS数据等。这些数据的共享,极大地促进了生物信息学发展。
按照数据->样式->知识->智慧的发展模式,NCBI主要起到了一个为生物学家提供数据的角色。不过,NCBI目前也不断地在调整自己的角色。例如,生物医学文献。NCBI在从NLM继承过来的pubmed的基础,提供以PMC数据库为核心的全文文献服务。PubMed数据库应该是全球生物学家使用频率最高的数据库。NCBI最近对pubmed的改版,虽然没有实质性的改变,但其按照用户体验进行的修改,足见其对该数据库的重视。
另外,NCBI目前不断地在引入高学历生物学人才对其数据库的质量进行控制。以dbSNP为例,其正在通过与领域专家的合作将突变数据与人类表型数据进行关联。
总得来讲,NCBI的发展是与生物学高通量数据产生密切相关,它以经不在局限于提供数据存储与查询,其未来的发展必将发展为一个大型的、综合的知识库。到那时NCBI会不会免费,就要另当别论了。很显然没有人会将自己的手稿拱手让人。如果真有那么一天,不知道从中会产生多少专利和知识产权。
向GenBank提交数据
提交序列有两种方式,一个是在线的页面提交序列bankit,另一个是通过NCBI的Sequin软件提交序列。
从使用方便性上来说,两者均需要填写所必须的各项资料,也都是很麻烦,但后者也以同时提交多项序列,而且不会因为网络错误而导致已填写的数据丢失,还是更有利一些。
使用起来都是比较简单的,按照页面或者软件的说明一步一步填写即可。
提交序列后,系统会暂时给你分配一个临时的序列号,等到你的序列经过初步审核后会得到正式的Genbank序列号或登录号。你可以对你的序列随时进行修改和补充其他相关资料。
· 关于提交序列数据,收到 accession number,和对纪录作更新的一般信息。
· BankIt - 用于一条或者少数条提交的基于>)先登陆:>
集成信息检索:ENTREZ系统编辑本段回目录检索服务器可以对有目标的检索记录,但它主要的缺陷在于一次只能从一个数据库中检索到记录;想对一批数据库进行检索的用户必须为每一个目标数据库分别发出一次申请。很明显,这些大量的公用数据库之间存在着逻辑联系。例如,MEDLINE中的一篇论文可能描述一个基因的序列,该基因又在GenBank中出现。其核苷酸序列所编码的蛋白质的序列又存放在蛋白质数据库中。这种蛋白质的三维结构可能又是已知的,结构的数据可能出现在结构数据库中。最后,基因可能定位在某条染色体的某个区域,这类信息存放在图谱数据库中。
在这些生物学上的联系的基础上开发了一种方法;可以通过它查询所有与某一特殊的生物学实体有关的所有信息,而不必按次序查询分立的数据库。这就是一个名为Entrez的分子检索系统。它由NCBI开发和维护,Entrez在所有的主要的数据库计算机平台上均可使用,允许对PubMed(MEDINE)的记录,核苷酸和蛋白质的序列数据,三维结构信息,图谱信息进行集成的访问。全部信息只需经过一次查询。Entrez能够通过数据库之间的两种类型联系:相近性和硬连接来提供集成的信息检索。
这个问题涉及到NCBI的核心价值——数据共享。从NCBI创建之初她就是为用户”下载“数据而存在。历经近30年的发展,其提供的数据共享的方式也经历了诸多的改变。下面以提供数据共享的技术方式来逐一陈述:
1 FTP
FTP是File Transfer Protocol(文件传输协议)的英文简称。在互联网形成之初,非常重要的大文件传输格式。目前NCBI的大文件传输,甚至是整个NCBI网站的数据都可以用这种方式获得。网址为ftp://ftpncbinlmnihgov/不过要用好这些数据,你需要同时兼备生物学和计算机科学(基本)知识。
2 网页
当然绝大多数生物学家并不需要进行批量数据分析,知识要找到与自己课题相关的数据。NCBI提供了基于网页的查询检索系统。之所以称之为系统是因为其中包含了NCBI所有提供服务的数据库,该系统有一个统一的查询界面,成为Entrez。其语法和规则在查询不同数据库是基本相似,知识需要简单了解相应数据库的特殊字符即可。例如,查询GEO数据库时,只查询dataset数据可以使用[DataSet Type]关键字,但是该关键字在PUBMED并不适用。
3web服务
web服务在生物信息学和计算机科学中的定义有很大差别,这里特制计算机科学中的web服务。NCBI基于entrez提供了web service服务,用户在自己的程序中调用代码获取数据。主要是eUtils(>
集成信息检索:ENTREZ系统编辑本段回目录检索服务器可以对有目标的检索记录,但它主要的缺陷在于一次只能从一个数据库中检索到记录;想对一批数据库进行检索的用户必须为每一个目标数据库分别发出一次申请。很明显,这些大量的公用数据库之间存在着逻辑联系。例如,MEDLINE中的一篇论文可能描述一个基因的序列,该基因又在GenBank中出现。其核苷酸序列所编码的蛋白质的序列又存放在蛋白质数据库中。这种蛋白质的三维结构可能又是已知的,结构的数据可能出现在结构数据库中。最后,基因可能定位在某条染色体的某个区域,这类信息存放在图谱数据库中。
在这些生物学上的联系的基础上开发了一种方法;可以通过它查询所有与某一特殊的生物学实体有关的所有信息,而不必按次序查询分立的数据库。这就是一个名为Entrez的分子检索系统。它由NCBI开发和维护,Entrez在所有的主要的数据库计算机平台上均可使用,允许对PubMed(MEDINE)的记录,核苷酸和蛋白质的序列数据,三维结构信息,图谱信息进行集成的访问。全部信息只需经过一次查询。Entrez能够通过数据库之间的两种类型联系:相近性和硬连接来提供集成的信息检索。
相近性
相近性联系着一个给定的数据库之内的记录。使用者在查看MEDLINE中某条记录时可以要求Entrez"找出所有类似的论文",类似的,使用者在查看一个序列的同时可以要求Entrez"找出所有与这个序列类似的序列"。一个数据库之内的相近性关系是建立在对相似性的统计计算上的:
BLAST 序列数据可以用基本局部对比搜索工具(Basic Local Alignment Search Tool,即BLAST)相互比较。这个算法试图找到"高度匹配的片段对"(high-scoring segment pairs,简记为HSPs),即能够无缺口的对齐且达到一定的分数的成对的序列。
VAST 几套坐标数据之间的比较采用一种名为VAST的基于向量的算法。VAST即Vector Alignment Search Tool(Madej等,1995;Gibrat等,1996)。VAST的比较有三个步骤:
1第一,在坐标数据的基础上,标出所有的构成蛋白质的核心部分的α螺旋和β片层。然后根据这些二级结构单位的位置计算向量。以下的步骤使用这些向量来做对比而不是整个一套坐标。
2然后,算法试图最佳的匹配这些向量,寻找类型和相对方位相同的成对的结构单位,并且在这些单位之间还要有同样的连接方式。其目标在于识别高度相似的"核心结构",这些成对结构的匹配性要比随机的选择蛋白质相互比较得到的高得多。
3最后,在每个残基位置上使用蒙特-卡洛方法对结构的排列进行优化。
使用这个方法有可能找到一些序列相似性不明显的蛋白质之间的结构上的关系(可能在功能上也有关系)。最后的对齐结果不一定是全局的,可能在不同的蛋白质的单独的结构域之间配对。
需要重点注意的是VAST不是确定结构相似性的最好办法,因为还可以利用三维坐标文件中的其它信息来做更进一步的修正,如考虑侧链的位置及侧链之间的相互作用的热力学特点。而把结构压缩成一列矢量必然会导致信息的丢失。然而,考虑到这个问题的数量级-即需要做的成对比较的次数-及采用更高级的方法所需要的计算能力和时间,VAST至少为结构相似性问题提供了一个简单和快速的答案。
加权的关键词 序列数据对比问题与MEDLINE记录的对比相比较还是容易一点,MEDLINE的记录是自由书写的文本,语法上不固定。Entrez使用了名为"相关配对模式检索"的方法来做这种对比,该方法依靠的基础是加权关键词(Wilbur和Caffee,1994;Wilbur和Yang 1996),这个概念用具体的例子来描述比较合适。
硬连接
硬连接的概念比相近性的概念更容易接受。硬连接用于联系不同的数据库中的记录,只要这些记录之间存在逻辑联系,就存在硬连接。举例来说,如果一条MEDLINE记录是关于装配型质粒的,那么在这条记录和对应的核酸记录之间就建立一条硬连接。如果这个装配型质粒上的一个开放阅读框架编码某种已知的蛋白质,那么在核酸记录和蛋白质记录之间就建立一条硬连接。如果这种蛋白质恰好已经有实验测出了它的结构,那么在这条蛋白质记录和结构记录之间也会建立一条硬连接。
以上就是关于谁用过NCBI的CDD数据库全部的内容,包括:谁用过NCBI的CDD数据库、请教哪位朋友能帮我或教我向NCBI提交一个基因序列。、怎么利用ncbi的entrez检索核酸数据库获得登录号等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)