NCBI 分类学数据库(taxonomy database)不是分类学或系统发育信息的信息源(primary source),而且也没有自己的一套完整的分类学系统,相反它只是努力整合各种各样来源的系统发育和分类学的知识,包括发表的文献、基于网络的数据库、序列提交者的建议以及来自NCBI 外部的分类学专家。因此NCBI 的分类学数据库不是一个系统发育或分类学的“专家数据库”(Wheeler et al, 2000)。
获取序列所对应的分类学信息有两种方法。
一种方法,从NCBI 网站下载gi与taxid 对应表,在Taxonomy 数据库的FTP 地址下载。这个目录下有多个压缩文件,其中针对Windows *** 作系统的两个针对蛋白质序列和核苷酸序列的压缩文件分别是gi_taxid_protdmpgz 和gi_taxid_nucldmpgz 文件。这两个文件都只有两列,左边为gi 号,右边为Taxid。由于这些文件非常大,因此用浏览器来打开这些文件几乎是不可能的。随着时间的推移,这两个文件会越来越大,不过速度不会是指数增长的,并且在美国东部时间的每个星期一2:00 am NCBI 会对其进行更新。
对于Windows 用户还有一个文件称为taxdumpzip 文件。文件解压缩后包括1 个prt 文件和6 个dmp 文件。Gencodedmp 文件保存有不同的密码子表,与同目录的gcprt 联合使用;mergeddmp 是保存有合并的taxid 号的对应表;nodesdmp 是结点信息;divisiondmp 是较大的几个分类;namesdmp 结点名称信息,每个id 对应多行。这些数据被Phylogenie 软件包中的blammer 程序用于构建进化树。
利用ftp 地址的连接利用>
1、自己建立云服务器,服务器上安装数据库中间件和大型数据库;
2、服务器上安装Web服务,建议使用Apache,不要使用IIS,后者稳定性和效率以及安全性都太差了,个人和网站玩玩还行,大规模应用是看不住的;
3、中间件用作向服务器读写和查询,另一端连接web服务进行数据通讯;
4、任何PC、手机等写个小程序,将当前时间、扫描面单的地点等设定进去,然后扫描面单号、将数据传递到服务器中间件,中间件将流水写入数据库,中间件要有重复条码处理功能和错误条码处理功能等,其他的校验在客户端程序完成;
5、根据数据库流水,客户就可以通过网站,查询数据库中针对某个面单,所有的不同地点的扫描时间信息了,也就是说知道物流快递运送进度了,精确到秒,因为扫描的时间精确到秒,复杂些的系统扫描时的那台计算机,还可以连接电子秤,将重量也采集进去,这样那一站发生货物重量缺少,就说明那个环节箱子破了,有东西漏出来丢失了;目前大部分快递公司还做不到这点;
以上系统其实对我们来说,是最低级的系统,仅仅是条码流水采集统计查询而已,唯一不同的是将局域网的东西放到了互联网上,要额外考虑安全、并发连接数、负载均衡、数据库性能、网络稳定性和通讯中断处理机制,很多都要放在中间件中完成。以上所有可以使用免费开源的来实现,也可以使用商业系统实现。
开源免费的可以用:Linxu服务器Mysql数据库Perl语言的CGI开发中间件Apache的Web服务php的查询网页php客户端数据上传网页;
付费的可以使用IBM的服务器套件:Webshare套件DB2数据库,微软的MS-SQLServer就算了,稍大点的快递公司、物流公司,一周的数据就能超过10W个包裹,数据超过10万个,他数据库的性能会比Mysql免费开源数据库还差劲,所以很多人宁可使用性能比他好价格比他低的Oracle数据库也不用他,就是因为查询和读写速度达不到,并且微软的MS-SQLServer很多时候就算你把服务器加到16个CPU,32G内存,20个硬盘,2个千兆网卡,依然性能上不去,此时已经和硬件无关了,是数据库自己能力不足,所以很多大型供应链管理系统不用微软的数据库,是有原因的。
怎么将测序的micrna数据传到公共数据库
NCBI:持有INSDC的节点。网站上有核酸、蛋白、基因名、基因组名等等的搜索工具,以及BLAST序列比对搜索工具,PUBMED文献数据库,Taxonomy数据,COG蛋白家族库等等。FTP可以下到它全部的数据库,BLAST的单机程序,以及各种工具程序。
以上就是关于谁知道怎样在NCBI中找数据库全部的内容,包括:谁知道怎样在NCBI中找数据库、宏基因组发表的文章,rawdata数据必须上传到NCBI吗、物流公司网站的货物跟踪系统怎么做的,如何编程_物流运输跟踪等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)