高通量测序数据公共数据库有哪些_工具

我原来常用的：

NCBI：持有INSDC的节点。网站上有核酸、蛋白、基因名、基因组名等等的搜索工具，以及BLAST序列比对搜索工具，PUBMED文献数据库，Taxonomy数据，COG蛋白家族库等等。FTP可以下到它全部的数据库，BLAST的单机程序，以及各种工具程序。

EBI：和NCBI类似，欧洲搞的对等物。感觉EBI网站比NCBI要清楚简洁。另外EBI网站整合了更多的工具，比如多序列比对。

Uniprot：全蛋白库。NCBI和EBI的蛋白库来源于此。目前包括两部分：SwissProt是人工校对过的，TrEMBL是自动校对的。

Pfam：蛋白家族库。可以使用配套的HMMER进行搜索。比BLAST能找到更远缘的东西，而且找到的东西是结构域。

Rfam：RNA的，类似Pfam。

基因组注释分析主要包括哪些内容基因组注释包括以下方面的内容：（1）重复序列的预测。通过比对已知的重复序列数据库，找出序列中包含的重复序列，识别类型并转化为N或者X，统计各种类型重复序列的分布。（2）编码基因的预测。通过将转录组或EST数据比对到拼接后的基因组序列上，找出编码基因位置，预测编码基因结构。或者通过专业的外显子预测软件，预测编码基因的外显子结构。（3）小RNA基因的预测。通过比对已知的小RNA的数据库，或者通过生物信息(bioinformation)学软件预测，找出这些小RNA基因，并进行分类。（4）调控序列和假基因的预测。基因功能的注释，使用的数据库包括NT/NR,SwissProt/TrEMbl,InterPro,KEGG,COG,Geneontology等，使用比对的方法，如blast，找出同源相近的基因，并注释功能。

目前，数据库管理系统关系型数据库为主导产品的商品化，技术相对成熟。虽然面向对象的数据库管理系统的先进技术，数据库易于开发，维护，但尚未成熟的产品。国际和国内领先的关系数据库管理系统，甲骨文，Sybase，Informix和INGRES。这些产品支持多种平台，如UNIX，VMS，Windows上，而不是同一级别的支持。和成熟的IBM的DB2关系数据库。但是，DB2是内嵌于IBM的AS/400系列机，只支持OS/400 *** 作系统。

？1MySQL

？MySQL是最受欢迎的开源SQL数据库管理系统，由MySQL AB公司，发布和支持。 MySQL AB是基于MySQL开发一个商业公司，它是利用与开源值相结合的一个成功的商业模式？和方法论的第二代开源公司。 MySQL是MySQL AB的注册商标。

？MySQL是一个快速，多线程，多用户和健壮的SQL数据库服务器。 MySQL服务器支持关键任务，重负载生产系统的使用，它可以嵌入到一个大配置（大规模部署）软件。

？的MySQL与其他数据库管理系统相比，具有以下优点：

？（1）MySQL是一个关系数据库管理系统。

？（2）MySQL是开源。

？（3）MySQL服务器是一个快速，可靠和易于使用的数据库服务器。

？（4）在MySQL服务器的客户机/服务器或嵌入式系统。

？（5）可以使用MySQL软件。

2SQL Server的吗？

？SQL Server是由微软开发的数据库管理系统，是目前最流行的数据库，用于存储在网络上的数据，它已被广泛用于电子商务，银行，保险，电力和其他数据库相关的产业。

？SQL Server 2005的最新版本，它只能在Windows作业系统的稳定运行是非常重要的数据库。并行实施和共存模型并不成熟，这是很难对付越来越多的用户和数据量是有限的，可扩展性。

？SQL Server提供了网络和电子商务功能，如丰富的XML和Internet标准的支持，轻松且安全地通过Web访问的数据的范围很广，有一个强大，灵活和网络，基于安全和应用管理。此外，由于它的易用性和友好的用户界面，通过广大用户的好评，。

？3Oracle

？提出的数据库，该公司首先想到的，通常是甲骨文（Oracle）。该公司成立于1977年，原是一个专门开发的数据库公司。甲骨文一直在数据库领域的领导者。 1984年，第一个关系数据库转移到一台台式电脑。然后，Oracle5率先推出的分布式数据库，客户机/服务器体系结构的新概念。甲骨文公司的第一行锁定模式和对称多处理计算机的支持最新的Oracle对象技术，成为关系 - 对象数据库系统。目前，甲骨文的产品涵盖了几十个型号的大，中，小型机，Oracle数据库已成为世界上使用最广泛的关系数据。

Oracle数据库产品具有以下优良特性。

？（一）兼容性

？Oracle产品使用标准的SQL，和美国国家标准技术局（NIST）测试后。兼容IBM的SQL / DS，DB2中，安格尔的IDMS / R。

？（2）可移植性

？？甲骨文的产品，可以广泛的硬件和 *** 作系统平台上运行。可以安装在超过70种大不同，VMS系统的DOS，UNIX上，Windows和其他 *** 作系统，小型机;

？（3）协会

甲骨文与各种通信网络连接，支持各种协议（TCP / IP协议说，DECnet，LU62工作等）。？

？（4）高生产率

？Oracle提供了多种开发工具，可以极大地方便进一步的发展。

？（5）开放

？Oracle的兼容性，可移植性，连接性和高生产力的Oracle RDBMS具有良好的开放性。

？4Sybase

？马克B Hiffman和罗伯特·爱泼斯坦，1984年，创建了Sybase公司，并于1987年推出了Sybase数据库产品。 SYBASE主要有三种版本：一是UNIX *** 作系统版本下运行的Novell Netware环境下运行的版本; Windows NT环境下运行的版本。 UNIX *** 作系统，目前应用最广泛使用的SCO UNIX SYBASE 10 SYABSE- 11。

？？的Sybase数据库的特点：

？（1）它是基于客户机/服务器体系结构的数据库。

？（2）它是真正开放的数据库。

？（3）它是一种高性能的数据库。

？5DB2

？DB2是内嵌在IBM的AS/400系统的数据库管理系统，直接从硬件支持。它支持标准的SQL语言，异构数据库连接的网关。因此，它具有速度快，可靠性好等优点。但是，只有硬件平台选择了IBM的AS/400，可以选择使用DB2数据库管理系统。

？DB2可以运行在所有主要平台（包括Windows），最适于海量数据。

？DB2是使用最广泛的企业级，而国内约5％，在1997年，在世界最大的500家企业，近85％的DB2数据库服务器。

？此外，微软的Access数据库，FoxPro数据库。现在有这么多的数据库系统，在游戏中进行编程，应该选择什么样的数据库？首要的原则，根据实际需要，另一方面，考虑游戏开发预算。现在常用的数据库：SQL Server中，我的SQL，甲骨文，FoxPro的。 MySQL是一个免费的数据库系统，其功能与一个标准的数据库功能，因此，建议使用独立制片人。甲骨文虽然功能强大，但它是用于商业用途，是目前在比赛中很少使用。

基因组注释分析主要包括哪些内容基因组注释包括以下方面的内容：重复序列的预测。通过比对已知的重复序列数据库，找出序列中包含的重复序列，识别类型并转化为N或者X，统计各种类型重复序列的分布。

当前比较流行的Web数据库主要有：SQL Server、MySQL和Oracle。这3种数据库适应性强，性能优异，容易使用，在国内得到了广泛的应用 1．SQL Server 是微软公司从Sysbase获得基本部件的使用许可后开发出的一种关系型数据库。目前最新的版本是SQL Server 2000，但SQL Server 70仍在广泛使用。由于均出自微软之手，使得SQL Server和Windows、IIS等产品有着天然的联系。事实上以Windows为核心的几乎所有微软的软件产品都采用了一致的开发策略，包括界面技术、面向对象技术、组件技术等，这样在微软的软件中很多都可以相互调用，而且配合得非常密切。因此如果用户使用的是Windows *** 作系统，那么IIS、 SQL Server就应该是最佳的选择。 2．MySQL 是当今Unix或Linux类服务器上广泛使用的Web数据库系统。它于1996年诞生于瑞典的TcX公司，支持大部分的 *** 作系统平台。MySQL的设计思想快捷、高效、实用。虽然它对ANSI SQL标准的支持并不完善，但支持所有常用的内容，完全可以胜任一般Web数据库的工作。由于它不支持事务处理，MySQL的速度比一些商业数据库快 2～3倍，并且MySQL还针对很多 *** 作平台做了优化，完全支持多CPU系统的多线程方式。在编程方面，MySQL也提供了C、C++、Java、Perl、Python和TCL等API接口，而且有MyODBC接口，任何可以使用ODBC接口的语言都可以使用它。更重要的是，MySQL的源代码是公开的，可以免费使用，这就使得MySQL成为许多中小型网站、个人网站追捧的明星。 3．Oracle 是Oracle公司开发出的一种面向网络计算机并支持对象关系模型的数据库产品。它是以高级结构化查询语言为基础的大型关系数据库，是目前最流行的客户/服务器体系机构的数据库之一。目前广泛使用的版本是Oracle 8i,它之所以备受用户喜爱是因为它具有以下突出的特点：（1）支持大型数据库、多用户和高性能的事务处理。Oracle支持最大数据库，其大小可达到几百千兆，可充分利用硬件设备；支持大量用户同时对数据库执行各种数据 *** 作，并使数据征用最小，保证数据一致性；系统维护具有很高的性能，Oracle每天可连续24小时工作，正常的系统 *** 作（后备或个别系统故障）不会中断数据库的应用；可在数据库级或子数据库级上控制数据的可用性。（2）Oracle 遵守数据库存取语言、 *** 作系统、用户接口、和网络通讯协议的工业标准，所以它是一个开放系统，保护了用户的投资。美国标准化和技术研究所（NIST）对Oracle Server进行过检验，完全与ANSI/ISO SQL89标准相兼容（3）实施安全性控制和完整性控制。Oracle为限制系统对各监控数据库存取提供可靠的安全性，并为可接受的数据指定标准，保证数据的完整性。（4）支持分布式数据库和分布式处理。Oracle为了充分利用计算机系统和网络，允许将处理分为数据库服务器和客户应用程序处理，所有共享的数据管理由数据库管理系统的计算机处理，而运行数据库应用的工作站集中于解释和显示数据。通过网络连接环境，Oracle将存放在多台计算机上的数据组合成一个逻辑数据库，可被全部网络用户存取。分布式系统像集中式数据库一样具有透明性和数据一致性。上面介绍的3种数据库产品是目前最常用的3种大型关系数据库系统，它们虽然在体系结构和 *** 作方法上有许多相似的地方，但是在应用环境上还是各有侧重的。一个应用系统在选用数据库时，性能和价格时首先要考虑的两个因素，表1-1列出了这3种数据库在性能和价格上的对比情况，在使用时不同的系统应针对实际情况采用合适的方案。从用户的技术水平以及国内软件应用的现状来看，SQL Sever应该是一个较好的选择，尤其是对初学者而言。

蛋白质数据库介绍

蛋白质数据库

1 PIR和PSDPIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库，包含超过142,000条蛋白质序列(至99年9月)，其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理，超过99%的序列已按蛋白质家族分类，一半以上还按蛋白质超家族进行了分类。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引，以及数据库内部条目之间的索引，这些内部索引帮助用户在包括复合物、酶－底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库，每周可以得到更新部分。

PSD数据库有几个辅助数据库，如基于超家族的非冗余库等。PIR提供三类序列搜索服务：基于文本的交互式检索；标准的序列相似性搜索，包括BLAST、FASTA等；结合序列相似性、注释信息和蛋白质家族信息的高级搜索，包括按注释分类的相似性搜索、结构域搜索GeneFIND等。

PIR和PSD的网址是：>

蛋白质数据库介绍

蛋白质数据库

1 PIR和PSDPIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库，包含超过142,000条蛋白质序列(至99年9月)，其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理，超过99%的序列已按蛋白质家族分类，一半以上还按蛋白质超家族进行了分类。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引，以及数据库内部条目之间的索引，这些内部索引帮助用户在包括复合物、酶－底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库，每周可以得到更新部分。

PIR和PSD的网址是：>

以上就是关于高通量测序数据公共数据库有哪些全部的内容，包括:高通量测序数据公共数据库有哪些、基因组测序完后是进行基因注释还是基因组注释、什么是常用的三个数据库等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9322704.html

高通量测序数据公共数据库有哪些

发表评论

评论列表（0条）