蛋白序列数据库的相关详细信息。主要用于生物模拟显示软件都有什么格式的文件,怎么获得谢谢!

蛋白序列数据库的相关详细信息。主要用于生物模拟显示软件都有什么格式的文件,怎么获得谢谢!,第1张

NCBI NCBI下有很多数据库,以下是蛋白质序列

PopSet包含研究一个人群、一个种系发生或描述人群变化的一组组联合序列。PopSet既包含核酸序列数据又包含蛋白质序列数据。

Entrez 功能强大,在于它的大多数记录可相互链接,既可在同一数据库内链接,也可在数据库之间进行链接。当运用BLAST软件比较某氨基酸或DNA序列与库中其他氨基酸或DNA序列差异即进行相似性检索时,则会涉及到蛋白质库或核苷酸库的库内链接。库间链接发生在核苷酸数据库内的记录与PubMed库中已发表序列的引文间的链接,或蛋白质序列记录与核苷酸序列库中编码它的核苷酸序列间的链接。

BLAST(Basic Local Alignment Search Tool)是用于序列相似性检索的一个重要数据库,是区分基因和基因特征的工具。该软件能在15秒内完成整个DNA数据库的序列检索。BLAST记录的相关度有明确的统计学解释,以便更容易地将相关记录与随机的数据库记录相区分。在NCBI主页的左工具条中,点击BLAST图标,即进入BLAST主页。

BLAST 主页提供了几种BLAST检索软件。其中BLAST20是一种新的BLAST检索工具,它在原有基础上作了改进,运行速度更快,灵敏度更高,同时具有Gapped BLAST 和PSI-BLAST两种软件的新功能。Gapped BLAST 允许在对准的序列中引入空位(碱基缺失或插入),引入空位(Gaps)意味着在比较两个相关序列时不会出现中断(Break)现象。这些空位对准的记分系统更能反映相关序列的类似程度。PSI-BLAST的全称是Position-Specific Iterated BALST,即特殊位置重复BLAST,它提供了自动、易用的概貌(Profile)检索,是查找序列同源的有效工具。

Dnastar 可以用于解决你踢完的后半个问题

大型数据库分成若干子库,有许多好处。首先,可以把数据库查询限定在某一特定部分,以便加快查询速度。其次,基因组计划快速测序得到的大量序列尚未加以注释,将它们单独分类,有利于数据库查询和搜索时“有的放矢”。GenBank将这些数据按高通量基因组序列(High Throughput Genomic Sequences,HTG)、表达序列标记(Expressed Sequence Tags,EST)、序列标记位点(Sequence Tagged Sites,STS)和基因组概览序列(Genome Survey Sequences,GSS)单独分类。尽管这些数据尚未加以注释,它们依然是GenBank的重要组成部分。

可通过Entrez数据库查询系统对GenBank进行查询。这个系统将核酸、蛋白质序列和基因图谱、蛋白质结构数据库整合在一起。此外,通过该系统的文献摘要数据库MEDLINE,可获取有关序列的进一步信息。在万维网上,进入NCBI的主页,可以用BLAST程序对GenBank数据库进行未知序列的同源性搜索(详见第六章)。

完整的GenBank数据库包括序列文件,索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等子段建立的,用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库,其数据格式为FastA。GenBank曾以CD-ROM光盘的形式分发,价格比较便宜。随着数据库容量的增长,一套最新版的GenBank需要12张光盘存放,不仅生产成本很高,也不便于使用。现在,光盘分发的方式已经停止,可以通过网络下载GenBank数据库。

GenBank中最常用的是序列文件。序列文件的基本单位是序列条目,包括核甘酸碱基排列顺序和注释两部分。目前,许多生物信息资源中心通过计算机网络提供该数据库文件。下面,我们介绍序列文件的结构。

序列文件由单个的序列条目组成。序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。有些字段又分若干次子字段,以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记。序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。每个字段可以占一行,也可以占若干行。若一行中写不下时,继续行以空格开始。

序列条目的关键字包括代码(LOCUS),说明(DEFINITION), 编号(ACCESSION),核酸标识符(NID),关键词(KEYWORDS),数据来源(SOURCE),文献(REFERENCE),特性表(FEATURES),碱基组成(BASE COUNT)及碱基排列顺序(ORIGIN)。

代码LOCUS是该序列条目的标记,或者说标识符,蕴涵这个序列的功能。例如,图41中所示的HUMCYCLOX表示人的环氧化酶cyclooxygenase。该字段还包括其它相关内容,如序列长度、类型、种属来源以及录入日期等。说明字段是有关这一序列的简单描述,如本例为人环氧化酶-2的mRNA全序列。

序列代码具有唯一性和永久性,如本例中代码M90100用来表示上述人环氧化酶-2的mRNA序列,在文献中引用这个序列时,应该以此代码为准。核酸标识符NID对序列信息的当前版本提供?

关键词字段由该序列的提交者提供,包括该序列的基因产物以及其它相关信息,如本例中还氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。 数据来源字段说明该序列是从什么生物体、什么组织得到的,如本例中人脐带血管(umbilical vein)。次关键字种属(ORGANISM)指出该生物体的分类学地位,如本例人、真核生物等等。文献字段说明该序列中的相关文献,包括作者(AUTHORS),题目(TITLE)及杂志名(JOURNAL)等,以次关键词列出。该字段中还列出医学文献摘要数据库MEDLINE的代码。该代码实际上是个网络链接指针,点击它可以直接调用上述文献摘要。一个序列可以有多篇文献,以不同序号表示,并给出该序列中的哪一部分与文献有关。

FEATURES是具有自己的一套结构,用来详细描述序列特性的一个表格。在这个表格内,带有‘/db-xref/’标志的字符可以连接到其它数据库内(本例,您看到的是一个分类数据库(taxon 9606),以及一个蛋白质数据库(PID:g181254));序列中各部分的位置都加以标明,5’非编码区(1-97),编码区(98-1912),3非编码区(1913-3387),多聚腺苷酸序列(3367-3374),等等;蛋白质翻译的信号肽及最终的多肽也都有所说明。这个例子不能说很全面,但已经足以说明特性表给出信息的详细程度。

接下来是BASE COUNT记录,计算出不同碱基在整个序列中出现的次数(1010A,712个C,633个G,1032个T)。ORIGIN那一行,指出了序列第一个碱基在基因组中可能的位置。最后,核酸的序列全部列出,并以//作为结尾。

序列是Oracle i提供的用于按照设定的规则自动产生数据的方案对象 在某些数据表的结构中 有些字段需要这种特性 比如 对于某个学生数据表的学号关键字段 用户可以希望在录入数据时 能够自动在上一个记录的学号字段上自动加 等 由于Oracle i提供的 种基本数据类型并没有这样的功能 可以通过序列方案对象来实现 序列的创建 下面介绍在企业管理器中如何创建序列 ( )在企业管理器中选择myoracle mynet/方案/序列选项 单击鼠标右键 在出现的快捷菜单里选择创建选项 如图 所示 ( )出现如图 所示的创建序列的一般信息选项卡 在名称文本框里输入待定义的序列的名称 TEMPSEQUENCE 在方案下拉列表框里选择序列所属的用户名 SCOTT 序列类型参数有两个选项 若选择升序单选钮 则表示将创建从初始值向最大值递增的序列 这是创建序列时的默认设置 若选择降序单选钮 则表示将创建从初始值向最小值递减的序列 对值可以进行设置的参数如下 在最小值文本框里设置序列允许的最小值 创建序列时该字段最初为空 如果单击创建按钮时该字段为空 则对升序序列使用默认值 而对降序序列使用默认值 在最大值文本框里设置序列允许的最大值 创建序列时该字段最初为空 如果单击创建按钮后该字段为空 则将对升序序列使用默认值 而对降序序列使用默认值 在时间间隔文本框里设置递增序列递增的间隔数值(升序序列)或递减序列递减的间隔数值(降序序列) 创建序列时该字段最初为空 如果单击创建按钮后该字段为空 将使用默认值 该字段只能为正整数 在初始值文本框里设置序列的起始值 如果单击创建按钮后该字段为空 对升序序列将使用该序列默认的最小值 对降序序列将使用该序列默认的最大值 对选项可以设置的参数如下 若选择循环值复选框 则表示指定在达到序列最小值或最大值之后 序列应继续生成值 对升序序列来说 在达到最大值后将生成最小值 对降序序列来说 在达到最小值后将生成最大值 如果未选择该复选框 序列将在达到最小值或最大值后停止生成任何值 默认情况下是未选择状态 若选择排序值复选框 则指定序列号要按请求次序生成 默认情况下是未选择状态 在高速缓存中设置由数据库预分配并存储的值的数目参数 若选择默认值单选钮 则表示将设置默认值为 默认情况下选择此选项 若选择无高速缓存单选钮 则表示指定不预分配序列值 若选择大小单选钮 则表示在文本框里输入可接受的值 最小值为 对循环序列来说 该值必须小于循环中值的个数 如果序列能够生成的值数的上限小于高速缓存大小 则高速缓存大小将自动改换为该上限数 完成设置后单击创建按钮 ( )成功创建序列后 出现如图 所示界面 单击 确定 按钮 ( )读者也可以在SQLPlus Worksheet中执行下列SQL程序创建序列 ―――――――――――――――――――――――――――――――――――――CREATE SEQUENCE SCOTT TEMPSEQUENCE INCREMENT BY START WITH MAXVALUE E MINVALUE NOCYCLE CACHE NOORDER―――――――――――――――――――――――――――――――――――――配套程序位置 第 章\ createsequence sql 序列的使用 下面介绍在向数据表中插入数据时如何使用序列 ( )首先为实例建立一个数据表 SCOTT SEQUENCE_TABLE 为简化起见 该数据表仅包含一个类型为 NUMBER 的数据列 NO 在如图 所示的创建表的一般信息选项卡中进行如下设置 在名称文本框中输入 SEQUENCE_TABLE 在方案下拉列表框中选择 SCOTT 在表空间下拉列表框中选择 USERS 在名称单元格中输入 NO 在数据类型下拉列表框单元格中选择 NUMBER 完成设置后单击创建按钮 ( )读者也可以在SQLPlus Worksheet中执行下列SQL代码创建数据表 SCOTT SEQUENCE_TABLE ―――――――――――――――――――――――――――――――――――――CREATE TABLE SCOTT SEQUENCE_TABLE ( NO NUMBER( ) NOT NULL)TABLESPACE USERS ―――――――――――――――――――――――――――――――――――――配套程序位置 第 章\ createsequencetable sql ( )在插入新的记录时 使用刚创建的 TEMPSEQUENCE 序列来自动产生 NO 数据列的值 在SQLPlus Worksheet里执行下面的SQL代码 执行的结果如图 所示 ―――――――――――――――――――――――――――――――――――――INSERT INTO SCOTT SEQUENCE_TABLE(NO)VALUES(SCOTT TEMPSEQUENCE NEXTVAL);―――――――――――――――――――――――――――――――――――――配套程序位置 第 章\ insertsequencetable sql SCOTT TEMPSEQUENCE NEXTVAL 表分配下一个惟一的 可用的序列号 执行 SCOTT TEMPSEQUENCE NEXTVAL 后 可以使用 SCOTT TEMPSEQUENCE CURRVAL 来标识上一个已经存储的序列值 ( )在SQLPlus Worksheet中可以执行查询数据表 SCOTT SEQUENCE_TABLE 数据的语句 执行结果如图 所示 表明序列 SCOTT SEQUENCE 产生的值已经成功录入数据表中 ―――――――――――――――――――――――――――――――――――――select from scott sequence_table;―――――――――――――――――――――――――――――――――――――配套程序位置 第 章\ selectsequencetable sql 序列的删除 下面介绍在企业管理器中如何删除序列 ( )在创建好的序列 SEQUENCE 上用单击鼠标右键 在出现的快捷菜单里选择移去选项 如图 所示 ( )出现如图 所示的删除序列确认界面 单击是按钮 lishixinzhi/Article/program/Oracle/201311/17301

     思极有容时序数据库正是普华公司面对这一高速增长的物联网大数据市场和技术挑战推出的创新性的大数据处理产品,它不依赖任何第三方软件,也不是优化或包装了一个开源的数据库或流式计算产品,而是在吸取众多传统关系型数据库、NoSQL数据库、流式计算引擎、消息队列等软件的优点之后自主开发的产品,在时序空间大数据处理上,有着自己独到的优势。

·        10倍以上的性能提升:定义了创新的数据存储结构,单核每秒就能处理至少2万次请求,插入数百万个数据点,读出一千万以上数据点,比现有通用数据库快了十倍以上。

·        硬件或云服务成本降至1/5:由于超强性能,计算资源不到通用大数据方案的1/5;通过列式存储和先进的压缩算法,存储空间不到通用数据库的1/10。

·        全栈时序数据处理引擎:将数据库、消息队列、缓存、流式计算等功能融合一起,应用无需再集成Kafka/Redis/HBase/HDFS等软件,大幅降低应用开发和维护的复杂度成本。

·        强大的分析功能:无论是十年前还是一秒钟前的数据,指定时间范围即可查询。数据可在时间轴上或多个设备上进行聚合。临时查询可通过Shell, Python, R, Matlab随时进行。

·        与第三方工具无缝连接:不用一行代码,即可与Telegraf, Grafana, Matlab, R等工具集成。后续将支持MQTT, OPC等工具, 与BI工具也能够无缝连接。

·        零运维成本、零学习成本:安装、集群一秒搞定,无需分库分表,实时备份。支持标准SQL语句,支持JDBC, RESTful连接, 支持Python/Java/C/C++/Go等开发语言, 与MySQL相似,零学习成本。

采用思极有容时序数据库,可将典型的物联网、车联网、工业互联网大数据平台的整体成本降至现有的1/5。同样的硬件资源,思极有容时序数据库能将系统处理能力和容量增加五倍以上。

同时,相比HBase等数据库,使用普华思极有容时序数据库来存储有以下优势:

1 存储空间大幅节省,估计不到HBase的1/10

2 服务器资源大幅节省,估计不到1/5

3 查询速度提高至少10倍

4 提供异地容灾备份方案

5 支持通过标准SQL进行即席查询

6 数据超过保留时长,自动删除

7 零管理,安装、部署、维护极其简单,一键搞定

首先说明一下序列化的知识:java中的序列化()机制能够将一个实例对象的状态信息写入到一个字节流中,使其可以通过socket进行传输、或者持久化存储到数据库或文件系统中;然后在需要的时候,可以根据字节流中的信息来重构一个相同的对象

序列化机制在java中有着广泛的应用,EJB、RMI等技术都是以此为基础的

序列化机制是通过java

io

类和java

io

类来实现的

在序列化(serialize)一个对象的时候,会先实例化一个对象,然后调用其writeObject()方法;在反序列化(deserialize)的时候,则会实例化一个对象,然后调用其readObject()方法

上面您的错误,就是在于有一个或者几个没有"序列化"的数据,导致没有办法创建输出流,导致发生的java

io

之所以要序列化,我猜测是因为您的数据里面存在一个对象型的数据,但是该对象没有实现序列化

比如:您有一个字段为address,这个字段您是通过一个类Address来描述的,Address里面可能有province、city、street等等属性或者一些setter和getter,如果这个类,没有实现序列化,往往会出现这个问题

毕竟没有看到程序,是我的一个猜测,请检查一下程序或者发出来进行进一步讨论

以上就是关于蛋白序列数据库的相关详细信息。主要用于生物模拟显示软件都有什么格式的文件,怎么获得谢谢!全部的内容,包括:蛋白序列数据库的相关详细信息。主要用于生物模拟显示软件都有什么格式的文件,怎么获得谢谢!、DNA数据库的GenBank、oracle数据库PL/SQL序列(组图)等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9758537.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-01
下一篇 2023-05-01

发表评论

登录后才能评论

评论列表(0条)

保存