简单来说就是已知一段氨基酸序列的空间构象(三级结构),若另一蛋白质分子中含有这段氨基酸序列,就可以大致推断这个蛋白质的空间构象(三级结构),而由这些已知的氨基酸序列的三级结构构成的库就是相应的数据库_蛋白质三级结构数据库。
也就是说如果将一个未知的蛋白质分子的氨基酸序列进行分段,而每段氨基酸序列之前有人对其空间构象和功能进行了研究并有了结果,然后上传到数据库里,那么我们就可以在已知数据库里面进行搜索匹配(那个未知蛋白质要先做氨基酸测序),然后用能够匹配的序列的空间构象来推测我们要测的蛋白质的空间构象,进而分析这个未知蛋白质的功能。
这是数据库的一个作用,另一个作用是用来分析物种的亲缘关系,至于其他作用要去看《生物信息学》这本书。
将PIR、SWISS-PROT和TrEMBL3个蛋白质数据库统一-起来组建而成,包含3个部分:
(1)
UniProt
Knowledgebase
(UniProtKB)
,这是蛋白质序列、功能、分类、交叉引用等蛋白质知识库,记录经过人工筛选和注释;
■
(2)
UniRef
(
UniProt
Non-redundant
Reference
)
数据库,将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;目前,根据序列相似程度形成3个子库,即UniRef100、UniRef90和UniRef50;
■
(3)
UniParc
(UniProt
Archive),是UniProt存档库
,
收录所有蛋白质序列。用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP下载数据。
其实最好用小型或者中型电脑会比较合适。。。
或者你买服务器的那种。。有种FOR这种计算用的类似显卡的东西,插个8张。。现在好多公司都在用类似的电脑。。。不过具体名字叫什么忘了。。
不过如果要用GPU运算的话。。。程序本身就得是运用了CUDA或者相关GPU编程技术的软件才能。。。
一般用GPU计算能力比CPU(浮点)要强。。。最好再配个SSD。。。
不过。。这也只能是微机的最大极限。。。毕竟这种大量运算工作的。。最好用中型或者大型电脑。。
蛋白质结构数据库(Protein Data Bank,简称PDB)是美国纽约Brookhaven国家实验室于1971年创建的。为适应结构基因组和生物信息学研究的需要,1998年10月由美国国家科学基金委员会、能源部和卫生研究院资助,成立了结构生物学合作研究协会(Research Collaboratory for Structural Bioinformat-ics,简称RCSB)。PDB数据库改由RCSB管理,目前主要成员为拉特格斯大学(Rutgers University)、圣地亚哥超级计算中心(San Diego Supercomputer Cen-ter,简称SDSC)和国家标准化研究所(National Insti-tutes of Standards andTechnology,简称NIST)。和核酸序列数据库一样,可以通过网络直接向PDB数据库提交数据。
首先打开数据库,会显示出主页如图所示。左侧有输入选项,可以根据你感兴趣单个或多个蛋白的名字,序列去搜索。以蛋白名字为例,输入EGFR蛋白,并且选择数据来源为人。然后点击search搜索即可。
接下来会出现如下图所示的界面,点击continue继续即可。
点击继续后即可出现如下图所示的结果,即为与EGFR存在相互作用的蛋白网络。在相互作用网络下方可以看到有一些选项,包括viewers,legend,settings,analysis,exports等等。
Viewers选项是提供结果呈现的不同形式。
①Network形式就是上图所展示的蛋白相互作用网络。
②Cooccurrence形式视图显示了跨物种连接蛋白的存在或缺失。蛋白质在页面顶部列出,物种名称的系统发育树在左侧列出。在接下来的表格中,一个物种中蛋白质的存在被标记为红色方块,而缺失则被标记为空白。红色方块的颜色强度反映了该物种中同源蛋白的保存量。
③experiments形式显示了从其他蛋白质-蛋白质相互作用数据库中收集的重要蛋白质相互作用数据集的列表。
④coexpression形式显示了在相同或其他物种中共表达的基因(通过同源转移)。共同表达用红色方块表示:方块的颜色越强烈表示表达数据的关联得分越高。
⑤databases形式显示了一个重要的蛋白质相互作用组的列表,收集自精心策划的数据库。
legend部分中,是对蛋白相互作用网络的详细解读。不同颜色的线代表不同的证据强度。预测的关联会立即显示在输入下面的列表中,按分数排序。如果输入基因是两种功能的融合,两者都会显示出来。单击分数符号将显示单个预测方法分数的细目。点击一个基因名称,就会得到蛋白质序列,以及STRING中类似蛋白质的列表。
对于settings选项则是根据自己的需要去设置一些参数,对网络图进行进一步的调节。
Analysis选项是对产生的网络图的进一步分析。将与EGFR存在相互作用的蛋白质进行GO,KEGG富集分析,并且会提供数据来源的文献。
Exports选项可以将生成的数据图导出成PNG,TSV等不同格式。
Cluster选项是可以对相互作用蛋白举行聚类分析。More选项是提供更多的相互作用蛋白,less则是更少。对于生成的相互作用网络而言,点击图中的蛋白球则可以获得关于蛋白的一些信息。例如蛋白的介绍
PDB 是蛋白质复合物的数据库,一个pdb id 往往代表多个蛋白质形成的复合物,或者蛋白质与小分子形成的复合物。而uniprot是蛋白质数据库,一个id就代表一个蛋白质。
考虑到一个蛋白质可能与多个其他蛋白或者小分子组合,因此,不同的pdb中会包含相同的蛋白质,也就是说一个uniprot id会对应多个pdb id
以上就是关于我们生物化学讲到蛋白质的内容,想问一下一个名词,什么叫“蛋白质三级结构的数据库”全部的内容,包括:我们生物化学讲到蛋白质的内容,想问一下一个名词,什么叫“蛋白质三级结构的数据库”、uniprot蛋白质序列数据库由哪几部分组成各有什么特点、处理RNA-seq数据和蛋白质网络互作的数据(数据比较大几百MB甚至几GB十几GB)需要什么配置电脑,台式。等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)