模体(motif)表示具有特定功能的或作为一个独立结构域一部分的相邻的二级结构的聚合体,它一般被称为功能模体(functional motif)或结构模体(structural motif),相当于超二级结构(super-secondary structure)。模体和结构域一起组成了蛋白质的三级结构。
结构模体作为结构域的组分,介于蛋白质二级结构和三级结构之间,由相邻的二级结构单元彼此相互作用,组合在一起,排列成规则的,在空间结构能够辨认的二级结构组合体,并充当三级结构的构件,其基本形式有aa、bab和bbb等。多数情况下,只有非极性残基侧链参与这些相互作用,而亲水侧链多在分子的外表面。
常见模体:
(1)左手超螺旋——3根右手a-螺旋拧到一起形成一个左手超螺旋;
(2)右手超螺旋——3根左手螺旋拧到一起形成一个右手超螺旋,如胶原蛋白;
(3)卷曲螺旋——相邻的2根右手a-螺旋拧到一起形成一个左手超螺旋;
(4)螺旋束——多个a-螺旋的聚合体;
(5)b-折叠-a-螺旋-b-折叠,即bab;
(6)b-发夹环——两个反平行b-股由一个环相连;
(7)a-螺旋-b-转角-a-螺旋,即aba;
(8)a-螺旋-环-a-螺旋(EF手相);
(9)Rossmann卷曲——也称Rossmann折叠,它由两个bab连在一起,形成babab结构,通常能结合辅酶I;
(10)希腊钥匙模体——是一种全b折叠聚合体,存在于许多不同类型的蛋白质中,因在拓扑学上像古代花瓶上的希腊钥匙而得名,清蛋白原就含有这种模体。
模体是刻画蛋白质家族组成结构和执行功能的重要部分,但是对于通过各种生物信息学方法识别出的模体,目前没有很好的办法辨别真假和优劣文中提出一种新的模体评价策略,从分类器的观点出发,对不同方法在同一个蛋白质家族上建立的不同模体进行比较,从而推断出最具有生物意义的模体本文在PROSITE数据库中选取7个细胞因子家族,采用MEME和HMMER两种模体识别方法分别识别每个家族的模体,将每个模体看作一个分类器,通过计算同一家族的每个模体的敏感性和特异性并比较它们对应的接收机 *** 作特性曲线,进而比较不同模体,确定真的模体和排除假的模体,从而获得每个蛋白质家族的最佳模体的模型这种策略可以应用于对任意蛋白质家族模体识别结果的评价此外,还可以利用最佳模体搜索数据库的结果预测每个家族的新成员
关于基因预测结果的整合与否
方法1:最长ORF法
将每条链按6个读码框全部翻译出来,然后找出所有可能的不间断开放阅读框(ORF),只要找出序列中最长的ORF,就能相当准确地预测出基因。最长ORF法发现基因的一般过程(包括基因区域预测和基因功能预测2个层次):
步骤1:获取DNA目标序列
① 如果已有目标序列,可直接进入步骤2;
② 可以通过PubMed查找感兴趣的资料,通过GenBank或EMBL等数据库查找目标序列。
步骤2:查找ORF并将目标序列翻译成蛋白质序列
利用相应工具,如ORF Finder、Gene feature (Baylor College of Medicine)、GenLang (University of Pennsylvania)等查找ORF并将DNA序列翻译成蛋白质序列。
步骤3:在数据库中进行序列搜索
利用BLAST进行ORF核苷酸序列和ORF翻译的蛋白质序列搜索。
步骤4:进行目标序列与搜索得到的相似序列的全局比对(global alignment)
虽然步骤3已进行局部比对(local alignment)分析,但全局比对有助于进一步加深对目标序列的认识。
步骤5:查找基因家族
进行多序列比对(multiple sequence alignment),获得比对区段的基因家族信息。
步骤6:查找目标序列中的特定模序
分别在Prosite、BLOCK、Motif数据库中进行profile、模块(block)、模序(motif)检索。
步骤7:预测目标序列蛋白质结构
利用PredictProtein(EMBL)、NNPREDICT(University of California)等预测目标序列的蛋白质二级结构。
步骤8:获取相关蛋白质的功能信息
为了了解目标序列的功能,收集与目标序列和结构相似蛋白质的功能信息非常必要。可利用PubMed进行搜索。
方法2:利用编码区与非编码区密码子选用频率的差异进行基因预测
编码区的碱基组成不同于非编码区,这是由于蛋白质中20种氨基酸出现的概率、每种氨基酸的密码子兼并度和同一种氨基酸的兼并密码子使用频率不同(即密码子偏好)等原因造成的。该方法是目前各种预测程序中广泛应用的一种方法,如GCG(Genetic Computer Group研制的核酸、蛋白质分析软件包)的TestCode和Baylor Medcine College的BCM Gene Finder等程序均利用了这一方法。
方法3:利用ESTs预测基因
Expressed Sequence Tags (ESTs) 代表基因序列,若DNA序列和 EST严格匹配,这段DNA序列属于基因或假基因。此法对ESTs进行聚类和拼接,聚类和拼接的目的就是将来自同一个基因或同一个转录本的具有重叠部分(over-lapping)的ESTs整合到单一的簇(cluster)中。通过聚类可产生较长的一致性序列(consensus sequence),降低数据的冗余,纠正错误数据,并最终得到基因的全长序列。
随着信息学方法在基因预测中的进一步充分应用,一批新的基因预测方法被相继提出,如人工神经网络、隐马尔可夫模型(Hidden Markov Model, HMM)、动态规划法(dynamic programming)、法则系统(ruled-based system)、线性判别分析(Linear Discriminant Analysis, LDA)、决策树(decision tree)、傅立叶分析(Fourier analysis)等。这些方法是基于编码区所具有的独特信号,如剪接的供体和受体位点、起始和终止密码子、启动子特征、转录因子结合位点等进行预测。相关的基因预测软件包括:Procrustes、GeneID、GenScan、GRAIL等。
蛋白质数据库介绍
蛋白质数据库
1 PIR和PSDPIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,包含超过142,000条蛋白质序列(至99年9月),其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶-底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库,每周可以得到更新部分。
PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括BLAST、FASTA等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。
PIR和PSD的网址是:>
SRS(Sequence Retrieval System,)是EMBL研制的一个基于WEB的查询系统,也是目前国际上最有影响的生物分子数据库查询系统之一。SRS采用全菜单驱动方式,用户可以同SRS 迅速地访问生物分子数据库和文献数据库,包括EMBL、EMBL_NEW、SWISS-PROT、PIR等一级数据库,还包括许多二级数据库,如蛋白质家族和结构域数据库PROSITE、限制酶数据库ReBase、PDB序列子集数据库NRL_3D、真核基因启动子数据库EPD、Ecoli 数据库ECD、酶名称和反应数据库ENZYME、生物计算文献数据库SEQANALREF等,还有与功能、疾病相关的数据库,总共有80个数据库。SRS在欧洲、亚洲、太平洋地区、南美洲等地方都有镜像站点,在中国的镜像站点建立在北京大学生物信息中心。除了查询和获取数据功能之外,SRS还带有许多嵌入式工具,如分子疏水性显示、相似序列搜索、多重序列比对等工具。
简单的用C读取文件的例子代码片段。
FILE fp;
char buffer[1000];
fp=fopen( "inputtxt", "r" );
while ( fread(&buffer, sizeof(buffer), 1, fp )==1)
{
//对从文件读出来的数据在此处进行处理
}
fclose(fp);
是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。 PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等。
以上就是关于模体(motif)英文解释是什么全部的内容,包括:模体(motif)英文解释是什么、关于基因预测结果的整合与否、蛋白序列、结构数据库常用的有哪些等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)