王涤平综述 童坦君审校
(北京大学医学部生物化学与分子生物学系 北京100083)
摘要 人类基因组计划预计近两三年内即可完成,我们将会得到许多序列已知但未知功能的cDNA。本文简单介绍利用互联网上信息资源分析cDNA序列和预测它所编码的蛋白质的结构和功能的方法和常用工具。
关键词 互联网,cDNA,蛋白质,结构和功能预测
The protein product of cDNA:Predicting its structure and function using internet
W ANG Di2Ping,T ONG T an2Jun
(The H ealth Science Center,Peking Univer sity,Beijing100083,P.R.China)
Abstract The Human G ene Project will be completed in tw o or three years,biologist will obtain many cDNA sequences which functions are unknown.This article introduces s ome methods and tools in internet,by which we can analysis cDNA sequences and predict the structure and function of the proteins that are coded by them.
K ey w ords internet,cDNA,protein,structural and functional prediction
人类基因组计划(Human G ene Project,HG P)进展非常迅速。1999年11月人类第22条染色体的测序全部完成,这是第一条完整测序的染色体[1]。2000年5月人类第21条染色体的测序也宣布完成[2]。到1999年底约有1P3的基因组序列已经测出,目前保守估计不迟于2003年底将全部完成,人类即将步入后基因组时代。(编者注:本文发排时HG P已全部完成)。然而HG P只是一个以测序为主的结构基因组学的研究,该计划完成之后的任务更加艰巨,要阐明整个基因组基因的功能可能是21世纪整个生物学界的中心任务。为了阐述新基因的功能,科学家已经提出了功能基因组学(functional genomics)、转录子组学(transcriptomics)、蛋白质组学(proteomics)的概念。但是目前由于各方面技术的限制其速度远远跟不上潮水般涌现的新基因的步伐。近年来cDNA 克隆和测序工作进展也很快,一方面短序列片段(EST)在数据库中大量涌现,另一方面越来越多的全长cDNA得以克隆和测序,许多新型cDNA文库也被大量构建,极大地扩展了cDNA文库的应用。这样,分子生物学工作者经常会遇到一个问题:在获取一条cDNA部分或全长序列后如何判断它是属于已知或未知的某个基因、如何知道它所编码的蛋白质的结构和功能。随着计算机网络技术和生物信息学的飞速发展,利用互联网上生物信息资源对cDNA序列及其蛋白质产物的结构和功能进行分析和预测已经成为一个快速、简单可行的方法。1 常用序列数据库
G enBank由NC BI(美国国立卫生研究院生物技术中心)创建并管理,是NC BI众多数据库中最重要的一个,能提供超过55000种不同生物的所有已知的核酸及蛋白质序列和相关文献及生物学注释[3]。它与E M BL P E BI(欧洲分子生物学实验室P欧洲生物信息学研究所)的E M BL数据库及日本国立遗传学研究所的DDB J数据库是最主要的3家DNA和蛋白质序列数据库。它们分别收集各自所在区域的序列信息,每天交换各自数据库新建立的记录,每隔两三个月完整地更新一次数据库信息,这样就保证了它们几乎包括了所有已知的核酸及蛋白质序列。dbEST数据库是G enBank的一部分,它包含了cDNA片段或EST的序列数据和其它相关信息。为了管理重复的EST数据和便于信息的提取,NC BI创建了Unigene系统,它能自动地将G enBank中包括EST序列在内的DNA序列进行系统分析,形成无重复的同一基因起源的序列簇(gene2oriented clusters),每一个簇代表一个基因。NC BI现有人类、大鼠和小鼠三个Unigene库。至1999年末在人类的Unigene库中包含有超过150万个EST所形成的约83000个序列簇[4]。G S DB(G enome Sequence Database)是由NCG R(Na2 tional Center for G enome Res ources)创建管理的基因组数据库。从1999年秋开始G S DB不再接受个人实验室递交的数据,数据库的所有权转交给了G enBank。目前G S DB仍然能够提供
3国家自然科学基金重点项目(项目号39930170)与国家重点基础研究发展规划(项目号G2000057001)资助课题
・
7
4
1
・
生物技术通讯
LETTERS I N BI OTECH NO LOGY V ol.12 N o.2 May2001
© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
序列分析和查询服务。G DB (G enome Database )是约翰・霍普金斯大学医学院的人类基因组数据库,它包括人类基因组各方面的信息如基因、克隆、断裂位点(breakpoints )、细胞遗传学标志、脆弱位点、EST 、重复序列和重叠群,另外还有人类基因组图谱、基因组突变多型性以及等位基因组频率数据的信息。
PIR (Protein In formation Res ource )和SWISS 2PROT 因收录全
面、注释详尽、重复率低和与相关数据库的广泛连接等特点而成为最常用的蛋白质序列信息综合数据库。SWISS 2PROT 创建于1987年,现在由E M BL 和SI B (瑞士生物信息学研究所)联合管理,到1999年11月SWISS 2PROT 已有约81000条序列。在SWISS 2PROT 中每个序列条目下都有参考文献、分类数据和相关注释的信息,这些信息主要包括蛋白质的功能、翻译后修饰、结构域和位点、二级和四级结构、与其它蛋白质的同源性、相关疾病及序列变异等方面的信息。由于核酸序列爆炸性的增加而数据库的注释速度有限,E M BL 和
SI B 在1996年推出了SWISS 2PROT 的补充数据库T rE BM L ,T rE BM L 是由计算机将E M BL 数据库中除了编码SWISS 2PROT
中已有序列以外的所有编码序列(C DS )翻译并注释而形成的,所以其注释的准确性比SWISS 2PROT 低
[5]
。
现在互联网上生物信息数据库种类繁多,可谓五花八门,除上述的大的综合性数据库外还有许多专业方向特异的数据库如RNA 、酶、载体、转录因子、翻译信号及各种物种的数据库等等。由于生物信息学数据库的急剧增多,专门收集生物信息学数据库目录的数据库也应运而生。Dbcat (http :P P
w w w.in fobiogen.fr P services P dbcat )有500个按不同领域(DNA 、RNA 、蛋白质、文献等)分类的生物学数据库以供检索。E BI P E M BL 新推出的SRS (Sequence Retrieval System )5.1版中也增
添了DAT ABANK S 数据库,其中含有约1300个生物学数据库,用户进入SRS 的主页(http :P P w w w.ebi.ac.uk P )选择“SRS
W orld Wide ”后即可检索DAT ABANK S
[6]
。
2 全长cDNA 的获取
在进行序列分析和结构功能预测时最好能利用全长
cDNA 序列。若只有部分cDNA 序列或EST 片段,传统方法
是通过RACE 法或重新筛选新的cDNA 文库。简单快捷的方法是通过硅片克隆(sililo cloning )的方法拼接出cDNA 全长。基本过程如下:从EST 开始利用同源性比较工具(BLAST 、
FAST A 等)在公共EST 数据库(如dbEST )中找出高度同源的EST ,通过EST 拼接,形成重叠群(contig ),然后将重叠群再次
进行BLAST 拼接直到没有新的重叠群发现即得到了完整的编码框。进入Unigene 数据库中只要输入EST 登录号就可以得到属于同一转录起始位点的其它序列。欲直接得到EST 簇及其重叠群可以登录T igem 网站(http :P P gcy.tigem.it P cgi 2
bin P uniestass.pl )的EST assembly machine ,利用EST 拼接程序(EST assembly program )即可。同样的程序还有ESTblast ,它更
为复杂和完善,该程序在HG MP 2RC (human genome mapping
project )服务器(http :P P w w w.hgmp.mrc.ac.uk P ESTblast P )上可以
提供。将含重叠群的EST 与数据库反复比较延伸就可能获得cDNA 全长。利用它就可以进一步进行序列分析和结构与功能预测。在得到cDNA 全长后就可以将其序列或数据库位名输入相应数据库或服务器进行检索、查询相关注释和预测其编码的蛋白质的结构和功能。在ESTblast 输出结果的界面上有与这些数据库和程序的超级链接,使用极为方便[7]。
3 网上序列分析和基因定位的工具
当得到一个完整的cDNA 序列后首先要进行对序列数据库的类似性检索,以鉴定是否为新基因及对基因的结构、定位及其编码的蛋白质的结构、功能进行研究。NC BI 的
BLAST 是目前广泛应用的同源性比较工具。BLAST 有5个
应用程序:Blastp 、Blastn 、Blastx 、tBlastn 、tBlastx ,应依照所需检索的和所检索的数据库是核酸或氨基酸序列及阅读框架的不同而使用,具体见表1。值得一提的是尽管许多服务器能把核酸与氨基酸序列互相转换,但是若已知氨基酸序列最好用氨基酸序列进行分析。因为DNA 序列存在阅读框架和非编码区等问题,而且氨基酸种类多,特异性识别容易。
BLAST 能对十几种指定的数据库(包括nr 、dbSTS 、dbEST 、PDB
等)进行比较。BLAST 的新版本有G apped BLAST 、PSI 2BLAST
(P osition S pecific Iterated BLAST )、BLAST 2sequences 、PHI 2BLAST (Pattern Hit Initiated BLAST )。与传统的BLAST 比较,G apped BLAST 允许在序列对排(alignment )中有部分插入或缺失,有
利于得到较大的同源片段,同时运行速度也提高了。PSI 2
BLAST 首先进行一次传统的BLAST 搜索产生序列对排从而
构建一个位置特异的轮廊(profile ),然后用此轮廓的矩阵
(matrix )代替起初的序列进行同源性搜索。PSI 2BLAST 大大
提高同源性搜索的敏感性,有助于发现蛋白质家族中的变异成员和确定新基因的功能[8]。BLAST 2sequences 通过产生一个代表序列对排的点状图(dot 2plot )来显示两个DNA 或肽序列之间的相似性。PHI 2BLAST 要求将所需查询的氨基酸序列和相应的模体一起输入,能够获得序列和结构都相对应的序列对排。另外,FAST A 和SSE ARCH 也是相似性比较程序,与BLAST 相比运行速度慢一些但效果更好。
Locus Link (http :P P w w w.ncbi.nlm.nih.g ov P Locus Link P )和RefSeq (http :P P w w w.ncbi.nlm.nih.g ov P Locus Link P reseq.html )是NC BI 新提供的方便快速的获取基因及其产物的详细信息及
基因定位的服务器。用户可以通过多种途径(基因的名称、缩写及序列等)搜索数据库就可以得到相应基因的LocusI D
(数据库位名)、简述及染色体定位。点击LocusI D 即能得到
关于该基因的更为详尽的说明,更方便的是每个基因都与P
(PubMed )、O (OMI M )、R (Refseq )、G (G enBank )、U (UniG ene )、V (dbS NP )数据库相连接,以利进一步查询和分析。其中Refseq
能提供该基因的名称、G enBank 中的I D 、详细的说明和所编码蛋白质的信息,并与相应的蛋白质数据库相链接[10]。
・
841・生物技术通讯
LETTERS I N BI OTECH NO LOGY V ol.12 N o.2 May 2001
表1 BLAST的5种程序[9]
程序查询序列数据库比较用 途
blastn blastp blastx tblastn tblastx DNA
蛋白质
DNA
蛋白质
DNA
DNA
蛋白质
蛋白质
DNA
DNA
DNA水平
蛋白质水平
蛋白质水平
蛋白质水平
蛋白质水平
寻找同源DNA序列和剪接模式
发现同源蛋白质
分析新DNA以寻找同源基因和蛋白质
在未注释的DNA中寻找基因
发现基因结构
4 蛋白质结构分析和同源性模建
PDB(Protein Data Bank)是由BN L(Brookhaven National Lab2 oratories)建立的蛋白质结构数据库,1998年10月管理权移交给了RCS B(Research C ollaboratory for S tructure Bioin formatics)。现在PDB除收集蛋白质和多肽的三维结构外,还收集酶、病毒、碳水化合物和核酸的晶体结构数据。新的PDBsum内容更加广泛,是几乎所有核酸和蛋白质结构数据的总集[11]。虽然Marcotte和Enright分别提出通过综合进化相关、表达类型、代谢途径以及复合物结构之间的联系和结构域融合的方法来分析和预测蛋白质功能的新方法[12,13],网上常用蛋白质结构和功能分析方法的基础仍然是依据氨基酸序列的相似性,通过结构域和模体的比较进行分析。PROSITE、P fam、BLOCK S、PRI NTS是常用的结构域或模体数据库。PROSITE 收集的是有生物学意义的蛋白质模型和序列对排。P fam收录了一系列的多重序列对排和H M M(Hidden Markov M odel)模型。BLOCK S存储的是模体和profiles。PRI NTS是收集蛋白质家族指纹(fingerprint)的数据库,指纹是指一群模体的线性整合,运用它来比较、运算比单个模体更准确有效[14]。C ATH 也是一个蛋白质分类数据库,它把蛋白质按不同等级水平分成Class、Architecture、T opology、H om olog ous(C ATH)超家族。SC OP(S tructural Classification of Proteins database)按照家族、超家族、普通折叠和类分层次地组织蛋白质结构数据。SC OP BLAST2sequences现在可以通过以下途径检索:其一是通过浏览SC OP的树状分类结构;其二是利用氨基酸序列检索;其三是关键词检索;其四是通过PDB identifier,最后也可以通过PDB收录或出版的日期检索[15]。
从结构数据库中检索得到的只是原子坐标数据,必须用图像显示软件才能将三维结构呈现出来。RAS M O L是常用的显示蛋白质三维结构的软件之一,利用它可以显示各种不同的图像,包括棍棒、空间填充、α2碳原子骨架折叠和带型等等,各部分可以单独或组合显示,原子、亚基、残基可以着色,图像可以旋转,结果可以存盘。2000年8月最新推出的Pro2 tein Explorer(PE)是从RAS M O L的基础上发展而来,功能更加强大、使用起来更加方便、图像更加形象直观、具有更多的解释说明。两者均可以从RAS M O L主页免费下载后安装在用户的计算机上使用。其它如M AGE和NC BI的C D3n也是很好的三维结构显示软件,也可以从相应的站点下载。了解蛋白质的四级结构对于完整地理解蛋白质的结构和功能是十分必要的,蛋白质四级结构预测服务器PQS能提供PDB中所有蛋白质可能的四级结构的信息[16]。ExPASy服务器是瑞士日内瓦大学开发的专家蛋白分析系统。它可以进行几乎所有的蛋白质序列分析作业,包括理化特性分析、氨基酸组成和分子量分析、序列统计学分析、序列类似性检索、双重和多重序列对排、模式和位点分析、二级结构预测及跨膜区和蛋白质定向的预测。
S wiss2M odel是一个能自动进行蛋白质模型构建的服务器,它能把用户输入的氨基酸序列根据序列同源性模拟构建成蛋白质模型。由于运算系统仍然有许多难以克服的缺陷,并不是所有模建都能得到完美的结果,特别是在靶蛋白质与模板序列之间的相同率较低的区域。事实上,当相同率低于40%时预测的准确率很低。因此,S wiss2M odel提供了两种模式供用户选择。First Approach m ode界面简单,只有当靶蛋白质与模板序列之间的相同率大于25%时自动模建过程才能进行,否则结果将完全不可靠。这时就应选择Optimise m ode,它能修正和优化第一种模式的结果。模建过程一般需要15~60分钟,模建结果(包括最后模型的原子坐标及3D2 profiles)将通过电子邮件发送给用户。需要提醒的是任何一种模建方法的结果都是非实验性的,与该蛋白质的真实结构可能会有出入[17]。
网上各种数据库数据来源不同、丰度不一、数据分类处理方法各异,服务器计算方法也不尽相同,它们各具优缺点,同一序列通过不同数据库或服务器往往会得到不尽相同的结果[18]。因此最好先根据所需信息的类型选择合适的数据库和程序,另外尽量多用几个不同数据库和程序以获取最准确的信息。表2是一些常用的生物学数据库和服务器的网址。虽然生物信息学的方法能预测基因及其蛋白质产物的结构、功能和定位,但是所有预测在未被实验证实以前都是不可靠的。因此必须把二者有机地结合起来,在生物信息学方法提供的信息的基础上指导实验设计,实验所得结果才是最准确的。
・
9
4
1
・
王涤平等:利用互联网预测cDNA蛋白质产物的结构和功能
表2 常用的生物学数据库和服务器的网址
数据库或服务器
网址
G enBank http :P P w w w.ncbi.nlm.nih.g ov P W eb P G enbank P E M BL http :P P w w w.ebi.ac.uk P DDB J http :P P w w w.nig.ac.jp P
G S DB http :P P w w w.ncgr.org P tdb P tdb.html Unigene http :P P w w w.ncbi.nlm.nih.g ov P Unigene P G DB http :P P w w w.gdb.org
PIR
http :P P w w w.gdb.nbrf.georgetown.edu P pri P SWISS 2PROT P T rE M BL http :P P w w w.expasy.ch P sprot PDB http :P P w w w.rcsb.org P pdb P
PDBsum http :P P w w w.biochem.ucl.ac.uk P bsml P pdbsum P PROSITE http :P P w w w.expasy.ch P prosite P P fam http :P P w w w.sanger.ac.uk P s oftware P P fam P BLOCK S http :P P w w w.blocks.fhcrc.org
PRINTS http :P P w w w.biochem.ucl.ac.uk P bsm P dbbrower P PRINTS P printscontents.html SCOP http :P P w w w.mrc 2lmb.cam.ac.uk P scop P CATH http :P P w w w.biochem.ucl.ac.uk P bsm P cath P BLAST http :P P w w w.ncbi.nlm.nih.g ov P BLAST P FAST A http :P P w w w2.ebi.ac.uk P fasta3P SSE ARCH http :P P sss.stan ford.edu P sss P
RAMS O L http :P P w w w.umass.edu P microbio P rasm ol P
SWISS 2M ODE L http :w w w.expasy.ch P swissm od P SWISS 2M ODE L.html ExPaSy http :P P expasy.hcuge.ch P PQS
http :P P w w w.pqs.ebi.ac.uk P
参考文献
1 Dunham I ,Shimizu N ,P oe BA et al .The DNA sequence of human
chrom os ome 22.Nature ,1999,402:489
2 H ottori M ,Fujiyama A ,T aylor T D et al .The DNA sequence of human
chrom os ome 21.Nature ,2000,405:311
3 Bens on DA ,K arsch 2M izrachi L ,Ostell J et al .Nucleic Acids Res ,
2000,28:15
4 Wheeler D L ,Chsppey C ,Lash AE et al .Nucleic Acids Res ,2000,28:
10
5 Bairoch A ,Apweiler R.The SWISS 2PROT protein sequence database
and its supplement T rE M BL in 2000.Nucleic Acids Res ,2000,28:456 K reil DP ,E tzx old T.DAT ABANK S 2a catalogue database of m olecular
biology databases.T rends Biochem S ic ,1999,24:155
7 Banti S ,G u ffaniti A ,Borsani G.H ow to get the best of dbEST.T rends
G enetic ,14:81
8 Altschul SF ,K oonin E V.Iterated profile searches with PSI 2BLAST 2a
tool for discovery in protein databases.T rends Biochem Sci ,1998,23:358
9 Brenner SE.Practical database searching.T rends G uide to Bioin format 2
ics (T rends suppl ),1998,910 Puitt K D ,K atz K S ,S icotte H et al .Introducing Refseq and Locuslink :
curated human genome res ources at the NC BI.T rends G enetic ,2000,16:44
11 Puitt K D ,K atz K S ,S icotte H et al .Introducing Refseq and Locuslink :
curated human genome res ources at the NC BI.T rends G enetic ,2000,16:44
12 M arcotte E M ,Pellegrinim M ,Thom ps on M J et al .A combines alg o 2
rithm for genome 2wide prediction of protein function.Nature ,1999,402:83
13 Enright A J ,Illopoulos I ,K yrpides NC et al .Protein interaction maps
for com plete genomes based on gene fusion events.Nature ,1999,402:86
14 Attw ood TK,Croning M DR ,Flower DR et al .PRINTS 2S :the database
formerly known as PRINTS.Nucleic Acids Res ,2000,28:22515 C onte LC ,Ailey B ,Hubbard T JP et al .SCOP :a structural classifica 2
tion of proteins database.Nucleic Acids Res ,2000,28:257
16 Henrick K Thornton JM.PQS :a protein quaternary structure file server.
T rends Biochem ,Sci ,1998,23:358
17 G uex N ,Diemand A ,Peitsch MC.Protein m odeling for all.T rends
Biochem Sci ,1999,24:364
18 Bouck J ,W ei Y u ,G ibbs R et al .C om paris on of gene indexing databas 2
es.T rends G enetic ,1999,15:159
(2000209225收稿)
・
051・生物技术通讯LETTERS I N BI OTECH NO LOGY V ol.12 N o.2 May 2001
¥
5.9
百度文库VIP限时优惠现在开通,立享6亿+VIP内容
立即获取
利用互联网预测cDNA蛋白质产物的结构和功能
利用互联网预测cDNA蛋白质产物的结构和功能3
王涤平综述 童坦君审校
(北京大学医学部生物化学与分子生物学系 北京100083)
摘要 人类基因组计划预计近两三年内即可完成,我们将会得到许多序列已知但未知功能的cDNA。本文简单介绍利用互联网上信息资源分析cDNA序列和预测它所编码的蛋白质的结构和功能的方法和常用工具。
关键词 互联网,cDNA,蛋白质,结构和功能预测
第 1 页
The protein product of cDNA:Predicting its structure and function using internet
W ANG Di2Ping,T ONG T an2Jun
(The H ealth Science Center,Peking Univer sity,Beijing100083,P.R.China)
Abstract The Human G ene Project will be completed in tw o or three years,biologist will obtain many cDNA sequences which functions are unknown.This article introduces s ome methods and tools in internet,by which can analysis cDNA sequences and predict the structure and function of the proteins that are coded by them.
展开全文
不一样。
DNA微阵列(DNA microarray)又称DNA阵列或DNA芯片,比较通俗的名字是基因芯片(gene chip)。是一块带有DNA微阵列(micorarray)涂层的特殊玻璃片,在数平方厘米之面积上安装数千或数万个核酸探针,经由一次测验,即可提供大量基因序列相关资讯。它是基因组学和遗传学研究的工具。研究人员应用基因芯片就可以在同一时间定量的分析大量(成千上万个)的基因表达的水平,具有快速、精确、低成本之生物分析检验能力。
其中可以用来检测基因表现程度之 cDNA 微阵列(cDNA-microarray),已开始商业化,市场主要以研发实验室为主。此外,以光刻(photolithography)技术制作,可检测基因多形式(Polymorphisms)之生物芯片,尚处于试验阶段而结合微流体学(microfluidics)之临床诊断用芯片,则仍在研发阶段。
DNA微阵列技术:
一 检测基因表达水平及识别基因序列。
Schena等1996年用拟南芥光调基因微阵列,以不同器官中的mRNA为探针,检测其基因表达水平,结果表明叶mRNA的表达水平是根的500倍。Shelon等1996年将酿酒酵母基因组DNA克隆制成微阵列,用6条最大染色体和10条最小染色体DNA探针分别标记上红,绿荧光标记进行杂交检测,结果表明95%的克隆在染色体上的定位与文献报道一致。Milosaljevic等1996年将大肠杆菌基因组DNA的15328个克隆制成微阵列,用997众寡核苷酸探针进行杂交检测,汇总结果通过计算机与E.coli序列资料库相比较,用此技术一次可识别4.6MbDNA序列结构。
二 检测表达状况,发现新基因。
Wodicka1997年将覆盖酵母基因组全部ORF的26万种25mer探针,阵列于4张玻片,每张6.5万个探针,将酵母分加富和低限两组培养,研究不同生长条件下基因表达水平,结果表明90%的基因在两种条件下均表达,36种mRNA更多地在加富培养下表达,140种mRNA在低限培养中表达。此外,还发现了一批未见报道的新基因。
三 检测突变和多态性进行遗传作图。
Hacia等1996年用96600寡核苷酸阵列,检测人癌基因BRCA1突变情况,将15个患者样品和对照样品分别用两种荧光标记,发现14人的该基因发生了一个剪辑突变,共出现8种多态性,突变表现在该基因外显子2的第22个密码子内。利用SNP制作人类遗传图谱,将是第三代遗传图谱,此技术完全以DNA微阵列为基础。 四,DNA序列分析。Donnel等1992,Pease等1994,Yershow等1996,Wallraff等1997都报道了采用DNA微阵列技术进行DNA序列分析。多数研究者采用先合成寡核苷酸序列制作微阵列,然后与标记的未知DNA序列杂交,通过荧光共聚焦显微镜扫描,计算机软件分析得出数据,也有研究者将被测DNA片断阵列,以标记的寡合苷酸为探针杂交测序。
随着分子生物学的飞速发展,最为世人瞩目的人类基因组计划即将提前完成。人类将向了解自己的生命奥秘这一目标迈进一大步。但是,由于基因是遗传信息的携带者,而生命活动的执行者却是蛋白质,即基因的表达产物。因此,即使得到人类全部基因序列,也只是解决了遗传信息库的问题。人类揭示整个生命活动的规律,就必须研究基因的物产——蛋白质。相对于基因组而言,后者称为蛋白质组。1 蛋白质组概述及其相关研究技术和方法
鉴于基因组研究的局限性,1994年澳大利亚Macquaie 大学的Wilkins和Williams等在意大利的一次科学会议上首次提出了蛋白质组(Proteome)这个概念。定义为“蛋白质组指的是一个基因组所表达的蛋白质”,即“PROTEOME”是由蛋白质的”PROTE”和基因组的“OME”字母拼接而成[1].这个新术语很快得到了国际生物学界的认可。目前对蛋白质组的分析工作大两个方面。一方面,通过二维胶电泳等技术得到正常生理条件下的机体、组织或细胞的全部蛋白质的图谱,相关数据将作为待测机体、组织或细胞的二维参考图谱和数据库。另一方面是比较分析在变化了生理条件下蛋白质组所发生的变化。目前蛋白质组研究技术常用以下手段:(1)用于蛋白质分离技术方面的如双向凝胶电泳(2-DE)、双向“高效”柱层析等。(2)用于蛋白质鉴定的技术如质谱技术、凝胶图像分析、蛋白质和多肽的N端、C端测序及氨基酸组成分析等。(3)用于蛋白质相互作用及作用方式研究的双杂交系统。(4)用于分析大量数据的生物工程信息学等[2].。
2 蛋白质组在医学研究中的现状和前景
自蛋白质组概念提出以来,已发表相关论文及论著数篇。并于是1997年举行了第一届国际性的“蛋白质组学”会议。同年出版式了第一部蛋白质组学的专著。目前蛋白质组在医学方面的研究重点在于对人类疾病的发病机制、早期诊断及治疗,对致病微生物的致病机理、耐药性及发现新的抗生素为主。现将这两方面的进展情况综述如下。
2.1 人类疾病的蛋白质组研究
2.1.1 直肠癌 直肠癌的发生是因多个基因的突变,导致肿瘤抑制基因失能所致,但确切机制仍不清楚。为探讨其发病机制,Sanchez等对15例结肠癌和13例正常人的结肠上皮进行2-DE,每个多肽模式用Melanie I12-DE分析软件进行分析。据此建立了包括882和861个斑点的结肠癌及正常人结肠粘膜的标准胶图。结果发现在分子量为13kD和pI值为5.6处的蛋白质仅出现在结肠癌的组织中。15例结肠癌患者中13/5.6蛋白有13例(87%)。此外,发现13/5.6蛋白不仅在中度、低度分化的结肠癌及有24年病史的溃疡性结肠炎过度表达,而且出现在7例分化程度不同的腺瘤的癌前病灶。但对照组则极少出现。这表明该蛋白的出现对检测早期直肠癌有很强提示。通过对该蛋白HPLC及测序等分析后,发现与钙粒蛋白B(calgranulin B)及钙卫蛋白(calprotectin)有很大关系[3]。
2.1.2 肝癌 醛糖还原酶(aldose reductase, E.C.1.1.1.21)是醛酮还原酶超家族中的一个成员。它催化葡萄糖还原为山梨醇,通过减少内源或外源性代谢产物而起到解毒作用。Peter R等在用N-甲基-N-亚基脲诱导(N-methly-N-nitrosourea-induced)的小鼠肝癌中,用2-DE及氨基酸微型测序可分辩出一种肝癌诱导的醛糖还原酶样的蛋白质(35Kd/P17.4)。而在小鼠的晶状体中,则发现一种醛糖还原的同工酶,该酶与已知的小鼠醛糖还原酶有98%的同源性,而与肝癌诱导的醛糖还原酶样的蛋白质截然不同。这表明两种蛋白质是由相关的两条基因编码,在小鼠不同的器官中表达不同。肝癌诱导的醛糖还原酶蛋白质优先表达在肝癌及胎肝中,它们均受到纤维细胞生长因子的刺激,但随小鼠鼠器官的生理及病理环境而表现不同的形式。经免疫组化证实,肝癌诱导的醛糖还原酶样的蛋白质在成人肝脏中不表达,但在小鼠的肝癌 中又重新表达。同时发现该蛋白在癌前病变及肝癌中表达强烈,而在肝脏周围的正常组织不表达[4]。表明该蛋白可能与肝癌的发病有很大关系。
2.1.3 扩张型心肌病 扩张型心肌病是一种严重的可导致心衰的心脏病,大多数患者需行心脏移植术。目前其发病机理不明,推测可能为多种因素所致。1990年已有两组人员进行该病的蛋白质组分析。其后不久心肌的2-DE数据库建成,并进入国际互联网络。Knecht等采用2-DE取得了3300个心肌蛋白条带,通过氨基酸序列分析、Edman降解法及基质辅助的激光解吸离子化质谱(MALDI-MS)等分析了其中150条。经活检及术后病理证实,有12条为扩张性心肌病特有的蛋白。但具体资料尚在进一步分析之中[5]。Arnott D等对新福林诱导的肥大心肌细胞进行蛋白质组分析,同对照相比亦发现有8种蛋白质的表达水平发现了变化[6]。
2.1.4 膀胱癌 IFN-γ除抗病毒外,还有一项重要的功能即抗肿瘤作用。目前其抗肿瘤作用机制不明。有资料表明,IFN-γ可能通过在相关细胞中增强或抑制有关基因而发挥抗肿瘤作用。重组IFN-γ和IL-2已开始应用于膀胱癌的治疗中。为探明其作用机制,George等将四种分级程度不同的人膀胱癌新鲜活检标本,用50U/ml IFN-γ作用20个小时后,采用2-DE、微型序列分析、等电聚集、蛋白质印迹等方法,对标本进行蛋白质组分析。结果表明有五种蛋白质(色按酸-tRNA合成酶、IFN-γ诱导的r3,超氧化物歧化酶及两种分子量为35.8kD和11.2kD的未知蛋白)的表达量增加了75%,而醛糖还原酶表达量则下降。为研究IFN-γ对治疗膀胱癌的作用机制提供了一种方法[7]。
此外,由于缺乏对膀胱鳞状细胞癌客观可靠的组织学分级标准,因而很其进行早期诊断。为此,Morten等对150例膀胱癌进行双盲法2-DE,并结合了蛋白质印迹法、微型序列分析及质谱等技术,建立了新鲜膀胱癌标本的2-DE数据库,且发现角蛋白10、14及银屑病相关的脂肪酸结合蛋白(psoriasis-associated fatty acid-binding protein,PA-FABP)等可以作为膀胱癌不同分化程度的标记物[8]。为早期诊断提供了一种新的手段。
[ 本帖最后由 snow_white 于 2007-7-20 16:32 编辑 ]
查看完整版本请点击这里:
蛋白质组学研究〔综述〕05
我也来说两句 查看全部回复
最新回复
snow_white (2007-7-20 16:31:50)
2.1.5 其它 目前人的各种组织、器官、细胞乃至各种细胞器已被广泛研究。以期为疾病诊治及了解发病机制提供新的手段。在一项利用蛋白质组研究技术进行的酒精对人体毒性的研究中发现,乙醇 会改变血清蛋白糖基化作用,导致许多糖蛋白的糖基缺乏,如转铁蛋白[9]。Jagathpala等对免疫所致的不孕症的男性精子蛋白质进行蛋白质组分析,发现了导致不孕症的6种自体及异体抗 精子抗体[10]。在对肾癌的研究中,发现有4种蛋白质存在于正常肾组织而在肾癌细胞中缺失。其中两种分别是辅酶Q蛋白色素还原酶和线粒体乏醌氧化还原复合物I。这提示线粒体功能低下可能在肿瘤发生过程中起重要作用[11]。Ekkehard Brockstedt等利用2-DE、Edman微型序列法、MALDI-MS等对人BL60-2伯基特淋巴瘤细胞系进行了细胞凋亡机制的研究,结果发现RNA聚合酶转录因子3a(BTF3a)和/或BTF3b与抗IgM抗体介导(anti-IgM antibody-mediated)的细胞凋亡有很大关系[12]。
2.2 致病微生物的蛋白质组研究 近年来,WHO越来越重视感染性疾病对人类健康的影响。除结核、多重耐药链球菌感染及机会致病菌外,出现了一些新的感染因素如HIV、博氏疏螺旋体及埃博拉病毒等。因此这些致病微生物的蛋白质组分析,对于了解其毒性因子、抗原及疫苗的制备非常重要,此外对疾病的诊断、治疗和预防也同样重要。现已获得18种微生物的全部基因组序列,另有60余种的基因序列正在研究之中。这些工作的开展为蛋白质组的研究提供了有利条件。
2.2.1 检测博氏疏螺旋体与免疫有关的蛋白质 博氏疏螺旋体(Borrelia burgdorferi)是莱姆病的主要病因,表现为环形红斑及流感样症状,大约有50%的未治患者发展为神经系统及关节系统疾病。该螺旋体可分为3种类型:B.burgdorferi sensu stricto,B.garinii, B.afzelii。其诊断需依靠血清学检查,但存在敏感性及特异性变化的缺点。为获得更可靠的血清学检查,Peter等用2-DE从B.garinii得到217个银染的蛋白斑点。从中国兔多克隆抗体鉴别出6个已知的讥原。将不同临床表现莱姆病患者的血浆用b.garinii 2-DE图杂交。用抗IgM及抗IgG作为第二抗体,在10例有游走性红斑的患者血浆中,检测出60~80个抗原。同时发现在有关节炎的患者血浆中,包含有抗15种抗原的IgM抗体及抗76种不同抗原的IgG抗体。而晚期有神经系统症状的患者血浆中,则包含有抗33种抗原的IgM抗体及抗76种抗原的IgG抗体。上述3种类型患者的血浆中均包含有抗6种已知抗原的抗体,且被SDSPAGE杂交所证实。这些抗原均是潜在的具有特异性诊断的标志物。
2.2.2 弓形体抗原的检测 弓形体病是由鼠弓形体虫引起的寄生虫病。全球人口大约有30%是携带者,在欧洲是最常见的寄生虫病。如果妊娠者感染,该虫可通过胎盘引起胎儿的感染。且随着妊娠时间的增加,感染的机会也增加。大约50%母体的感染可引起新生儿先天性疾病。因此诊断及治疗越早越好。目前要依靠血清学及PCR,而单独采用血清学如用IgG,IgM,或IgA抗体对疾病活动期敏感性不够,尤其对于妊娠或有免疫抑制的患者。潜在感染常发生在有免疫抑制的患者中。对AIDS患者来说,鼠弓形体虫是最主要的致命性脑损伤的病因。因此,能否早期诊断对治疗来说尤为关键。Jungblut等将鼠弓形体虫RH株在人羊膜细胞系FL521中传代后,用2-DE得到300个银染的斑点。再将其与以下3种患者的血浆进行免疫杂交:(1)患有急性弓形体病的妊娠女性(n=11)(2)患急性弓形体病的非妊娠者(n=6)(3)有潜在感染的患者(n=9)。结果有9个斑点对各阶段的弓形体感染均反应,这9种斑点被用来当作弓形体感染的标记。其中7种标记可用作区别疾病的不同阶段。但对区别急性期与潜在期仍需联合应用多种抗原[4]。
2.2.3 白色念珠菌 芽管结构是白色念珠菌向菌丝体转变的早期阶段,该结构能增强白色念珠菌对宿主细胞的粘附力、穿透力及破坏性。目前通过蛋白质组分析方法如2-DE、质谱等已检测出在芽管结构所表达的一组特异蛋白如DNA结合蛋白等,为致病提高了一些参考指标[13]。Monkt等发现,在conA反应后的SDS-PAGE图中,在芽管结构的膜上,分子量为80kD复合糖处,出现很淡的考马斯亮蓝染色,而在孢子时则未出现。提示膜的整合、出现未与ConA结合的80kD复合糖可能与芽管结构的发生及生长有关。粘附素(adhesin)是白色念珠菌表面的组成部分,介导其与宿主的结合,是侵入宿主所需的重要蛋白,包含多种成分如白色念珠菌胞壁上的疏水蛋白等,通过增强菌株的粘附性而在其致病机制中发挥一定作用。但由于这些蛋白有很大同源性、多种糖基化作用及与胞壁或胞浆膜上其它成分形成共价结合,故提纯及分析很难。现通过等电聚集、2-DE及洗脱电泳等方法,可使这些蛋白得到很好的纯化、分离及分析[14]。
抗真菌药通过改变真菌胞壁组分的生物合成和重组胞壁相关酶的结合位置而发挥作用。抗真菌药远少于抗细菌药就在于对真菌细胞壁蛋白分析了解太少。现在临床上用于抗真菌的药物多为咪唑类(咪康唑、酮康唑)及三唑类(氟康唑、伊曲康唑),但有很多患者出现耐药现象。在白色念珠菌中,目前发现至少有8种CDR家族的基因可产生耐药株的表现型。且有55种基因分别表达ABC及MFS蛋白(菌内药物输出泵)[15.16]。但这些基因、蛋白与耐药之间的关系仍未清楚。应用2-DE、免疫检测蛋白质等技术,对这些蛋白在菌内的表达量进行分析,发现Cdrlp及CaMdrlp蛋白在耐咪唑类菌株中过量表达。在对咪唑类每感及去除CDR1基因的白色念珠菌株CA114中,提取并检测耐氟康唑突变子(FL3)的表达。结果发现FL3对氟康唑的耐是去除CDR1的基因的白色念珠菌株CA114的500倍 ,是CA114的250倍。且CDR1 mRNA在FL3的量是Ca114的8倍[17]。同时,对敏感性及耐药株蛋白质的2-DE图分析发现,在耐中有25种蛋白质增加,有76种蛋白质减少。推测白色念株菌是通过改变染色体数目或染色体重组来调节基因的表达量,进而产生耐药性[18]。随着蛋白质组技术成熟完善,将对真菌壁及耐药基因分泌的各种蛋白组成分析带来重大突破,并对抗真菌的研制提供重要资料。
虽然蛋白质组学还处在一个初期发展研段,但我们相信随着其不断地深入发展,蛋白质组(学)研究在提示诸如生长、发育和代谢调控等生命活动的规律上将会有所突破,对探讨重大疾病的机理、疾病诊断、疾病防治和新药开发将提供重要的理论基础。
[ 本帖最后由 snow_white 于 2007-7-20 16:33 编辑 ]
snow_white (2007-7-20 16:34:25)
二、蛋白质组学的研究进展
蛋白质组学强调的是针对蛋白质的一个整体思路。从整体的角度看,蛋白质组研究大致可分为两种类型:一种是针对细胞或组织的全部蛋白质,也就是着眼点是整个蛋白质组;而另一种是以与一个特定的生物学机制或机制相关的全部蛋白质为着眼点,在这里整体是局部性的。针对细胞蛋白质组的完整分析的工作已经比较全面地展开,不仅如大肠杆菌、酵母等低等模式生物的蛋白质组数据库在建立之中,高等生物如水稻和小鼠等的蛋白质研究也已开展,人类一些正常和病变细胞的蛋白质数据库也已在建立之中。与此同时,更多的蛋白质组研究工作则是将着眼点放在蛋白质组的变化或差异上,也就是通过对蛋白质组的比较分析。首先发现并去鉴定在不同生理条件下或不同外界条件下蛋白质组中有差异的蛋白质组分。限于篇幅,本文不对这方面的工作做进一步论述。
本文接下来重点介绍近期发表的关于蛋白质组学的几个工作,从中可以看到蛋白质组学的思想方法在蛋白质整体(或局部整体)水平上是如何解决生理学的一些重要问题的。
1999年11月《Nature》杂志发表了一篇用蛋白质组学方法研究蛋白质折叠的研究论文[10]。在这篇文章中,Houry等报道了在大肠杆菌胞质中的2500种新生多肽链种只有近300种以GroEL作为分子伴侣来帮助其折叠成正确构象。在以往的相关研究中,通常只是针对某个或某些特定的蛋白质,观察它(们)在折叠过程中是否需要诸如GroEL等分子伴侣的帮助。而在这个工作中,研究是从一个整体的思路出发,首先通过免疫共沉淀的方法获得所有与GroEL结合的肽链,再通过二维电泳和数据库比较等蛋白质研究的手段对这些肽链进行分析鉴定,从而实现了对大肠杆菌近2500条新生多肽链与分子伴侣GroEL的关系的全面分析。在这个工作中,研究者还通过对其中50种与GroEL作用的肽链的鉴定,进一步揭示了决定这些蛋白质能与GroEL相互作用的关键结构特征。应该说,这个工作很好地体现了蛋白质组学的思想方法和技术手段的运用。
过去在细胞生物学领域还没有得到过一个主要亚细胞结构的完整的分子图。核孔复合体是一个巨大的跨核膜的八角形结构,是控制大分子在胞质和核质间运输的通道。多年来,很多方法被用来分析这一复合体的组成成分。虽然这些工作取得了很大的进展,但究竟在多大程度上反映了这一复合体的分子原貌仍然是一个未知数。最近通过使用蛋白质组学的手段,Rout等[11]鉴定了完整的酵母核孔复合体所有能检测到的多肽,并系统地对每种可能的蛋白质组分在细胞中定位,结合免疫电镜的方法将各组分在复合体内定位并定量,从而揭示了酵母核孔复合体的完整分子构造,并在此基础上揭示了其工作原理。这个工作可以说是蛋白质组学解决构造生物学问题的一个典范,为揭示其他巨大分子机器的"构造"和工作原理指出了一条新路[12]。
通过分析一个蛋白质是否跟功能已知的蛋白质相互作用可得到揭示其功能的线索。因为经验告诉我们,如果两个蛋白质相互作用,那么它们一般参与相同或相关的细胞活动[13]。从近期国际上蛋白质组学研究的发展动向可以看出,揭示蛋白质之间的相互作用关系,建立相互作用关系的网络图,已成为揭示蛋白质组复杂体系与蛋白质功能模式的先导,业已成为蛋白质组学领域的研究热点。2000年初,《Science》登载了一篇应用蛋白质组学的大规模双杂交技术研究线虫生殖器发育的文章[14]。在这个工作中,Walhout等以线虫的生殖发育过程作为研究对象,从已知的27个与线虫发育的蛋白质出发,构造了一个大规模的酵母双杂交系统,得到了100多个相互作用的结果,初步建立了与线虫生殖发育相关的蛋白质相互作用图谱,从而为深入研究和揭示线虫发育的机制等提供了丰富的线索。这个工作不同于一般的应用酵母双杂交进行研究的地方在于,它出于对一个生物学问题的整体思考,尽可能地从所有已知的蛋白质而不只是个别的蛋白质为出发点。这一个工作为以前专注于信号转导过程中单个蛋白质作用的科学家们提供了一个新的思路,即将整个途径的相关蛋白质一起考虑。
那么,能否通过酵母双杂交系统来分析一种细胞或特定组织的所有可能的蛋白质之间的相互作用呢?在今年初,《Nature》发表了一篇通过大规模双杂交技术研究酵母近6000个蛋白质之间相互作用的论文[15]。啤酒酵母基因组DNA的全序列业已测定,这为通过双杂交技术来鉴定酵母基因组编码的全部6000种左右的蛋白质间的可能相互作用提供了非常有利的条件。在这个工作中,研究人员采用了两种不同的策略对酵母的蛋白质间的相互作用作了全面分析。一是所谓的列阵筛选法(array screening)。在此方法中,6000株表达不同"猎物"蛋白的酵母单克隆分别加在微滴定板上,带有不同的"诱饵"蛋白的酵母株与前面6000株细胞一一接合形成二倍体细胞,"猎物"蛋白与"诱饵"蛋白的相互作用通过报道基因的表达而被鉴定。这篇文章中报道了192种不同的"诱饵"蛋白与近6000种"猎物"蛋白的相互作用的结果。另一种方法是文库筛选法。该方法与前一种方法的区别是,将表达6000种不同"猎物"蛋白的酵母细胞混在一起构成文库,再将这个文库分别与6000株表达不同"诱饵"蛋白的酵母细胞接合,再进一步筛选鉴定阳性克隆,即"诱饵"与"猎物"发生相互作用的克隆。根据这篇报告,上述两种策略得到了不同的结果,相比之下阵列筛选法更为有效,而文库筛选法的长处是通量大。这一工作的重要意义在于我们已经看到,在基因组序列被了解的基础上,可以利用大规模双杂交技术全面地,当然也是初步地,分析其物种或其细胞、组织的所有蛋白质之间的相互作用关系。相信类似的工作将很快针对其他物种开展,特别是基因组序列已被揭示的物种。
由此可见,蛋白质组学已经开始从建立数据库走向解决生命科学的重大问题,成为研究生物学问题或机制的强有力手段。
snow_white (2007-7-20 16:37:32)
三、蛋白质组学研究进展与趋势
曾 嵘 夏其昌
(中国科学院上海生命科学研究院生物化学与细胞生物学研究所蛋白质组学研究分析中心 上海 200031)
如果在五年前提到蛋白质组学(Proteomics),恐怕知之者甚少,而在略知一二者中,部分人还抱有怀疑态度。但是,2001年的Science杂志已把蛋白质组学列为六大研究热点之一,其“热度”仅次于干细胞研究,名列第二。蛋白质组学的受关注程度如今已令人刮目相看。
1.蛋白质组学研究的研究意义和背景
随着人类基因组计划的实施和推进,生命科学研究已进入了后基因组时代。在这个时代,生命科学的主要研究对象是功能基因组学,包括结构基因组研究和蛋白质组研究等。尽管现在已有多个物种的基因组被测序,但在这些基因组中通常有一半以上基因的功能是未知的。目前功能基因组中所采用的策略,如基因芯片、基因表达序列分析(Serial analysis of gene expression, SAGE)等,都是从细胞中mRNA的角度来考虑的,其前提是细胞中mRNA的水平反映了蛋白质表达的水平。但事实并不完全如此,从DNA mRNA 蛋白质,存在三个层次的调控,即转录水平调控(Transcriptional control ),翻译水平调控(Translational control),翻译后水平调控(Post-translational control )。从mRNA角度考虑,实际上仅包括了转录水平调控,并不能全面代表蛋白质表达水平。实验也证明,组织中mRNA丰度与蛋白质丰度的相关性并不好,尤其对于低丰度蛋白质来说,相关性更差。更重要的是,蛋白质复杂的翻译后修饰、蛋白质的亚细胞定位或迁移、蛋白质-蛋白质相互作用等则几乎无法从mRNA水平来判断。毋庸置疑,蛋白质是生理功能的执行者,是生命现象的直接体现者,对蛋白质结构和功能的研究将直接阐明生命在生理或病理条件下的变化机制。蛋白质本身的存在形式和活动规律,如翻译后修饰、蛋白质间相互作用以及蛋白质构象等问题,仍依赖于直接对蛋白质的研究来解决。虽然蛋白质的可变性和多样性等特殊性质导致了蛋白质研究技术远远比核酸技术要复杂和困难得多,但正是这些特性参与和影响着整个生命过程。
传统的对单个蛋白质进行研究的方式已无法满足后基因组时代的要求。这是因为:(1) 生命现象的发生往往是多因素影响的,必然涉及到多个蛋白质。(2) 多个蛋白质的参与是交织成网络的,或平行发生,或呈级联因果。(3) 在执行生理功能时蛋白质的表现是多样的、动态的,并不象基因组那样基本固定不变。因此要对生命的复杂活动有全面和深入的认识,必然要在整体、动态、网络的水平上对蛋白质进行研究。因此在上世纪90年代中期,国际上产生了一门新兴学科-蛋白质组学(Proteomics),它是以细胞内全部蛋白质的存在及其活动方式为研究对象。可以说蛋白质组研究的开展不仅是生命科学研究进入后基因组时代的里程碑,也是后基因组时代生命科学研究的核心内容之一。
虽然第一次提出蛋白质组概念是在1994年,但相关研究可以追溯到上世纪90年代中期甚至更早,尤其是80年代初,在基因组计划提出之前,就有人提出过类似的蛋白质组计划,当时称为Human Protein Index计划,旨在分析细胞内的所有蛋白质。但由于种种原因,这一计划被搁浅。90年代初期,各种技术已比较成熟,在这样的背景下,经过各国科学家的讨论,才提出蛋白质组这一概念。
国际上蛋白质组研究进展十分迅速,不论基础理论还是技术方法,都在不断进步和完善。相当多种细胞的蛋白质组数据库已经建立,相应的国际互联网站也层出不穷。1996年,澳大利亚建立了世界上第一个蛋白质组研究中心:Australia Proteome Analysis Facility ( APAF )。丹麦、加拿大、日本也先后成立了蛋白质组研究中心。在美国,各大药厂和公司在巨大财力的支持下,也纷纷加入蛋白质组的研究阵容。去年在瑞士成立的GeneProt公司,是由以蛋白质组数据库“SWISSPROT” 著称的蛋白质组研究人员成立的,以应用蛋白质组技术开发新药物靶标为目的,建立了配备有上百台质谱仪的高通量技术平台。而当年提出Human Protein Index 的美国科学家Normsn G. Anderson也成立了类似的蛋白质组学公司,继续其多年未实现的梦想。2001年4月,在美国成立了国际人类蛋白质组研究组织(Human Proteome Organization, HUPO),随后欧洲、亚太地区都成立了区域性蛋白质组研究组织,试图通过合作的方式,融合各方面的力量,完成人类蛋白质组计划(Human Proteome Project)。
snow_white (2007-7-20 16:37:49)
2.蛋白质组学研究的策略和范围
蛋白质组学一经出现,就有两种研究策略。一种可称为“竭泽法”,即采用高通量的蛋白质组研究技术分析生物体内尽可能多乃至接近所有的蛋白质,这种观点从大规模、系统性的角度来看待蛋白质组学,也更符合蛋白质组学的本质。但是,由于蛋白质表达随空间和时间不断变化,要分析生物体内所有的蛋白质是一个难以实现的目标。另一种策略可称为“功能法”,即研究不同时期细胞蛋白质组成的变化,如蛋白质在不同环境下的差异表达,以发现有差异的蛋白质种类为主要目标。这种观点更倾向于把蛋白质组学作为研究生命现象的手段和方法。
早期蛋白质组学的研究范围主要是指蛋白质的表达模式(Expression profile), 随着学科的发展,蛋白质组学的研究范围也在不断完善和扩充。蛋白质翻译后修饰研究已成为蛋白质组研究中的重要部分和巨大挑战。蛋白质-蛋白质相互作用的研究也已被纳入蛋白质组学的研究范畴。而蛋白质高级结构的解析即传统的结构生物学,虽也有人试图将其纳入蛋白质组学研究范围,但目前仍独树一帜。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)