基因克隆和DNA分析(第5版)魏群 等译 出 社:高等教育出版社
如果需要请留下邮箱。我把英文原版发给你。。之前请给积分哈~~
目 录:
第一部分 基因克隆和DNA分析的基本原理
第1章 为什么说基因克隆与DNA分析非常重要
11 遗传学的早期发展
12 基因克隆和聚合酶链反应的出现
13 什么是基因克隆
14 什么是PCR
15 为什么基因克隆和PCR如此重要
16 如何使用这本书
推荐阅读材料
第2章 基因克隆的载体——质粒和噬菌体
21 质粒
22 噬菌体
推荐阅读材料
第3章 从活细胞中纯化DNA
31 全细胞DNA的制备
32 质粒DNA的制备
33 噬菌体DNA的制备
推荐阅读材料
第4章 DNA纯化后的利用
41 DNA *** 作酶的范围
42 切割DNA的酶——限制性内切酶
43 连接——将DNA分子连接到一起
推荐阅读材料
第5章 将DNA引入活细胞
51 转化——使细菌细胞获取DNA
52 重组体的鉴定
53 将噬菌体DNA引入细菌细胞
54 重组噬菌体的鉴别
55 将DNA引入非细菌细胞
推荐阅读材料
第6章 大肠杆菌的克隆载体
61 基于大肠杆菌质粒的克隆载体
62 基于M13噬菌体的克隆载体
63 基于λ噬菌体的克隆载体
64 λ载体和其他高容量的载体使基因组文库得以建立
65 其他细菌的克隆载体
推荐阅读材料
第7章 真核生物的克隆载体
71 酵母和其他真菌的载体
72 高等植物的克隆载体
73 动物的克隆载体
推荐阅读材料
第8章 怎样获得特定基因的克隆
81 筛选的难题
82 直接筛选目的基因
83 从基因文库中鉴定克隆
84 鉴定克隆的方法
推荐阅读材料
第9章 聚合酶链反应
91 PCR简介
92 PCR的更多细节
93 Taq聚合酶的错误率问题
推荐阅读材料
第二部分 基因克隆和DNA分析在研究中的应用
第10章 基因的位置和结构的研究
101 如何定位一个基因
102 DNA测序——预测基因的结构
推荐阅读材料
第11章 基因表达和功能的研究
111 克隆基因转录的研究
112 基因表达调控的研究
113 鉴定和研究克隆基因的翻译产物
推荐阅读材料
第12章 基因组研究
121 基因组学——怎样进行基因组测序
122 后基因组学——试着理解基因组的序列
123 转录物组和蛋白质组的研究
推荐阅读材料
第三部分 基因克隆和DNA分析在生物技术中的应用
第13章 克隆基因的表达
131 在大肠杆菌中的外源基因表达载体
132 在大肠杆菌中表达重组蛋白存在的问题
133 真核细胞中重组蛋白的表达
推荐阅读材料
第14章 基因克隆和DNA分析在医学中的应用
141 重组药物的生产
142 人类疾病相关基因的识别和鉴定
143 基因治疗
推荐阅读材料
第15章 基因克隆和DNA分析在农业中的应用
151 植物基因工程中的基因添加
152 基因消减
153 转基因植物的问题
推荐阅读材料
第16章 基因克隆和DNA分析在法医学和考古学中的应用
161 利用DNA分析鉴定犯罪嫌疑人
162 利用DNA指纹图谱分析血缘关系
163 通过DNA分析进行性别鉴定
164 古遗传学——利用DNA研究人类进化
推荐阅读材料
术语表
索引
人类基因组计划的研究现状与展望------发表日期:2004年3月30日
一、研究现状
1、人类基因组测序
1990年~1998年,人类基因组序列已完成和正在测序的共计约330Mb,占人基因组的11%左右;已识别出人类疾病相关的基因200个左右。此外,细菌、古细菌、支原体和酵母等17种生物的全基因组的测序已经完成。
值得一提的是,企业与研究部门的携手,将大大地促进测序工作的完成。美国的基因组研究所(The Institute of Genome Research, TIGR)与PE(Perkin-Elmar)公司合作建立新公司,三年内投资2亿美元,预计于2002年完成全序列的测定。这一进度将比美国政府资助的HGP的预定目标提前三年。美国加州的一家遗传学数据公司(Incyte)宣布(1998年〕,两年内测定基因组中的蛋白质编码序列以及密码子中的单核苷酸的多态性,最后将绘制一幅人的10万个基因的定位图。与Incyte公司合作的HGS(Human Genome Science)公司的负责人宣称,截止1998年8月,该公司已鉴定出10万多个基因(人体基因约为12万个),并且得到了95%以上基因的EST(expressed sequence tag)或其部分序列。
1998年9月14日美国国家人类基因组计划研究所(NHGRI)和美国能源部基因组研究计划的负责人在一次咨询会议上宣布,美国政府资助的人类基因组计划将于2001年完成大部分蛋白质编码区的测序,约占基因组的三分之一,测序的差错率不超过万分之一。同时还要完成一幅“工作草图”,至少覆盖基因组的90%,差错率为百分之一。2003年完成基因组测序,差错率为万分之一。这一时间表显示,计划将比开始的目标提前两年完成。
2、疾病基因的定位克隆
人类基因组计划的直接动因是要解决包括肿瘤在内的人类疾病的分子遗传学问题。6000多个单基因遗传病和多种大面积危害人类健康的多基因遗传病的致病基因及相关基因,代表了对人类基因中结构和功能完整性至关重要的组成部分。所以,疾病基因的克隆在HGP中占据着核心位置,也是计划实施以来成果最显著的部分。
在遗传和物理作图工作的带动下,疾病基因的定位、克隆和鉴定研究已形成了,从表位→蛋白质→基因的传统途径转向“反求遗传学”或“定位克隆法”的全新思路。随着人类基因图的构成,3000多个人类基因已被精确地定位于染色体的各个区域。今后,一旦某个疾病位点被定位,就可以从局部的基因图中遴选出相关基因进行分析。这种被称为“定位候选克隆”的策略,将大大提高发现疾病基因的效率。
3、多基因病的研究
目前,人类疾病的基因组学研究已进入到多基因疾病这一难点。由于多基因疾病不遵循孟德尔遗传规律,难以从一般的家系遗传连锁分析取得突破。这方面的研究需要在人群和遗传标记的选择、数学模型的建立、统计方法的 改进等方面进行艰苦的努力。近来也有学者提出,用比较基因表达谱的方法来识别疾病状态下基因的激活或受抑。实际上,“癌肿基因组解剖学计划(Cancer Genome Anatomy Project,CGAP”就代表了在这方面的尝试。
4、中国的人类基因组研究
国际HGP 研究的飞速发展和日趋激烈的基因抢夺战已引起了中国政府和科学界的高度重视。在政府的资助和一批高水平的生命科学家带领下,我国已建成了一批实力较强的国家级生命科学重点实验室,组建了北京、上海人类基因组研究中心。有了研究人类基因组的条件和基础,并引进和建立了一批基因组研究中的新技术。中国的HGP在多民族基因保存、基因组多样性的比较研究方面取得了令人满意的成果,同时在白血病、食管癌、肝癌、鼻咽癌等易感基因研究方面亦取得了较大进展。
首先建立了寡核苷酸引物介导的人类高分辨染色体显微切割和显微基因克隆技术;已建立的17种染色体特异性DNA文库和24种染色体区特异性DNA文库及其探针;构建了人X染色体YAC图谱,已完成了人X染色体Xp112-p213跨度的约35cM STS-YAC图谱的构建;建立了YAC-cDNA筛选技术。
目前的研究工作还包括: 疾病和功能相关新基因的分离、测序和克隆的技术和方法学的创新研究;中国少数民族HLA分型研究及特种基因的分析; 人胎脑cDNA文库的构建和新基因的克隆研究。
中国是世界上人口最多的国家,有56 个民族和极为丰富的病种资源,并且由于长期的社会封闭,在一些地区形成了极为难得的族群和遗传隔离群,一些多世代、多个体的大家系具有典型的遗传性状,这些都是克隆相关基因的宝贵材料。但是,由于我国的HGP 研究工作起步较晚、底子薄、资金投入不足,缺乏一支稳定的、高素质的青年生力军, 我国的HGP 研究工作与国外近年来的惊人发展速度相比,差距还很大,并且有进一步加大的危险。如果我们在这场基因争夺战中不能坚守住自己的阵地,那么在21 世纪的竞争中我们又将处于被动地位:我们不能自由地应用基因诊断和基因治疗的权力,我们不能自由地进行生物药物的生产和开发,我们亦不能自由地推动其他基因相关产业的发展。
二、展望
1、生命科学工业的形成
由于基因组研究与制药、生物技术、农业、食品、化学、化妆品、环境、能源和计算机等工业部门密切相关,更重要的是基因组的研究可以转化为巨大的生产力,国际上一批大型制药公司和化学工业公司大规模纷纷投巨资进军基因组研究领域,形成了一个新的产业部门,即生命科学工业。
世界上一些大的制药集团纷纷投资建立基因组研究所。Ciba-Geigy 和Ssandoz合资组建了Novartis 公司,并斥资25亿美元建立研究所,开展基因组研究工作。Smith Kline 公司花125亿美元加快测序的进度,将药物开发项目的25%建立在基因组学之上。Glaxo-Wellcome 在基因组研究领域投入4,700万美元,将研究人员增加了一倍。
大型化学工业公司向生命科学工业转轨。孟山都公司早在1985年就开始转向生命科学工业。至1997年,该公司向生物技术和基因组研究的投入已高达66亿美元。1998年4月,杜邦公司宣布改组成三个实业单位,由生命科学领头。1998年5月,该公司又宣布放弃能源公司Conaco,将其改造成一家生命科学公司。Dow化学公司用9亿美元购入Eli Lilly公司40%的股票,从事谷物和食品研究,后又成立了生命科学公司。Hoechst公司则出售了它的基本化学品部门,转项投资生物技术和制药。
传统的农业和食品部门也出现了向生物技术和制药合并的趋势。Genzyme Transgenics 公司培养出的基因工程羊能以较高的产量生产抗凝血酶III,一群羊的酶产量相当于投资115亿美元工厂的产量。据估计,转基因动物生产的药物成本是大规模细胞培养法的十分之一。一些公司还在研究生产能抗骨质疏松的谷物,以及大规模生产和加工基因工程食品。
能源、采矿和环境工业也已在分子水平上向基因组研究汇合。例如,用产甲烷菌Methanobacterium 作为一种新能源。用抗辐射的细菌Deinococcus radiodurans清除放射性物质的污染,并在转入tod基因后,在高辐射环境下清除多种有害化学物质的污染。
2、功能基因组学
人类基因组计划当前的整体发展趋势是什么?一方面,在顺利实现遗传图和物理图的制作后,结构基因组学正在向完成染色体的完整核酸序列图的目标奋进。另一方面,功能基因组学已提上议事日程。人类基因组计划已开始进入由结构基因组学向功能基因组学过渡、转化的过程。在功能基因组学研究中,可能的核心问题有:基因组的表达及其调控、基因组的多样性、模式生物体基因组研究等。
(1)基因组的表达及其调控
1)基因转录表达谱及其调控的研究
一个细胞的基因转录表达水平能够精确而特异地反映其类型、发育阶段以及反应状态,是功能基因组学的主要内容之一。为了能够全面地评价全部基因的表达,需要建立全新的工具系统,其定量敏感性水平应达到小于1个拷贝/细胞,定性敏感性应能够区分剪接方式,还须达到检测单细胞的能力。近年来发展的DNA微阵列技术,如DNA芯片,已有可能达到这一目标。
研究基因转录表达不仅是为了获得全基因组表达的数据,以作为数学聚类分析。关键问题是要解析控制整个发育过程或反应通路的基因表达网络的机制。网络概念对于生理和病理条件下的基因表达调控都是十分重要的。一方面,大多数细胞中基因的产物都是与其它基因的产物互相作用的;另一方面,在发育过程中大多数的基因产物都是在多个时间和空间表达并发挥其功能,形成基因表达的多效性。在一个意义上,每个基因的表达模式只有放到它所在的调控网络的大背景下,才会有真正的意义。进行这方面的研究,有必要建立高通量的小鼠胚胎原位杂交技术。
2)蛋白质组学研究
蛋白质组学研究是要从整体水平上研究蛋白质的水平和修饰状态。目前正在发展标准化和自动化的二维蛋白质凝胶电泳的工作体系。首先用一个自动系统来提取人类细胞的蛋白质,继而用色谱仪进行部分分离,将每区段中的蛋白质裂解,再用质谱仪分析,并在蛋白质数据库中通过特征分析来认识产生的多肽。
蛋白质组研究的另一个重要内容是建立蛋白质相互关系的目录。生物大分子之间的相互作用构成了生命活动的基础。组装基因组各成分间的详尽作图已在T7噬菌体(55个基因)获得成功。如何在模式生物(如酵母)和人类基因组的研究中建立自动方法,认识不同的生化通路,是值得探讨的问题。
3)生物信息学的应用
目前,生物信息学已大量应用于基因的发现和预测。然而,利用生物信息学去发现基因的蛋白质产物的功能更为重要。模式生物体中越来越多的蛋白质构建编码单位被识别,无疑为基因和蛋白质同源关系的搜寻和家族的分类提供了极其宝贵的信息。同时,生物信息学的算法、程序也在不断改善,使得不仅能够从一级结构,也能从估计结构上发现同源关系。但是,利用计算机模拟所获得的理论数据,还需要经过实验经过的验证和修正。
(2)基因组多样性的研究
人类是一个具有多态性的群体。不同群体和个体在生物学性状以及在对疾病的易感性与抗性上的差别,反映了进化过程中基因组与内、外部环境相互作用的结果。开展人类基因组多样性的系统研究,无论对于了解人类的起源和进化,还是对于生物医学均会产生重大的影响。
1)对人类DNA的再测序
可以预测,在完成第一个人类基因组测序后,必然会出现对各人种、群体进行再测序和精细基因分型的热潮。这些资料与人类学、语言学的资料项结合,将有可能建立一个全人类的数据库资源,从而更好地了解人类的历史和自身特征。另外,基因组多样性的研究将成为疾病基因组学的主要内容之一,而群体遗传学将日益成为生物医药研究中的主流工具。需要对各种常见多因素疾病(如高血压、糖尿病和精神分裂症等)的相关基因及癌肿相关基因在基因组水平进行大规模的再测序,以识别其变异序列。
2)对其它生物的测序
对进化过程各个阶段的生物进行系统的比较DNA测序,将揭开生命35亿年的进化史。这样的研究不仅能勾画出一张详尽的系统进化树,而且将显示进化过程中最主要的变化所发生的时间及特点,比如新基因的出现和全基因组的复制。
认识不同生物中基因序列的保守性,将能够使我们有效地认识约束基因及其产物的功能性的因素。对序列差异性的研究则有助于认识产生大自然多样性的基础。在不同生物体之间建立序列变异与基因表达的时空差异之间的相关性,将有助于揭示基因的网络结构。
(3)开展对模式生物体的研究
1)比较基因组研究
在人类基因组的研究中,模式生物体的研究占有极其重要的地位。尽管模式生物体的基因组的结构相对简单,但是它们的核心细胞过程和生化通路在很大程度上是保守的。这项研究的意义是:1〕有助于发展和检验新的相关技术,如大规模测序、大规模表达谱检验、大规模功能筛选等;2〕通过比较和鉴定,能够了解基因组的进化,从而加速对人类基因组结构和功能的了解;3〕模式生物体间的比较研究,为阐明基因表达机制提供了重要的线索。
目前对于基因组总体结构组成方面的知识,主要来源于模式生物体的基因组序列分析。通过对不同物种间基因调控序列的计算机分析,已发现了一定比例的保守性核心调控序列。根据这些序列建立的表达模式数据库对破译基因调控网络提供了必要的条件。
2)功能缺失突变的研究
识别基因功能最有效的方法,可能是观察基因表达被阻断后在细胞和整体所产生的表型变化。在这方面,基因剔除方法(knock-out)是一项特别有用的工具。目前。国际上已开展了对酵母、线虫和果蝇的大规模功能基因组学研究,其中进展最快的是酵母。欧共体为此专门建立了一个称为EUROFAN(European Functional Analysis Network)的研究网络。美国、加拿大和日本也启动了类似的计划。
随着线虫和果蝇基因组测序的完成,将来也可能开展对这两种生物的类似性研究。一些突变株系和技术体系建立后,不仅能够成为研究单基因功能的有效手段,而且为研究基因冗余性和基因间的相互作用等深层次问题奠定了基础。小鼠作为哺乳动物中的代表性模式生物,在功能基因组学的研究中展有特殊的地位。同源重组技术可以破坏小鼠的任何一个基因,这种方法的缺点是费用高。利用点突变、缺失突变和插入突变造成的随机突变是另一中可能的途径。对于人体细胞而言,建立反义寡核苷酸和核酶瞬间阻断基因表达的体系可能更加合适。蛋白质水平的剔除术也许是说明基因功能最有力的手段。利用组合化学方法有望生产出化学剔除试剂,用于激活或失活各种蛋白质。
总之,模式生物体的基因组计划为人类基因组的研究提供了大量的信息。今后,模式生物体的研究方向是将人类基因组8~10万个编码基因的大部分转化为已知生化功能的多成分核心机制。而要获得酶一种人类进化保守性核心机制的精细途径,以及它们的紊乱导致疾病的各种途径的知识,将只能来自对人类自身的研究。
通过功能基因组学的研究,人类最终将将能够了解哪些进化机制已经确实发生,并考虑进化过程还能够有哪些新的潜能。一种新的解答发育问题的方法可能是,将蛋白质功能域和调控顺序进行重新的组合,建立新的基因网络和形态发生通路。也就是说,未来的生物科学不仅能够认识生物体是如何构成和进化的,而且更为诱人的是产生构建新的生物体的可能潜力。
生物信息学研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。 狭义上应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。 生命信息系统 生物所处的时空系统 ,物质系统,信息传递与控制。
生物信息学是一门新兴的交叉学科,是生命科学领域中的新兴学科,面对人类基因组计划等各种项目所产生的庞大的分子生物学信息,生物信息学的重要性将越来越突出,它将会为生命科学的研究带来革命性的变革。 生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。 生物信息学是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一
科学界预言,21世纪是一个基因工程世纪。基因工程是在分子水平对生物遗传作人为干预,要认识它,我们先从生物工程谈起。生物工程又称生物技术,是一门运用现代生命科学原理和信息及化工等技术,利用活细胞或其产生的酶来对廉价原材料进行不同程度的加工,以提供大量有用产品的综合性工程技术。
生物工程的基础是现代生命科学、技术科学和信息科学。生物工程的主要产品是为社会提供大量优质发酵产品,例如生化药物、化工原料、能源、生物防治剂以及食品和饮料,还可以为人类提供治理环境、提取金属、临床诊断、基因治疗和改良农作物品种等服务。
生物工程主要有基因工程、细胞工程、酶工程、蛋白质工程和微生物工程等五个部分。其中基因工程就是人们对生物基因进行改造,利用生物生产人们想要的特殊产品。随着DNA的内部结构和遗传机制的秘密一点一点呈现在人们眼前,生物学家不再仅仅满足于探索、提示生物遗传的秘密,而是开始跃跃欲试,设想在分子的水平上去干预生物的遗传特性。
人类基因工程走过的主要历程怎样呢?1866年,奥地利遗传学家孟德尔神父发现生物的遗传基因规律;1868年,瑞士生物学家弗里德里希发现细胞核内存有酸性和蛋白质两个部分。酸性部分就是后来的所谓的DNA;1882年,德国胚胎学家瓦尔特弗莱明在研究蝾螈细胞时发现细胞核内的包含有大量的分裂的线状物体,也就是后来的染色体;1944年,美国科研人员证明DNA是大多数有机体的遗传原料,而不是蛋白质;1953年,美国生化学家华森和英国物理学家克里克宣布他们发现了DNA的双螺旋结构,奠定了基因工程的基础;1980年,第一只经过基因改造的老鼠诞生;1996年,第一只克隆羊诞生;1999年,美国科学家破解了人类第二十二组基因排序列图;未来的计划是可以根据基因图有针对性地对有关病症下药。
人类基因组研究是一项生命科学的基础性研究。有科学家把基因组图谱看成是指路图,或化学中的元素周期表;也有科学家把基因组图谱比作字典,但不论是从哪个角度去阐释,破解人类自身基因密码,以促进人类健康、预防疾病、延长寿命,其应用前景都是极其美好的。人类十万个基因的信息以及相应的染色体位置被破译后,破译人类和动植物的基因密码,为攻克疾病和提高农作物产量开拓了广阔的前景,并将成为医学和生物制药产业知识和技术创新的源泉。
科学研究证明,一些困扰人类健康的主要疾病,例如心脑血管疾病、糖尿病、肝病、癌症等都与基因有关。依据已经破译的基因序列和功能,找出这些基因并针对相应的病变区位进行药物筛选,甚至基于已有的基因知识来设计新药,就能“有的放矢”地修补或替换这些病变的基因,从而根治顽症。基因药物将成为21世纪医药中的耀眼明星。基因研究不仅能够为筛选和研制新药提供基础数据,也为利用基因进行检测、预防和治疗疾病提供了可能。比如,有同样生活习惯和生活环境的人,由于具有不同基因序列,对同一种病的易感性就大不一样。明显的例子有,同为吸烟人群,有人就易患肺癌,有人则不然。医生会根据各人不同的基因序列给予因人而异的指导,使其养成科学合理的生活习惯,最大可能地预防疾病。
基因治疗
基因作为机体内的遗传单位,不仅可以决定我们的相貌、高矮,而且它的异常会不可避免地导致各种疾病的出现。某些缺陷基因可能会遗传给后代,有些则不能。基因治疗的提出最初是针对单基因缺陷的遗传疾病,目的在于由一个正常的基因来代替缺陷基因或者来补救缺陷基因的致病因素。用基因治病是把功能基因导入病人体内使之表达,并因表达产物——蛋白质发挥了功能使疾病得以治疗。基因治疗的结果就像给基因做了一次手术,治病治根,所以有人又把它形容为“分子外科”。
我们可以将基因治疗分为性细胞基因治疗和体细胞基因治疗两种类型。性细胞基因治疗是在患者的性细胞中进行 *** 作,使其后代从此再不会得这种遗传疾病。体细胞基因治疗是当前基因治疗研究的主流。但其不足之处也很明显,它并没前改变病人已有单个或多个基因缺陷的遗传背景,以致在其后代的子孙中必然还会有人要患这一疾病。
无论哪一种基因治疗,目前都处于初期的临床试验阶段,均没有稳定的疗效和完全的安全性,这是当前基因治疗的研究现状。
可以说,在没有完全解释人类基因组的运转机制、充分了解基因调控机制和疾病的分子机理之前进行基因治疗是相当危险的。增强基因治疗的安全性,提高临床试验的严密性及合理性尤为重要。尽管基因治疗仍有许多障碍有待克服,但总的趋势是令人鼓舞的。美国食品和药物管理局于2009年首次批准将胚胎干细胞应用于人类疾病的治疗。美国杰龙生物医药公司获准为数位因脊柱受伤导致下肢瘫痪的患者注射人类胚胎干细胞,并于夏天开始研究其成效。正如基因治疗的奠基者们当初所预言的那样,基因治疗的出现将推动新世纪医学的革命性变化。
破译人类全部DNA指日可待
信息技术的发展改变了人类的生活方式,而基因工程的突破将帮助人类延年益寿。目前,一些国家人口的平均寿命已突破80岁,中国也突破了70岁。有科学家预言,随着癌症、心脑血管疾病等顽症被有效攻克,在2020至2030年间,可能出现人口平均寿命突破100岁的国家。到2050年,人类的平均寿命将达到90至95岁。
人类一直在挑战生命科学的极限。1953年2月的一天,英国科学家弗朗西斯·克里克宣布:我们已经发现了生命的秘密。他发现DNA是一种存在于细胞核中的双螺旋分子,决定了生物的遗传。有趣的是,这位科学家是在剑桥的一家酒吧宣布了这一重大科学发现的。破译人类和动植物的基因密码,为攻克疾病和提高农作物产量开拓了广阔的前景。1987年,美国科学家提出了“人类基因组计划”,目标是确定人类的全部遗传信息,确定人的基因在23对染色体上的具体位置,查清每个基因核苷酸的顺序,建立人类基因库。1999年,人的第二十二对染色体的基因密码被破译,“人类基因组计划”迈出了成功的一步。可以预见,在今后的工作中,科学家们可能揭示人类大约五千种基因遗传病的致病基因,从而为癌症、糖尿病、心脏病、血友病等致命疾病找到基因疗法。
继2000年6月26日科学家公布人类基因组“工作框架图”之后,中、美、日、德、法、英等6国科学家和美国塞莱拉公司在2001年2月12日联合公布人类基因组图谱及初步分析结果。这次公布的人类基因组图谱是在原“工作框架图”的基础上,经过整理、分类和排列后得到的,它更加准确、清晰、完整。人类基因组蕴涵有人类生、老、病、死的绝大多数遗传信息,破译它将为疾病的诊断、新药物的研制和新疗法的探索带来一场革命。人类基因组图谱及初步分析结果的公布将对生命科学和生物技术的发展起到重要的推动作用。随着人类基因组研究工作的进一步深入,生命科学和生物技术将进入新的阶段。
基因工程在20世纪取得了很大的进展,这至少有两个有力的证明。一是转基因动植物,一是克隆技术。转基因动植物由于植入了新的基因,使得动植物具有了原先没有的全新的性状,这引起了一场农业革命。如今,转基因技术已经开始广泛应用,如抗虫西红柿、生长迅速的鲫鱼等。1997年世界十大科技突破之首是克隆羊的诞生。这只叫“多莉”母绵羊是第一只通过无性繁殖产生的哺乳动物,它完全秉承了给予它细胞核的那只母羊的遗传基因。“克隆”一时间成为人们注目的焦点。尽管有着伦理和社会方面的忧虑,但生物技术的巨大进步使人类对未来的想象有了更广阔的空间。
人类基因组计划
现代遗传学家认为,基因是DNA(脱氧核糖核酸)分子上具有遗传效应的特定核苷酸序列的总称,是具有遗传效应的DNA分子片段。基因位于染色体上,并在染色体上呈线性排列。基因不仅可以通过复制把遗传信息传递给下一代,还可以使遗传信息得到表达。
那么,什么是基因组呢基因组就是一个物种中所有基因的整体组成。人类基因组有两层意义:遗传信息和遗传物质。要揭开生命的奥秘,就需要从整体水平研究基因的存在、基因的结构与功能、基因之间的相互关系。
为什么选择人类的基因组进行研究?因为人类是在“进化”历程上最高级的生物,对它的研究有助于认识自身、掌握生老病死规律,了解生命体生长发育的规律,认识种属之间和个体之间存在差异的起因,认识疾病产生的机制以及长寿与衰老等生命现象,为疾病的诊治提供科学依据。除测出人类基因组DNA的30亿个碱基对的序列,发现所有人类基因,找出它们在染色体上的位置,破译人类全部遗传信息外。在人类基因组计划中,还包括对五种生物基因组的研究:大肠杆菌、酵母、线虫、果蝇和小鼠,称之为人类的五种“模式生物”。
人类只有一个基因组,大约有5-10万个基因。人类基因组计划是美国科学家于1985年率先提出的,旨在阐明人类基因组30亿个碱基对的序列,发现所有人类基因并搞清其在染色体上的位置,破译人类全部遗传信息,使人类第一次在分子水平上全面地认识自我。计划于1990年正式启动,这一价值30亿美元的计划的目标是,为30亿个碱基对构成的人类基因组精确测序,从而最终弄清楚每种基因制造的蛋白质及其作用。随着人类基因组逐渐被破译,一张生命之图将被绘就,人们的生活也将发生巨大变化。随着我们对人类本身的了解迈上新的台阶,很多疾病的病因将被揭开,药物就会设计得更好些。
英、日、德、法等国随后积极响应,使人类基因组计划逐步演变成为一项大型国际科技合作计划。作为参与这一计划的唯一的发展中国家,我国于1999年跻身人类基因组计划,承担了1%的测序任务。
2000年6月,人类基因组计划完成了人类基因组序列的“工作框架图”;2002年2月又公布了人类基因组“精细图”;该计划已提前至2001年完成。人类基因组计划与曼哈顿原子d计划和阿波罗登月计划并称为20世纪三大科学计划。
人类基因组DNA序列图谱完成后,鉴定基因组多态性及其单倍型,以及寻找其在生物和医学应用中的重要作用成为了人们关心的热点。人们相信,在个体间,人类基因组DNA序列的差异决定了个体在疾病的易感性和药物的敏感性方面的差异。通过比较大量个体基因组的差异,从遗传的角度可以阐明人类个体发生疾病的风险以及对于环境适应能力的差异。2001年,国际人类蛋白质组组织(HUPO)正式成立,并迅即在北美、欧洲、韩国、日本成立了相应的分支机构。目前,我国也成立了相应的人类蛋白质组组织。
以研究基因功能为核心的“后基因组时代”已经来临,大规模的结构基因组、蛋白质组以及药物基因组的研究计划已经成为新的热点。其中涉及生物信息数据库及相关技术,生物信息数据的分析和开发,比较基因组学,基因分型及其与疾病的关系等等。生物信息技术已成为后基因时代的核心技术之一。
后基因组时代,给生物信息技术的发展提供了前所未有的机遇。生物信息学的发展将开拓出新的生命科学领域,使人们有可能在分子水平上更加系统地认识生命现象。
人类基因组这个研究,第一次在生命科学里面实现了整体上的遗传信息的解析,基因组功能的研究。基因组就是一个生命体的遗传信息的总和。
生命信息的储存单位,实际上就是我们说的基因,载体是脱氧核糖核酸 DNA。在多细胞的生物里,不同的细胞之间,由不同的 细胞所组成的组织之间,由不同的组织所形成的器官之间都在发生信息的流动。这个就是我们所说的:遗传学的中心法则。基因组就是一个生命体的遗传信息的总和。DNA双螺旋的发现大概是20世纪生命科学最最伟大的突破。ATCG四种不同的碱基构成了纷繁复杂的遗传学语言。
实际上绝大多数的人类疾病都是多基因控制的。人类基因组计划正式启动是1990年,就是要用15年的时间,到2005年完成人类基因组DNA全序列的测定。到今天为止我们也还没有这样的技术,说拿来一条染色体,我们就能直接测序。所以整个人类基因组计划实际上就是由复杂到简单,再由简单又回归复杂的一个过程。在人类基因组测序起步的时候,当时用的DNA序列的分析方法是凝胶电泳为主的方法,基本上还是手工运作的。但是在20世纪90年代以后,新的一个测序技术产生了就是毛细管电泳仪技术。使得测序的速度大大加快。一天就可以有100万个碱基对的的序列被测出。中国也加入这一个测序计划,我们承担了1%的任务。2000年4月份,21号染色体全序列测序草图完成了。
现在我们已经可以做到在指甲盖大小的生物芯片上点上人类的基因组,所有的基因都点在上面。将来要去看病,不光要带病卡,还要带一个自己的芯片。医生用药诊断之前,用芯片看看你可能得什么病。通过对进化不同阶段的生物体基因组学的比较,就可以发现基因组结构组成的功能调节的规律。实际上人类疾病相关的基因,也恰恰是人类基因组结构和功能完整性至关重要的信息。实际上在过去几年当中,对疾病的研究早已成为人类基因组研究
一个重要计划的组成部分。1997年提出了两个计划:一个是肿瘤基因组的解剖计划,还有一个叫环境基因组计划。实际上都是和健康相关的。人类基因组计划对医学的贡献,一个是在诊断方面,另外是在基因治疗方面。对于我们这样发展中国家来说,更应该注重预防。
我们国家的基因组计划,是1994年开始启动的,从功能基因组的角度进行切入。采取结构与功能并重,多学科交叉建立关键技术,进行基因组多样性和疾病基因研究。这是我们一开始的时候一个策略。我们可以很自豪的说:现在除了Y染色体,所有的染色体上面都遍布着中国科学家发现和命名的基因。最近我们启动了一个中华民族基因组-SNP的大规模的研究。这个工作从群体遗传学转向了,我们中国人群特点的、疾病发生发展的遗传学信息的研究。所以,如果现在我们能够把中华民族生命元素变异的系统目录和数据库做出来的话,就能够获得我国生物医学界和制药工业界技术创新的知识产权来造福子孙后代来贡献于全人类。
全文
当然清华是我们国家最高等的学府之一了。所以,今天到这里来,也有点诚惶诚恐。那么主要是来求教的。现在我要给大家介绍的人类基因组这个研究,可以说是第一次,在生命科学里面,实现了某种大科学的概念。也就是说来一个整体上的遗传信息的解析,基因组功能的研究。所以我说现在生物学的特点,已经从70年代、80年代,主要是以分析为主,学科的精细化,分工的细化,这样一个趋势到了一个新的平台上面。这个平台就是大综合,其实我们中国的科学,一开始就是讲究大综合。你看我们的艺术也是这样,我们的写意画就是一种大综合。这个东西方的融合非常重要,把西方严谨的分析,和中国早在几千年前的大综合的思路结合在一起的话,我想有可能带来一些新的突破的机遇。那么这张图我想,恐怕不光是搞生命科学的,就是我们非生命科学的同学们,也都是非常熟悉的,遗传学中心法则。
我们都知道,生命活动它的本质,它是一个信息的流动。有人一直说,我们都是搞生命科学的。但是突然有一个冒出一句话:“什么是生命”?这个倒可以让人思索一番。我个人体会,生命信息它的储存单位,生命的重要特点之一,它有记忆功能。那么它的储存的单位,实际上就是我们说的基因,在绝大部分的生命体我们知道,它的载体是脱氧核糖核酸DNA。但是它的执行单位,主要来说是蛋白质。这里面它用信息的语言,不是一样的,一个是核酸的语言,一个是氨基酸的语言。所以在这个空间信息的流动,需要有一些调控的机制。这个调控大家知道,第一步就是转录。这个时候生命信息的语言,没有发生变化,都是核酸的语言。只是从DNA到了MRNA上面,这个过程我们称为转录。然后语言要发生变化,发生转换,要求来进行翻译了。所以从MRNA上面的生命语言,变成蛋白质的生命语言。当然我们知道这个蛋白质,很多的蛋白质它都具有代谢的活动。生命体和非生命体的重要差别之一就是有代谢和新陈代谢,然后蛋白质可以形成高级空间的构型。那么在这个里面,细胞的不同的部分互相之间作用,细胞核和细胞浆互相在作用。然后在多细胞的生物里,不同的细胞之间、由不同的细胞所组成的组织之间、由不同的组织所形成的器官之间都在发生信息的流动。我想这个就是我们所说的“遗传学的中心法则”。那么基因这个概念,大家都很清楚了或者说基本概念很清楚,确切的定义也许今天还不是非常清楚。
那么基因组是什么意思?基因组就是一个生命体的遗传信息的总和。那么在这里我们就不是单个基因,而是所有的基因。它所编码所有的氨基酸相互之间的这个关系,所以感官性是完全不一样的。DNA双螺旋结构的发现大概是20世纪生命科学最最伟大的突破。那么A、T、C、G四种不同的碱基,构成了纷繁复杂的遗传学语言,生命信息的最基本的符号。这个最基本的符号实在是让我们感到非常简单。大自然就用这四种简单的字符,组成了让我们叹为观止的大千世界的无数生命的多样性的现象。那么它的遗传信息,在绝大多数的生命体,我刚才说的是DNA的分子。那么它的排列组合在那里就决定了,或者说在相当大的程度上决定了生命活动在人体,也就是我们讲的:生、老、病、死等等这些活动。那么我们在讲双螺旋结构的时候,我们都知道,碱基对、DNA是生物的大分子。一般来说我们不是用一个质量单位来表示它的体量,而是用它的长度。那么一个bp,中文叫一个碱基对。但是在基因来说,一个基因常常是要成千上万个碱基对。所以我们引入了“千碱基对”这样的尺度。然后再做到基因组的时候,我们都知道基因组它是非常大的尺度,所以又发明了一些新的尺度单位,像Mb指的是百万碱基对。
这个是基因组计划之前的,我们对人类基因组的一些了解。我们知道人类基因组的长度,一个单倍体的基因组的长度大概是30亿个碱基对。一般的教科书上都说,序列当中编码序列,也就是说我们刚才说的,发生转录表达的,可以被称之为基因的序列。大概实际上是指成熟的MRNA,发生加工以后的MRNA当中的序列,大概小于5%。也就是说,非编码序列占了绝大多数。在人体细胞核里面,遗传信息它是以染色体的方式进行组织的,分布于22个常染色体和2条性染色体。我们都知道以前的生物科学的特点,基本上是师傅带徒弟、作坊式的 *** 作。那么到了80年代中期的时候,我想一个是生命科学的这个科学思维的大大扩展,第二个是技术的这个进步。比方说当时遗传工程已经非常成熟了,当时DNA测序也相对成熟,然后PCR的技术在那里开始产生了。因此使得科学家们,生命科学家们的雄心壮志,在那里萌发了,决心要冲破原来的这种作坊式的被物理学界甚至化学界不太看得起的那种运作方式,搞一点可以称为是大科学的东西。
当然我想科学研究的条件,思维这是一个方面。但是实际上回顾一下科学史的话,很多重大的事件它还是需求在那里拉动的。我们有的科学家批评这样的做法,意思是说我们要注意把基础研究和社会重大需求结合在一起。我觉得实际上这有点失之偏颇的,就是说有各种各样类型的研究:有的是一种自由的探索,那么这个可以非常小心,一个人的脑瓜里都可以产生诺贝尔奖的构思。但是也有一些研究的确是希望能够造福人类的。但是这样的研究提出的挑战,实际上又可以孕育着不知道多少人的诺贝尔奖的思想在里面。那么人类基因组计划,就是这样一个典型。
我们看第一份,可以认为是正式的标书。我们做这个课题,一般来说首先要有标书。那么人类基因组计划的第一个标书,可以被认为是诺贝尔奖获得者Dulbecco 1986年发表在《科学》杂志的一篇短文。它的这个短文的题目是什么呢?《肿瘤研究的转折点——人类基因组研究》。事实上我们知道美国有一位雄心勃勃的年轻总统肯尼迪上台以后,当时他在科学上有两大计划:一个是实现人类登月,还有一个战胜癌症。那么人类登月随着阿波罗计划的比较顺利地实施,1969年人类实现了登月。但是攻克肿瘤的计划是一个失败的。为什么?原来科学家把问题想得太简单了,以为肿瘤就是一两个基因的问题。但实际上绝大多数的肿瘤,都是多基因的问题。它涉及的面是整个基因组的问题,是遗传信息的整体上面紊乱的这样一些问题。就是刚才讲的,我们不要以为好像一个融合基因打到小鼠里面去,就足以引起一个白血病,不是那么简单的。因为如果那样的话,你一打进去就要产生白血病,事实上我们PML罗拉白血病,在受精卵里面注射进这个融合基因以后,需要等待一年的时间才会出现白血病而且不是每一个小时都会发生白血病。所以就提示有其他的决定因素在里面。我们现在知道有时候几个基因一起传染的时候,它发生白血病的速率就会大大加快。
Dulbecco这个文章它就说,如果我们想更多地了解肿瘤,我们从现在开始必须关注细胞的基因组。从哪那个物种着手努力?如果我们想理解人类肿瘤,那就应该从人类开始。人类肿瘤研究将因对DNA的详细知识而得到巨大的推动。实际上绝大多数的人类疾病都是多基因的。人类基因组计划正式起动,现在一般的说法是1990年。那么1990年因为是美国国会通过了正式启动这样一个计划。这个计划雄心勃勃就是要用15年的时间,到2005年完成DNA的全序列的测定。这个投资量是多少呢?30亿美元。当时计算的依据是测一个碱基对大概需要一美元。整个计划在这个地方实际上是一个比较狭义的一个计划,这个计划实际上就是一个测序计划。实际上我们讲测序,读出天书只是理解人类自身的第一步,最重要的是读懂天书。但是即使是这样读出天书一个计划的话,它也要经历很多的磨难,很多的困难。也就是说,到今天为止,我们还没有这样的技术说,拿来一条染色体,我们就能够直接测序,从一头测到另外一头我们没有办法这样做。所以整个人类基因组计划,实际上可以简单地说就是由复杂到简单再由简单又回归复杂,最后大概还是回归到简单。也就是说把不能直接测序的一条染色体拿来给它进行分解,分解成比较小的可以 *** 作的这样的单位。那么怎么分解呢?那就是作图,你可以用遗传学的方法去作图,也可以用物理学的方法来作图。我们知道遗传学作图,就是利用遗传学的标志来确定DNA标志间相对的距离。另外一个概念就是说要构成一些所谓的DNA连续的克隆系,那么这些片断,它互相之间重叠,它可以覆盖整个的染色体,从一端覆盖到另外一端。这样就把一个不能直接拿来测序的单位,就给它解析成比较小的、可以 *** 作的这样一个单位。最后给它重新组合成忠实于原来染色体里面生命信息这个排列的,这样一个状况在这里面,识别全部的人类基因。所以人类基因组就是作图,或者狭义的人类基因组计划,就是作图的计划,遗传图、物理图、序列图,然后基因图。
在人类基因组计划进行大规模测序的策略有两种,一种就是我刚才说的那种思路,实际上叫逐个克隆。我刚才说了,你把DNA克隆的连续克隆系建起来了,覆盖整条染色体了,然后你就把一个一个的克隆,用得最多的就是叫BAC--细菌的人工染色体,大概100多个KB这样的长度。那么把这个克隆一个一个挑出来,挑出来以后再进行亚克隆。这种亚克隆就是这样的,就可以测序了,测序以后再给它组装起来、还原起来。这样一个策略,是国际上公共领域的测序计划所采取的策略。实际上它是历史的沿革,就是说从作图,遗传、物理作图演化过来的。我们都知道美国的瑟拉尔公司,也知道奎克曼特。那么它搞了一个叫全基因组鸟q法,在一定作图信息基础上,绕过大片段连续克隆系统的构建而直接将基因组分解成小片段随机测序,然后利用超级计算机来进行组装。能够使得人类基因组,在初步完成作图以后,很快地迈入到测序,尤其是大规模测序。并且使得整个进度朝向人们的预期。这里面有两个重大因素的贡献,不得不承认这里面,工业界的贡献是非常大的。比如说在人类基因组起步的时候,当时用的这个DNA序列的分析方法,还是凝胶电泳仪为主的方法,基本上还是手工运作的。但是在20世纪90年代上半段的时间里面,新的一个测序技术出现了,毛细管电泳仪。另外把自动化的运作和包括工业界的管理这种系统,都引进来。所以使得测序的速度大大加快。你像这样一个测试仪,它的名字就叫做Megabace。什么意思?就是毛细管电泳,它差不多两小时就可以进行读出一个序列,大概能够读到几百个碱基,那么它一天可以做十班,那么它是96道,所以一天可以做960道。每一道按照他们的宣传,都可以达到一个KB的话,实际上是很难做到的,这是最理想的状态下。所以一天就可以有100万个碱基对的产出。但是曾经使学术界感觉比较困惑的另外一个问题,就是说如果我们现在处于一个知识爆炸的这样一个时代,可以说生物信息的爆炸,是最最给人印象深刻的。
我们看在基因组计划起步之前,在公共数据库里边DNA序列增长非常缓慢。然后1990年以后,就是指数增长期。而且这个东西我是统计到去年、2000年两家世界的公共领域,测序计划和瑟拉尔分别宣布完成了所谓的工作草图。这个时候是这样一个情况,现在大概是这样的情况。1999年当时面对着瑟拉尔的强行挑战,它是1998年成立的,号称三年要拿下人类基因组,国际人类基因组计划决定迎接挑战。就由国际上16个组,分担了人类基因组测序的任务,中国也加入这样一个测序计划。当然我们承担的是1%的任务,1%还是很重要的。因为对于一个发展中的国家来说,能够挤入到这种属于发达国家的俱乐部里面,应该说还是很不容易的。有些事情我们想挤也不一定挤得进去的,像空间站的计划,人家还防范你。
在这里我想介绍一下什么叫工作框架图?因为都在说工作框架图,什么叫工作框架图?其实就是一个工作草图。那么它的意思呢?就是说通过对染色体位置明确的BAC(细菌人工染色体)连续克隆系4—5倍覆盖率的测序,获得基因组90%以上的基因序列,其错误率应该低于1%。也就是说你的覆盖面要达到基因组的90%以上。第二个呢,错误率应该低于1%。100个碱基对立面允许你有一个以下的碱基对的错误。虽然这只是一张草图,但是它已经有用途,就是对基因组结构的基本认识,基因的识别和解析、疾病基因的定位克隆、单个核苷酸的多态性的发现等。
那么讲到草图就一定有一个最终完成图了,所以这张图的定义,要求测序所用的克隆能忠实地代表常染色质的基因组结构,覆盖率要达到999%以上,然后序列的错误率应该低于万分之一。与工作框架图的关系呢,实际上就是在工作框架图的基础上再加大测序的覆盖率,填补空隙,使得序列的精度增加,能够达到这样一个标准。也就是说,它是草图的下一步。2000年6月25号,当时的测序的情况是怎么样的呢?我们看当时在公共领域就是说各国政府支持的六各国家,美国、英国、德国、日本、法国、中国,六国政府支持的公共领域的计划,当时是覆盖了大概人类基因组的868%。其中包含一部分已经完成,就是我们刚才说的最终序列图这样标准的序列大概是20%多一点点,然后66%左右的序列处于所谓的工作草图这样的阶段。那么也可以说,还没有完成。因为我们说要达到90%以上,但是同时瑟拉尔他号称他的覆盖率已经超过了95%。当然他的覆盖率其实包括了所有的公共领域的这个贡献,再加上他的贡献,所以两者相加起来。我想我们应该相信大概90%以上的序列,都是被工作草图以上的这样一个序列的质量所覆盖着。我们看看公共领域测序计划当时的情况,在24条染色体上分布的情况。我们知道,实际上1999年12月份,22号染色体作为人类最小的染色体之一,它的全序列被测定,或者说是它的常染色体,指部分的全序列。我们注意到它的短臂这个地方,就是易染色体区域,实际上非常难测。因为都是大量的空序列,又没有多少基因。2000年4月份21号染色体全序列完成了,也是同样的定义,就是说常染色体的这个部分。我们看这里是用深红的颜色来表示,差不多就是最终完成的。而这种黄颜色表示的是我们刚才说的工作草图,在大部分染色体区域,是工作草图部分。实际上现在我们讲的,完成人类基因组全序列的测定,都是指的常染色体部分,所以有的人说也许人类基因组序列永远也不能被结束。
2001年2月15日,我们知道公共领域在《自然》上,都是有一种分庭抗礼的,兵对兵、将对将的感觉。2月16号就登了瑟拉尔序列,显然,经过新的一轮角逐,比2000年6月份的时候,完成序列的质量又要高得很多。所以这样的话,应该认为,两家加在一起的信息,应该说比我刚才说的一般的定义又要进一步了。所以就产生了一个在工作草图和最终完成图之间的一个中间状态,这个中间状态就叫做高质量的草图。但是就是这样一个高质量的草图,让我们已经基本上知道我人体生命信息的家当到底有多大。弄到最后我们发现我们的家当好像还是比较可怜的,比我们原来的想像,因为我们的基因数量大概只有线虫,只有900多个细胞的一个生命体的大概一倍左右,我们就比那么一个小虫多一倍。从低等生物到高等生物它的基因组的复杂度,与其说是由基因的数量来决定的,还不如说更主要的是由基因的长度来决定的。我们最近完成了一个细菌的测序,叫钩端螺旋体,可以引起传染病的。它平均一个KB就有一个基因,这么小的一个东西,500万个碱基对的一个基因组,有5000个基因。我们人30亿个碱基对,我们不过就3万个,顶多接近4万个这样一个数字。但是你看到了酵母,到了真核细胞的话,那它就是平均大概5到10个KB一个基因。然后到了果蝇的话,虽然它的基因数量好像还没有线虫的多。但是它的基因长度已经达到10个KB以上,然后到了哺乳类一个基因,大概像人类现在是100多个KB才有一个基因。所以替换、剪接这种可能性就大大增加了。另外跟时间和空间,也就是发育阶段和组织特异性表达的调控相关这些序列复杂大大增加了。虽然基因在高等生物可以达到十的五次方数量级,几万到十万个这样的比较高等的生物。但是实际上它的蛋白质的结构域,实际上如果把基因组比成一个大厦的话,组成这个大厦的预制件,这个数量实际上是比较有限的。那么另外有一些高级生物中有更为丰富的结构域组合,神经功能、组织特异发育、调控、止血和免疫系统的基因,在脊椎动物大量扩展。数以百计的人类基因源于脊椎动物进化过程中某个时间点上,细菌基因的横向转移。基因组在不同个体之间差异很大——单核苷酸多态性,单倍体的基因差异为1/1250,能够导致蛋白质变异的不到1%。
这本遗传天书,已经放在我们面前了,接下来就是要读懂它。要读懂它,一定要从大的系统的概念来考虑怎么样读懂。一个这个基因组的信息,和外界的环境,是在那里相互作用。另外这个基因组的信息不是从天上掉下来的,它是通过一个漫长的几十亿年进化的过程发展过来的,所以要用比较的方法去读它。另外要考虑到在个体之间和群体之间又是有变异的,这种变异也受到外界环境的一些调节。所以功能基因组学的研究内容,虽然现在没有一个严格的定义,但是我个人认为,至少包括这几个方面:人类基因组DNA序列变异性研究,其核心的内容是SNP,因为这是最常见的变异类型,当然还有很多其他的变异。然后基因组表达调控的研究,这个是发育阶段组织器官的变异,然后模式生物体的研究,这个里面包括进化的意思,和利用模式生物进行功能研究。当然从事所有这些研究,就像我们进行测序研究一样。生物信息学,它既是一个基本的工具,又是一个新兴的学科。因为最后要把这些信息整合起来,搞成一个我们所说的,系统生物学的话,你一定要用理论的手段,和大规模信息处理的手段。
目录 1 拼音 2 英文参考 3 生物信息学当前主要研究内容 31 获取人和各种生物的完整基因组 32 发现新基因和新的单核苷酸多态性 33 基因组中非编码蛋白质 34 在基因组水平研究生物进化 35 完整基因组的比较研究 36 从功能基因组到系统生物学 37 蛋白质结构模拟与药物设计 38 生物信息学的应用与发展研究 1 拼音
shēng wù xìn xī xué
2 英文参考Bioinformatics
生物信息学(Bioinformatics)是一门新兴的交叉学科。很多人会认为:生物信息学既涉及生物又涉及物理,一定是一个内容十分广泛的学科领域。其实它的内涵十分具体,范围非常明确。生物信息学是伴随基因组研究而产生的,因此它的研究内容就紧随着基因组研究而发展。
广义地说,生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释。这一定义包括了两层含义,一是对海量数据的收集、整理与服务,也就是管好这些数据;另一个是从中发现新的规律,也就是用好这些数据。
具体地说,生物信息学是把基因组 D NA序列信息分析作为源头,找到基因组序列中代表蛋白质和 R NA基因的编码区;同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在 D NA序列中的遗传语言规律;在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。
生物信息学还利用基因组中编码区的信息进行蛋白质空间结构的模拟和蛋白质功能的预测,并将此类信息与生物体和生命过程的生理生化信息相结合,阐明其分子机理,最终进行蛋白质、核酸的分子设计、药物设计和个体化的医疗保健设计。
基因组信息学、蛋白质的结构计算与模拟以及药物设计,这三者紧密地围绕着遗传信息传递的中心法则,因而必然有机地连接在一起。
为什么基因组研究需要依赖生物信息学呢?首先伴随着基因组研究,相关信息出现了爆炸性增长,迫切需要对海量生物信息进行处理。自1995年科学家破译了全长为180万核苷酸的嗜血流感杆菌基因组以来,到目前已有大约60个微生物和若干真核生物,如:酵母、线虫、果蝇、拟南芥的完整基因组完成测序。至2001年的春天,科学家又公布了人类基因组的绝大部分序列,即:人类基因组的工作草图。这些成就意味着基因组的研究将全面进入信息提取和数据分析的崭新阶段。根据国际数据库的统计,1999年12月DNA堿基数目为30亿,2000年4月DNA堿基数目是60亿,现在这一数目已达140亿,大约每14个月翻一番。同时,电子计算机芯片对于数字处理能力的增长也相当于每18个月翻一番。因此,计算机能够有效地管理和运行海量数据。
但是,更为本质的原因是基因组数据的复杂性。所谓某种生物的基因组就是指该生物所有遗传物质的总和。生物的遗传物质是一类称为脱氧核糖核酸(DNA)的生物大分子,它是由4种核苷酸串接起来组成的,通常用字符 A、 T、 G、 C代表。通俗地说,生物的遗传密码就是这4个字符连接起来的线状长链。这种链往往很长,比如:人的遗传密码就含有32亿个字符,将它们堆起来就构成了一部100多万页、每页有3000字符的“天书”。这本“天书”包含了人体的结构和功能以及生命活动过程的大量信息,却仅仅由4个字符组成,既无词法,又无句法,还没有标点符号,看起来每一页都是相似的。如何读懂它是个极大的难题。基因组研究最终是要把生物学问题转化成对数字符号的处理问题。要解决这样的问题就必须发展新的分析理论、方法、技术、工具,就必须依赖计算机的信息处理。
从事生物信息学研究应具备多方面的科学基础。首先,它需要一定的计算能力,包括相应的软、硬设备。要有各种数据库或者能与国际、国内的数据库系统进行有效的交流。要有发达、稳定的互联网络系统;同时,生物信息学需要强有力的创新算法和软件。没有算法创新,生物信息学就无法获得持续的发展。最后,它要与实验科学,特别是与自动化的大规模高通量的生物学研究方法与平台技术建立广泛、紧密的联系。这些技术,既是产生生物信息数据的主要方法,又是验证生物信息学研究结果的关键手段。因此,从事生物信息学研究的人员也必须具备多学科交叉的知识。
我国生物信息学的研究和应用有一定的基础,因而有望取得突破性成果,这对于增强我国在基础研究领域的实力,在某些方面占据国际领先地位是十分重要的。生物信息学成果的应用也会产生巨大的社会效益和经济效益。
3 生物信息学当前主要研究内容
31 获取人和各种生物的完整基因组
基因组研究的首要目标是获得人的整套遗传密码。人的遗传密码有32亿个堿基,而现在的 D NA测序仪每个反应只能读取几百到上千个堿基。也就是说,要得到人的全部遗传密码首先要把人的基因组打碎,测完一个个小段的序列后再把它们重新拼接起来。
但是,我们很容易想象:如果把一本书撕成大小一样的碎片,就再也无法把它们重新正确地拼接起来,这是因为撕的同时丢失了书的上下文联系。这该如何办呢?我们可以取两本一样的书,按照不同的撕法把它们分头打碎。通过不同碎片互相参照,找到相同的单词,就可以部分恢复书的上下文联系。撕的书越多,恢复的上下文联系也越多。因此要获得人的整套遗传密码就不能把人的32亿堿基只测一遍,往往要测很多遍。比如,今年初在《自然》、《科学》两杂志上公布的人类基因组工作草图报道,它含有约29亿堿基,其物理图谱覆盖率为96%,序列覆盖率为94%。有大于90%的连续序列群已大于10万堿基;有约25%的连续序列群已等于或大于千万堿基。在这些序列中发现了3-4万个编码蛋白质的基因。得到这样的图就是相当于把人类基因组测了大约5遍才实现的。要作到这一点就需要把几千万个小片段通过比对再连接起来,这就是常说的基因组序列数据的拼接和组装。
在基因组大规模测序的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、堿基读出、载体标识与去除、拼接、填补序列间隙,到重复序列标识、读框预测和基因标注,每一步都是紧密依赖生物信息学的软件和数据库的。其中,序列拼接和填补序列间隙是最为关键的首要难题。其困难不仅来自它巨大的海量数据,而且在于它含有高度重复的序列。为此,这一过程特别需要把实验设计和信息分析时刻联系在一起。另一方面,必须按照不同步骤的要求,发展适当的算法及相应的软件,以应对各种复杂的问题。国际上很多著名的基因组研究中心,都有自己的拼接和组装策略,并且这样的工作都是在超级计算机上完成的。
有了完整基因组,人类对自身的认识就更为细致、更为精确。比如:发现在我们的基因组中真正编码蛋白质(称为外显子)等的部分很少,只占1.1%;外显子与外显子之间的区域(称为内含子)占了24%;而基因与基因之间的间隔序列却占了75%,也就是说在人类基因组中不编码蛋白质的区域占了绝大部分。发现人类编码蛋白的基因较之其它生物体的基因更为复杂,有更为丰富的剪接方式。发现基因组中片段重复现象很普遍,这反映了人类复杂的进化历史。发现人的第13号染色体比较稳定,而男性的第12号染色体和女性的第16号染色体是易变的,等等。
32 发现新基因和新的单核苷酸多态性
发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因的重要手段。比如:啤酒酵母完整基因组所包含的约6000个基因,大约60%是通过信息分析得到的。
(1)基因的电脑克隆
利用 E ST数据库发现新基因也被称为基因的电脑克隆。 E ST序列是基因表达的短 c DNA序列,它们携带着完整基因的某些片段的信息。到2001年10月,GenBank的EST数据库中人类 E ST序列已超过380万条,它大约覆盖了人类基因的90%以上。
我国早在1996年就开始了通过电脑克隆寻找新基因的研究。它的原理非常简单,就是找到属于同一基因的所有 E ST片段,再把它们连接起来。由于 E ST序列是全世界很多实验室随机产生的,所以属于同一基因的很多 E ST序列间必然有大量重复小片段,利用这些小片段作为标志就可以把不同的 E ST连起来,直到发现了它们的全长,这样我们就可以说通过电脑克隆找到了一个基因。如果这个基因以前未曾发现过,那我们就找到了一个新基因。但是进行电脑克隆程序设计是复杂的,计算量是巨大的。
(2)从基因组 D NA序列中预测新基因
从基因组序列预测新基因,本质上是把基因组上编码蛋白质的区域和非编码蛋白质的区域区分开来。对于理论方法来讲就是要找到在编码区和非编码区哪些数学、物理学特征是不一样的。将这些序列与已知基因数据库进行比较,就可以发现新的基因了。
发现了新基因就会使我们对生命活动的认识加深一步。据1999年12月2日《自然》杂志,人的第22号染色体数据已鉴定出679个基因,其中55%的基因是未知的。有35种疾病与该染色体突变相关,像免疫系统疾病、先天性心脏病和精神分裂症。但是,要将人类的所有基因及其相应的蛋白质以及与它们相关的功能完整而正确地整合到一个索引中,依然是一个十分重要、十分艰巨的任务。国际人类基因组协作组正着手建立完整的“整合基因索引”及与之相关的“整合蛋白索引”。
(3)发现单核苷酸多态( S NP)
有的人吸烟喝酒却长寿,也有人自幼就病痛缠身;同一种治疗肿瘤的药物对一些人非常有效,对另一些人则完全无效。这是为什么?答案是他们基因组中存在的差异。这种差异很多表现为单个堿基上的变异,也就是单核苷酸的多态性( S NP)。
现在普遍认为 S NP研究是人类基因组计划走向应用的重要步骤。这主要是因为 S NP将提供一个强有力的工具,用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。 S NP在基因组中分布相当广泛,近来的研究表明在人类基因组中每300堿基对就出现一次。大量存在的 S NP位点,使人们有机会发现与各种疾病,包括肿瘤相关的基因组突变;从实验 *** 作来看,通过 S NP发现疾病相关基因突变要比通过家系来得容易;有些 S NP并不直接导致疾病基因的表达,但由于它与某些疾病基因相邻,而成为重要的标记。 S NP在基础研究中也发挥了巨大的作用,近年来对 Y染色体 S NP的分析,使得在人类进化、人类种群的演化和迁徙领域取得了一系列重要成果。
33 基因组中非编码蛋白质
区域的结构与功能研究
近年来的研究表明,在细菌这样的微生物中,非编码蛋白质的区域只占整个基因组序列的10%到20%。随着生物的进化,非编码区越来越多,在高等生物和人的基因组中非编码序列已占到基因组序列的绝大部分。这表明:这些非编码序列必定具有重要的生物功能。普遍的认识是,它们与基因的表达调控有关。
对人类基因组来说,迄今为止,人们真正掌握规律的只有 D NA上的编码蛋白质的区域(基因),最新资料说明这部分序列只占基因组的1.1%。仅占人类基因组1.1%的编码区的相关研究已经缔造了数十名诺贝尔奖获得者,98%非编码区蕴含的成果数量将是十分可观的,因此寻找这些区域的编码特征、信息调节与表达规律是未来相当长时间内的热点课题,是取得重要成果的源泉。
34 在基因组水平研究生物进化
近几年来,随着基因组序列数据的大量增加,对序列差异和进化关系的争论也越来越激烈。首先发现同一种群基于不同分子序列所重构出的进化树可能不同。同时,对“垂直进化”和“水平演化”之间关系的讨论正逐渐引起人们的重视。也就是近年来发现了基因的“横向迁移现象”。即:基因可以在同时存在的种群间迁移,其结果虽可导致序列差异,但这种差异与进化无关。甚至,对人类基因组的分析发现,有几十个人的基因只与细菌基因相似,而在果蝇、线虫中都不存在。如果以人的这些基因序列来研究进化将会得到荒谬的结论。所以在当前的分子进化研究中必须选择垂直进化的分子作为样本。特别是:在分子进化分析中,“相似性”和“同源性”是两个不同的概念。相似性只反映两者类似,并不包含任何与进化相关的暗示。同源性则是与共同祖先相关的相似性。
35 完整基因组的比较研究
在后基因组时代,完整基因组数据越来越多,有了这些资料人们就能对若干重大生物学问题进行分析研究,如:生命是从哪里起源的?生命是如何进化的?遗传密码是如何起源的?估计最小独立生活的生物体至少需要多少基因?这些基因是如何使生物体活起来的?等等。这些重大的问题只有在基因组水平上才能回答。举例来说,鼠和人的基因组大小相似,都含有约30亿堿基对,基因的数目也类似,且大部同源。可是鼠和人差异却如此之大,这是为什么?同样,有的科学家估计不同人种间基因组的差别仅为0.1%;人猿间差别约为1%。但他们表型间的差异十分显著。因此,这种差异不仅应从基因、 D NA序列找原因,也应考虑到整个基因组、考虑染色体组织上的差异。这一工作开创了比较基因组学。
科学家们发现:全部基因可以按照功能和系统发生分为若干类,其中包括与复制、转录、翻译、分子伴娘、能量产生、离子转运、各种代谢相关的基因。这一工作也为蛋白质分类提供了新的途径。同时,科学家们通过几个完整基因组的比较,统计出维持生命活动所需要的最少基因的个数为250个左右。同样,当我们比较鼠和人的基因组就会发现,尽管两者基因组大小和基因数目类似,但基因组的组织却差别很大。例如存在于鼠1号染色体上的基因已分布到人的1、2、5、6、8、13、18号7个染色体上了。研究表明在同一界中,某些核糖体蛋白排列顺序的差异能反映出物种间的亲缘关系,亲缘关系越近,基因排列顺序越接近。这样就可以通过比较基因的排列顺序来研究物种间的系统发育关系。
我国从1998年开始就开展了微生物完整基因组的大规模测序和分析工作。现在正进行和已完成的有:我国自行鉴定的 T hermotogales科的高温真细菌、泉生热袍菌;福氏痢疾杆菌;钩端螺旋体出血黄疸型赖株;表皮葡萄球菌;菊花黄单胞菌。我国科学家在完成人类基因组的1%测序工作的同时,最近又完成了具有4.3亿堿基对的水稻基因组的“工作草图”。这些数据将为我国在这一领域的研究提供最直接的素材。
36 从功能基因组到系统生物学
在不同的组织中表达基因的数目差别是很大的,脑中基因表达的数目最多,约有3-4万个转录子,有的组织中只有几十或几百个基因表达。同一组织在不同的个体生长发育阶段,表达基因的种类、数量也是不同的,有些基因是在幼年时期表达的,有些是中年阶段表达的,有些要到老年时期才表达。我们不仅需要了解基因的序列,还要了解基因的功能,也就是要了解在不同的时间、不同的组织中基因的表达谱。这就是通常所说的功能基因组研究。
为了得到基因的表达谱,国际上在核酸和蛋白质两个层次上都发展了新技术。这就是在核酸层次上的基因芯片(或称 D NA芯片)技术和在蛋白质层次上的大规模蛋白质分离和序列鉴定技术,也称蛋白质组技术。由于芯片上样品点的密度很大,可以达到每片几十万,因此表达谱数据挖掘和知识发现就成了该研究成功与否的关键。无论是生物芯片还是蛋白质组技术的发展,都更强烈地依赖于生物信息学的理论、技术与数据库。下一步,功能基因组研究将朝着复杂系统的方向发展,即:探讨生物系统中各部分、各层次的相互作用,从而进入系统生物学的领域。
37 蛋白质结构模拟与药物设计
蛋白的空间结构模拟和药物设计已有二三十年的历史。随着人类基因组研究的飞速发展,这一领域面临着新的态势,即:找到人类3—4万个基因的堿基序列是指日可待的事,因而确定它们表达产物的氨基酸顺序也会逐渐实现,此时预测这些蛋白的空间结构,进而实现针对性的药物设计,就成了迫在眉睫的任务。这也是大规模的计算问题。
38 生物信息学的应用与发展研究
生物信息学的研究结果不仅具有重要的理论价值,也可直接应用到工农业生产和医疗实践当中去。因此,生物信息学相关的分析与应用算法、软件和数据库,都具有重要的经济价值,最终都会形成商品,提供经济和社会效益。
(1)疾病相关的基因信息及相关算法和软件开发
很多疾病与基因突变或基因多态有关,有人估计与癌症相关的原癌基因约有1000个,抑癌基因约有100个。约有6000种以上的人类疾患与各种人类基因的变化相关联。更多的疾病是环境(包括致病微生物)与人类基因(基因产物)相互作用的结果。随着人类基因组计划的深入,当我们知道了人类全部基因在染色体上的位置、它们的序列特征(包括 S NPs)以及它们表达规律和产物( R NA和蛋白质)特征以后,人们就可以有效地判定各种疾患的分子机制,进而发展合适的诊断和治疗手段。为此,有两项生物信息学工作是重要的:一是构建与疾病相关的人类基因信息数据库(包括 S NP数据库),二是发展有效地分析基因分型数据的生物信息学算法,特别是将 S NP数据与疾病和致病因素相关的计算方法。
(2)建立与动、植物良种繁育相关的基因组数据库,发展分子标记辅助育种技术
根据不同物种间的进化距离和功能基因的同源性,可以比较容易地找到各种家畜、经济作物与其经济效益相关的基因,并进一步认识它们发育、生长和抗逆的各种途径和机制。在此基础上,利用相关的基因组分子标记,可以加快育种的速度,对它们按照人们的愿望加以改造。
(3)研究与发展药物设计软件和基于生物信息的分子生物学技术
人类基因组信息为药物发展提供了新的候选分子和新的候选药靶基因。同时,分子生物学常用的表达载体、 P CR和杂交引物以及各种试剂盒(包括 D NA芯片)的设计必须依赖于核酸的序列信息。基因组信息学提供的大量信息为这类技术的发展提供了广阔的天地。
以上就是关于求助:请高人推荐一本好的基因方面的书。要求一定要讲解各种文库的建立,最好有高通量测序方面的介绍全部的内容,包括:求助:请高人推荐一本好的基因方面的书。要求一定要讲解各种文库的建立,最好有高通量测序方面的介绍、建立化学品数据库的意义是什么、生物信息学研究意义等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)