信息生物学？？？？？？？？？？？？？？？？？？？？？？？？？？？_sql

生物信息学（BT）

中文名称：生物信息学英文名称：bioinformatics

定义1：综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。包括生物学数据的研究、存档、显示、处理和模拟，基因遗传和物理图谱的处理，核苷酸和氨基酸序列分析，新基因的发现和蛋白质结构的预测等。

所属学科：生物化学与分子生物学（一级学科）；总论（二级学科）

定义2：运用计算机技术和信息技术开发新的算法和统计方法，对生物实验数据进行分析，确定数据所含的生物学意义，并开发新的数据分析工具以实现对各种信息的获取和管理的学科。

所属学科：细胞生物学（一级学科）；总论（二级学科）

定义3：运用计算机技术和信息技术开发新的算法和统计方法，对生物实验数据进行分析，确定数据所含的生物学意义，并开发新的数据分析工具以实现对各种信息的获取和管理的学科。

所属学科：遗传学（一级学科）；总论（二级学科）本内容由全国科学技术名词审定委员会审定公布

生物信息学(Bioinformatics)是研究生物信息的采集，处理，存储，传播，分析和解释等各方面的一门学科，它通过综合利用生物学，计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。

主要研究方向

生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些主要的研究重点.

1、序列比对(Sequence Alignment)

序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性.从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列.在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的.

2、蛋白质结构比对和预测

基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息.蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释.从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构.然而,蛋白结构预测研究现状还远远不能满足实际需要.

3、基因识别非编码区分析研究

基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码区DNA序列目前没有一般性的指导方法.在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等.

4、分子进化和比较基因组学

分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:Orthologous: 不同种族,相同功能的基因；Paralogous: 相同种族,不同功能的基因；Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现.

5、序列重叠群(Contigs)装配

根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短q(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个NP-完全问题.

6、遗传密码的起源

通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材.

7、基于结构的药物设计

人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一领域目的是发现新的基因药物,有着巨大的经济效益.

8、生物系统的建模和仿真

随着大规模实验技术的发展和数据累积，从全局和系统水平研究和分析生物学系统，揭示其发展规律已经成为后基因组时代的另外一个研究热点-系统生物学。目前来看，其研究内容包括生物系统的模拟（Curr Opin Rheumatol，2007，463-70），系统稳定性分析（Nonlinear Dynamics Psychol Life Sci，2007，413-33），系统鲁棒性分析（Ernst Schering Res Found Workshop， 2007，69-88）等方面。以SBML（Bioinformatics，2007，1297-8）为代表的建模语言在迅速发展之中，以布尔网络（PLoS Comput Biol，2007，e163）、微分方程（Mol Biol Cell，2004，3841-62）、随机过程（Neural Comput，2007，3262-92）、离散动态事件系统等（Bioinformatics，2007，336-43）方法在系统分析中已经得到应用。很多模型的建立借鉴了电路和其它物理系统建模的方法，很多研究试图从信息流、熵和能量流等宏观分析思想来解决系统的复杂性问题（Anal Quant Cytol Histol，2007，296-308）。当然，建立生物系统的理论模型还需要很长时间的努力，现在实验观测数据虽然在海量增加，但是生物系统的模型辨识所需要的数据远远超过了目前数据的产出能力。例如，对于时间序列的芯片数据，采样点的数量还不足以使用传统的时间序列建模方法，巨大的实验代价是目前系统建模主要困难。系统描述和建模方法也需要开创性的发展。

9、生物信息学技术方法的研究

生物信息学不仅仅是生物学知识的简单整理和、数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难，需要像非参数统计（BMC Bioinformatics，2007，339）、聚类分析（Qual Life Res，2007，1655-63）等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘（partial least squares，PLS）等特征空间的压缩技术。在计算机算法的开发中，需要充分考虑算法的时间和空间复杂度，使用并行计算、网格计算等技术来拓展算法的可实现性。

10、生物图像

没有血缘关系的人，为什么长得那么像呢？外貌是像点组成的，像点愈重合两人长得愈像，那两个没有血缘关系的人像点为什么重合？有什么生物学基础？基因是不是相似？我不知道，希望专家解答。

11、其他

如基因表达谱分析,代谢网络分析基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法.从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识.

编辑本段生物信息学与机器学习

生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入.常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问题.究其原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完备的生命组织理论.西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作时更有效。机器学习的目的是期望能从数据中自动地获得相应的理论,通过采用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,"噪声"模式,及大规模数据集.因此,机器学习形成了与常规方法互补的可行的方法.机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能.机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,而目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花费巨大的人工处理方法.早期的科学方法—观测和假设----面对高数据的体积,快速的数据获取率和客观分析的要求---已经不能仅依赖于人的感知来处理了.因而,生物信息学与机器学习相结合也就成了必然.机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是统计模型拟合的延续,其目的均为提取有用信息.机器学习与模式识别和统计推理密切相关.学习方法包括数据聚类,神经网络分类器和非线性回归等等.隐马尔可夫模型也广泛用于预测DNA的基因结构.目前研究重心包括:1)观测和探索有趣的现象.目前ML研究的焦点是如何可视化和探索高维向量数据.一般的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析(KPCA),独立成分分析(Independent component analysis),局部线性嵌套(LocallyLinear embedding).2)生成假设和形式化模型来解释现象[6].大多数聚类方法可看成是拟合向量数据至某种简单分布的混合.在生物信息学中聚类方法已经用于microarray数据分析中,癌症类型分类及其他方向中.机器学习也用于从基因数据库中获得相应的现象解释.机器学习加速了生物信息学的进展,也带了相应的问题.机器学习方法大多假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻找数据集的内在结构.其次,机器学习方法中常采用"黑箱" *** 作,如神经网络和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚.

生物的基因组中，特别是高等生物的基因组中含有大量的重复序列，根据重复序列在基因组中的分布形式可将其分为串联重复序列（Tandem Repeats Sequence，TRS）和散布重复序列（Dispersed Repeats Sequence，DRS）。其中，串联重复序列是由相关的重复单位首尾相连、成串排列而成的。发现的串联重复序列主要有两类：一类是由功能基因组成的（如rRNA和组蛋白基因）；另一类是由无功能的序列组成的。根据重复序列的重复单位的长度，可将串联重复序列分为卫星DNA、微卫星DNA、小卫星 DNA等。微卫星DNA又叫简单重复序列（Simple Sequence Repeat，SSR），指的是基因组中由1-6个核苷酸组成的基本单位重复多次构成的一段DNA，广泛分布于基因组的不同位置，长度一般在200 bp以下。研究表明，微卫星在真核生物的基因组中的含量非常丰富，而且常常是随机分布于核DNA中。在植物中通过对拟南芥、玉米、水稻、小麦等的研究表明微卫星在植物中也很丰富，均匀分布于整个植物基因组中，但不同植物中微卫星出现的频率变化是非常大的，如在主要的农作物中两种最普遍的二核苷酸重复单位（AC）n和（GA）n在水稻、小麦、玉米、烟草中的数量分布频率是不同的。在小麦中估计有3000个（AC）n序列重复和约6000个（GA）n序列重复，两个重复之间的距离平均分别为704 kb、440 kb，而在水稻中，（AC）n序列重复约有1000个左右，（GA）n 重复约有2000个，重复之间的平均距离分别为450 kb、225 kb。

另外在植物中也发现一些三核苷酸和四核苷酸的重复，其中最常见的是（AAG）n、（AAT）n。在单子叶和双子叶植物中SSR数量和分布也有差异，平均分别为64.6 kb和21.2 kb中有一个SSR。研究还发现，单核苷酸及二核苷酸重复类型的SSR主要位于非编码区，而有部分三核苷酸类型位于编码区。另外在叶绿体基因组中，也报道了一些微卫星，以A/T序列重复为主。研究发现，微卫星中重复单位的数目存在高度变异，这些变异表现为微卫星数目的整倍性变异或重复单位序列中的序列有可能不完全相同，因而造成多个位点的多态性。如果能够将这些变异揭示出来，就能发现不同的SSR在不同的种甚至不同个体间的多态性，基于这一想法，人们发展了SSR标记。SSR标记又称为序列标签微卫星位点（sequence tagged microsatellite site），简写为STMS，是目前最常用的微卫星标记之一。由于基因组中某一特定的微卫星的侧翼序列通常都是保守性较强的单一序列，因而可以将微卫星侧翼的DNA片段克隆、测序，然后根据微卫星的侧翼序列就可以人工合成引物进行PCR扩增，从而将单个微卫星位点扩增出来。由于单个微卫星位点重复单元在数量上的变异，个体的扩增产物在长度上的变化就产生长度的多态性，这一多态性称为简单序列重复长度多态性（Simple Sequence length polymorphism，SSLP），每一扩增位点就代表了这一位点的一对等位基因。由于SSR重复数目变化很大，所以SSR标记能揭示比RFLP高得多的多态性，这就是SSR标记的原理。与其它分子标记相比，SSR标记具有以下优点：①数量丰富，覆盖整个基因组，揭示的多态性高；②具有多等位基因的特性，提供的信息量高；③以孟德尔方式遗传，呈共显性；④每个位点由设计的引物顺序决定，便于不同的实验室相互交流合作开发引物。因而该技术已广泛用于遗传图谱的构建、目标基因的标定、指纹图的绘制等研究中。但应看到，SSR标记的建立首先要对微卫星侧翼序列进行克隆、测序、人工设计合成引物以及标记的定位、作图等基础性研究，因而其开发费用相当高，各个实验室必须进行合作才能开发更多的标记。由于SSR标记具有较大的应用价值，且种属特异性较强，在一些主要的农作物中SSR标记研究都进行了合作，共同进行STMS引物的开发。简单重复序(Simple Sequence Repeat，SSR)

简单重复序（SSR）也称微卫星DNA，其串联重复的核心序列为1一6 bp，其中最常见是双核苷酸重复，即（CA) n和（TG) n每个微卫星DNA的核心序列结构相同，重复单位数目10一60个，其高度多态性主要来源于串联数目的不同。SSR标记的基本原理：根据微卫星序列两端互补序列设计引物，通过PCR反应扩增微卫星片段，由于核心序列串联重复数目不同，因而能够用PCR的方法扩增出不同长度的PCR产物，将扩增产物进行凝胶电泳，根据分离片段的大小决定基因型并计算等位基因频率。在真核生物中，存在许多2-5bp简单重复序列，称为“微卫星DNA”其两端的序列高度保守，可设计双引物进行PCR扩增，揭示其多态性。

SSR具有以下一些优点：（l）一般检测到的是一个单一的多等位基因位点；⑵微卫星呈共显性遗传，故可鉴别杂合子和纯合子；⑶所需DNA量少。显然，在采用SSR技术分析微卫星DNA多态性时必须知道重复序列两端的DNA序列的信息。如不能直接从DNA数据库查寻则首先必须对其进行测序。复合型（compound）。指2个或2个以上的串联核心序列由3个或3个以上的连续的非重复碱基分隔开，但这种连续性的核心序列重复数不少于5。如：ATATATATATATATGGGATATATATATATA

3种类型中完全型是SSR标记中应用较多的一种类型。　SSR在植物基因组中的分布SSR广泛分布于各种真核生物的基因组中，大约每隔10～50kb就存在一个SSR。哺乳动物中的SSR的数量大约为植物中的5～6倍。在植物中，平均23.3kb就有一个SSR；双子叶植物中的SSR数量大于单子叶植物，前者两个SSR之间的平均间距为21.2kb，后者为64.6kb；核DNA中的SSR数量多于细胞质DNA中的SSR，绝大多数单碱基重复型及2碱基重复型SSR存在于非编码区，3碱基重复型多位于编码区。借鉴其他近缘种序列。

通过筛选文库、测序开发自己的SSR引物。

通过核酸数据库查询，从已有序列中搜寻包括SSR的序列并设计引物。提取DNA；PCR扩增；电泳及显色；电泳胶板带型的照相、记录；数据分析处理。

其中，PCR产物分离的电泳方法主要有：高浓度琼脂糖电泳（4%胶只能分辨4-6bp差异）；变性聚丙烯酰胺序列胶电泳；非变性聚丙烯酰胺凝胶电泳。

由于扩增的片段短（一般小于300bp），基因间的差异小（一般为几个bp），故通常使用分辨率高的聚丙烯酰胺凝胶电泳。在程序上，变性胶虽然比非变性胶麻烦些，但考虑到在非变性胶上会出现人为假象—异源双链分子，比如导致SSR杂合子中出现3-4条带，而不是正常的2条带，从而干扰等位位点统计，因此我们建议在SSR分析中均采用变性胶电泳。

PCR扩增产物显色方法有：同位素放射性自显影法；荧光染料标记法；溴化乙锭（EB）显色法；银染法（多用此法）。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/sjk/6699716.html

信息生物学？？？？？？？？？？？？？？？？？？？？？？？？？？？

发表评论

评论列表（0条）