生物信息学
一, 生物信息学发展简介
生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就
必须先对分子生物学的发展有一个简单的了解研究生物细胞的生物大分子的结
构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物
成分存在[1],1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),
在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们
仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色
1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧
定的量总是相等,腺嘌呤与胸腺嘧啶的量相等与此同时,Wilkins与Franklin
用X射线衍射技术测定了DNA纤维的结构1953年James Watson 和Francis
Crick在Nature杂志上推测出DNA的三维结构(双螺旋)DNA以磷酸糖链形
成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基
对这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的
遗传信息可以精确地进行复制他们的理论奠定了分子生物学的基础
DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大
肠杆菌(Ecoli)中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接
成DNADNA的复制需要一个DNA作为模板Meselson与Stahl(1958)用实验
方法证明了DNA复制是一种半保留复制Crick于1954年提出了遗传信息传递
的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心
法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起
到了极其重要的指导作用
经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码
得到了破译限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程
的技术基础
正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息
学的出现也就成了一种必然
2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮
由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每
天106bp速度增长,生物信息迅速地膨胀成数据的海洋毫无疑问,我们正从一
个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发
现的可能,"生物信息学"正是从这一前提产生的交叉学科粗略地说,该领域
的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA
序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,
分子演化及结构生物学,统计学及计算机科学等许多领域
生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信
息的获取,处理,存储,分配和解释基因组信息学的关键是"读懂"基因组的核
苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在
发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的
功能进行药物设计[2]了解基因表达的调控机理也是生物信息学的重要内容,根
据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律它的研
究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗
传语言生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研
究的前沿
二, 生物信息学的主要研究方向
生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些
主要的研究重点
1,序列比对(Sequence Alignment)
序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似
性从生物学的初衷来看,这一问题包含了以下几个意义[3]:
从相互重叠的序列片断中重构DNA的完整序列
在各种试验条件下从探测数据(probe data)中决定物理和基因图
存贮,遍历和比较数据库中的DNA序列
比较两个或多个序列的相似性
在数据库中搜索相关序列和子序列
寻找核苷酸(nucleotides)的连续产生模式
找出蛋白质和DNA序列中的信息成分
序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前
两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权
和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等两个
序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海
量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算
法复杂性为线性的也难以奏效因此,启发式方法的引入势在必然,著名的
BALST和FASTA算法及相应的改进方法均是从此前提出发的
2, 蛋白质结构比对和预测
基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性
蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般
相似蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),
蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等氨基酸
的序列内在的决定了蛋白质的3维结构一般认为,蛋白质有四级不同的结构
研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找docking
drugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成
直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构
在进化中更稳定的保留,同时也包含了较AA序列更多的信息
蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应
(不一定全真),物理上可用最小能量来解释
从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构同
源建模(homology modeling)和指认(Threading)方法属于这一范畴同源建模用
于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较
进化族中不同的蛋白质结构
然而,蛋白结构预测研究现状还远远不能满足实际需要
3, 基因识别,非编码区分析研究
基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组
序列中的精确位置非编码区由内含子组成(introns),一般在形成蛋白质后被丢
弃,但从实验中,如果去除非编码区,又不能完成基因的复制显然,DNA序
列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中分析非编码
区DNA序列目前没有一般性的指导方法
在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已
完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序
列是难以想象的
侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔
可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden
Markov Model)和GENSCAN,Splice Alignment等等
4, 分子进化和比较基因组学
分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进
化树既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相
关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似
性通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的
早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化
的依据近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角
度来研究分子进化在匹配不同种族的基因时,一般须处理三种情况:
Orthologous: 不同种族,相同功能的基因
Paralogous: 相同种族,不同功能的基因
Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因
这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白
质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统
的聚类方法(如UPGMA)来实现
5, 序列重叠群(Contigs)装配
根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,
如人类基因的测量就采用了短q(shortgun)方法,这就要求把大量的较短的序列
全体构成了重叠群(Contigs)逐步把它们拼接起来形成序列更长的重叠群,直
至得到完整序列的过程称为重叠群装配从算法层次来看,序列的重叠群是一个
NP-完全问题
6, 遗传密码的起源
通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上
一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今
不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说
来解释遗传密码随着各种生物基因组测序任务的完成,为研究遗传密码的起源
和检验上述理论的真伪提供了新的素材
7, 基于结构的药物设计
人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,
相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物
治疗基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要
的研究领域为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础
上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物这一
领域目的是发现新的基因药物,有着巨大的经济效益
8, 其他
如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,
逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的
学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组
学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学
从现在的发展不难看出,基因工程已经进入了后基因组时代我们也有应对
与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认
识
三, 生物信息学与机器学习
生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入
常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问
题究竟原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完
备的生命组织理论
西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作
时更有效[4]机器学习的目的是期望能从数据中自动地获得相应的理论,通过采
用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,"噪声"
模式,及大规模数据集因此,机器学习形成了与常规方法互补的可行的方法
机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能
[5]
机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,
而目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花
费巨大的人工处理方法早期的科学方法—观测和假设----面对高数据的体积,
快速的数据获取率和客观分析的要求---已经不能仅依赖于人的感知来处理了因
而,生物信息学与机器学习相结合也就成了必然
机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是
统计模型拟合的延续,其目的均为提取有用信息机器学习与模式识别和统计推
理密切相关学习方法包括数据聚类,神经网络分类器和非线性回归等等隐马
尔可夫模型也广泛用于预测DNA的基因结构目前研究重心包括:1)观测和
探索有趣的现象目前ML研究的焦点是如何可视化和探索高维向量数据一般
的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析
(KPCA),独立成分分析(Independent component analysis),局部线性嵌套(Locally
Linear embedding)2)生成假设和形式化模型来解释现象[6]大多数聚类方法可
看成是拟合向量数据至某种简单分布的混合在生物信息学中聚类方法已经用于
microarray数据分析中,癌症类型分类及其他方向中机器学习也用于从基因数
据库中获得相应的现象解释
机器学习加速了生物信息学的进展,也带了相应的问题机器学习方法大多
假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息
学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻
找数据集的内在结构其次,机器学习方法中常采用"黑箱" *** 作,如神经网络
和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚
四, 生物信息学的数学问题
生物信息学中数学占了很大的比重统计学,包括多元统计学,是生物信息
学的数学基础之一;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型
(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质
空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓
扑学;研究遗传密码和DNA序列的对称性方面的群论等等总之,各种数学理
论或多或少在生物学研究中起到了相应的作用
但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学
和度量空间为例来说明
1, 统计学的悖论
数学的发展是伴随悖论而发展的对于进化树研究和聚类研究中最显著的悖
论莫过于均值了,如图1:
图1 两组同心圆的数据集
图1是两组同心圆构成的数据集,显然,两组数据集的均值均在圆点,这也
就说明了要采用常规的均值方法不能将这两类分开,也表明均值并不能带来更多
的数据的几何性质那么,如果数据呈现类似的特有分布时,常有的进化树算法
和聚类算法(如K-均值)往往会得错误的结论统计上存在的陷阱往往是由于
对数据的结构缺乏一般性认识而产生的
2, 度量空间的假设
在生物信息学中,进化树的确立,基因的聚类等都需要引入度量的概念举
例来说,距离上相近或具有相似性的基因等具有相同的功能,在进化树中满足分
值最小的具有相同的父系,这一度量空间的前提假设是度量在全局意义下成立
那么,是否这种前提假设具有普适性呢
我们不妨给出一般的描述:假定两个向量为A,B,其中,
,则在假定且满足维数间线性无关的前提下,两个
向量的度量可定义为:
(1)
依据上式可以得到满足正交不变运动群的欧氏度量空间,这也是大多数生物信息
学中常采用的一般性描述,即假定了变量间线性无关
然而,这种假设一般不能正确描述度量的性质,尤其在高维数据集时,不考
虑数据变量间的非线性相关性显然存在问题,由此,我们可以认为,一个正确的
度量公式可由下式给出:
(2)
上式中采用了爱因斯坦和式约定,描述了变量间的度量关系后者在满足
(3)
时等价于(1),因而是更一般的描述,然而问题在于如何准确描述变量间的非线
性相关性,我们正在研究这个问题
五, 几种统计学习理论在生物信息学中应用的困难
生物信息学中面对的数据量和数据库都是规模很大的,而相对的目标函数却
一般难以给出明确的定义生物信息学面临的这种困难,可以描述成问题规模的
巨大以及问题定义的病态性之间的矛盾,一般从数学上来看,引入某个正则项来
改善性能是必然的[7]以下对基于这一思想产生的统计学习理论[8],Kolmogorov
复杂性[98]和BIC(Bayesian Information Criterion)[109]及其存在的问题给出简要介
绍
支持向量机(SVM)是近来较热门的一种方法,其研究背景是Vapnik的统计
学习理论,是通过最大化两个数据集的最大间隔来实现分类,对于非线性问题则
采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性
质,这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函
数的选择,因此,受到广泛的注意在生物信息学中也开始受到重视,然而,核
函数的选择问题本身是一个相当困难的问题,从这个层次来看,最优核函数的选
择可能只是一种理想,SVM也有可能象神经网络一样只是机器学习研究进程中
又一个大气泡
Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习
的性质,前者从编码的角度,后者基于有限样本来获得一致收敛性Kolmogorov
复杂性是不可计算的,因此由此衍生了MDL原则(最小描述长度),其最初只
适用于离散数据,最近已经推广至连续数据集中,试图从编码角度获得对模型参
数的最小描述其缺陷在于建模的复杂性过高,导致在大数据集中难以运用
BIC准则从模型复杂性角度来考虑,BIC准则对模型复杂度较高的给予大的
惩罚,反之,惩罚则小,隐式地体现了奥卡姆剃刀("Occam Razor")原理,近
年也广泛应用于生物信息学中BIC准则的主要局限是对参数模型的假定和先验
的选择的敏感性,在数据量较大时处理较慢因此,在这一方面仍然有许多探索
的空间
六, 讨论与总结
人类对基因的认识,从以往的对单个基因的了解,上升到在整个基因组水平
上考察基因的组织结构和信息结构,考察基因之间在位置,结构和功能上的相互
关系这就要求生物信息学在一些基本的思路上要做本质的观念转变,本节就这
些问题做出探讨和思索
启发式方法:
Simond在人类的认知一书中指出,人在解决问题时,一般并不去寻找最优
的方法,而只要求找到一个满意的方法因为即使是解决最简单的问题,要想得
到次数最少,效能最高的解决方法也是非常困难的最优方法和满意方法之间的
困难程度相差很大,后者不依赖于问题的空间,不需要进行全部搜索,而只要能
达到解决的程度就可以了正如前所述,面对大规模的序列和蛋白质结构数据集,
要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,
要通过变换解空间或不依赖于问题的解空间获得满意解,生物信息学仍需要人工
智能和认知科学对人脑的进一步认识,并从中得到更好的启发式方法
问题规模不同的处理:
Marvin Minsky在人工智能研究中曾指出:小规模数据量的处理向大规模数
据量推广时,往往并非算法上的改进能做到的,更多的是要做本质性的变化这
好比一个人爬树,每天都可以爬高一些,但要想爬到月球,就必须采用其他方法
一样在分子生物学中,传统的实验方法已不适应处理飞速增长的海量数据同
样,在采用计算机处理上,也并非依靠原有的计算机算法就能够解决现有的数据
挖掘问题如在序列对齐(sequence Alignment)问题上,在小规模数据中可以采用
动态规划,而在大规模序列对齐时不得不引入启发式方法,如BALST,FASTA
乐观中的隐扰
生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入"后基因
组时代",目前在这一领域的研究人员均呈普遍乐观态度,那么,是否存在潜在
的隐扰呢
不妨回顾一下早期人工智能的发展史[11],在1960年左右,西蒙曾相信不出
十年,人类即可象完成登月一样完成对人的模拟,造出一个与人智能行为完全相
同的机器人而至今为止,这一诺言仍然遥遥无期尽管人工智能研究得到的成
果已经渗入到各个领域,但对人的思维行为的了解远未完全明了从本质来看,
这是由于最初人工智能研究上定位错误以及没有从认识论角度看清人工智能的
本质造成的;从研究角度来看,将智能行为还原成一般的形式化语言和规则并不
能完整描述人的行为,期望物理科学的成功同样在人工智能研究中适用并不现
实
反观生物信息学,其目的是期望从基因序列上解开一切生物的基本奥秘,从
结构上获得生命的生理机制,这从哲学上来看是期望从分子层次上解释人类的所
有行为和功能和致病原因这类似于人工智能早期发展中表现的乐观行为,也来
自于早期分子生物学,生物物理和生物化学的成就然而,从本质上来讲,与人
工智能研究相似,都是希望将生命的奥秘还原成孤立的基因序列或单个蛋白质的
功能,而很少强调基因序列或蛋白质组作为一个整体在生命体中的调控作用我
们因此也不得不思考,这种研究的最终结果是否能够支撑我们对生物信息学的乐
观呢 现在说肯定的话也许为时尚早
综上所述,不难看出,生物信息学并不是一个足以乐观的领域,究竟原因,
是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为
各种学科的简单堆砌,相互之间的联系并不是特别的紧密在处理大规模数据方
面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全
明了,这使得生物信息学的研究短期内很难有突破性的结果那么,要得到真正
的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从
数学上的新思路来获得本质性的动力
毫无疑问,正如Dulbecco1986年所说:"人类的DNA序列是人类的真谛,
这个世界上发生的一切事情,都与这一序列息息相关"但要完全破译这一序列
以及相关的内容,我们还有相当长的路要走
(来源 ------[InfoBioorg | 生物信息学研讨组])http://wwwinfobioorg
生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。
生物信息学是一门利用计算机技术研究生物系统之规律的学科。
目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。
1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?
生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可 *** 作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。
生物信息学的主要研究方向: 基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学
松散含水层含水量预测模型的建立,主要是将预测松散含水层含水量问题转化为利用支持向量机求解的数学模型,主要包括如下4个步骤:
1)选取训练集T={(x1,y1),…,(xl,yl)}∈(x×y')。
2)选择适当的核函数K(x,x′),如线性核函数、径向基核函数、多项式核函数和Sigmoid核函数。
3)确定支持向量机中的参数,如C,ε,γ等。
4)建立模型。
(一)训练集的选取
1预测基本输入特征量
选取合适的训练集,对于建立松散含水层含水量预测模型是非常重要的,本课题对预测模型输入特征量的选取遵循以下原则:
1)现有物探仪器设备可测、或可转换参数,具有实用性和可观测性。
2)要与所研究地下含水层结构的综合物探方法相配套,充分挖掘所获观测数据的信息资源。
3)优化组合,兼顾所利用的输入特征量间的互补性,避免或减少冗余性。
4)保障预测模型具有广泛的推广能力。
建模时要把所有的数据分为训练集和测试集,根据训练集,求出决策函数,而用测试集测试所得决策函数的准确率。那么选择一个合适的训练集,第一要满足训练集中的样本点数量不能过多,也不能太少;第二训练集中所含特征向量不能太少,如果太少则不能够反映实际情况,影响分类或者回归的准确性,但也不能太多,否则会增加计算难度,甚至影响训练速度和时间。除了样本点多少的选择以外,还要在数据中不能选择过多的属性。属性选择要达到以下3个目的:首先是确认哪些属性与预测输出特征量相关的特性;其次是尽量降低输入空间维数,缩小求解问题的规模;最后是提高准确率,得到更好的决策函数。
基于上述原则,将支持向量机预测模型的预测输入基本特征量选定为:反演电阻率值ρ、反演含水层厚度H,半衰时Th,衰减度D,视极化率ηs,纵波速度v等地面物探观测参数作为基本输入特征量讨论。
为了验证上述输入特征量选择原则的正确性,选择了石家庄市西马庄水源地现有电测深资料与单孔单位涌水量资料并进行了秩相关性分析,原始数据见表5-1所示。分析结果如表5-2所示。
表5-1 西马庄原始数据
表5-2 西马庄电性参数与涌水量相关分析
2综合性参数的引入
鉴于第四纪含水层一般呈高阻性,在电测深反演解释过程中易产生hT等值现象的解释误差。依据含水层的富水性对应于一定的电阻率值,而单孔单位涌水量既与含水层富水性有关,又与其厚度有关。为了尽可能消除因等值现象导致解释所产生的误差,又能使输入特征量与预测量有更为密切的相关性,使预测模型具有良好的推广能力,对此,将电测深反演后的含水层电阻率与其层厚度相乘作为一个输入特征量T″,该特征量T″与含水层单孔单位涌水量相关分析结果表明,二者有更为密切的相关性,见表5-3所示。
表5-3 综合参数与涌水量相关分析
考虑到不同的地区地下水所含矿化度的不同,因其孔隙水的导电性不同,将会导致同类富水层电阻率有较大差别。为了消除孔隙水的导电性对预测精度的影响,突出含水层有效孔隙度特征,基于,ρ=αΦ-ms-nρw引入了相对综合因子参数T″,其表达式为
含水层含水量预测综合物探技术
式中:ρf为孔隙流体的电阻率;ρt为岩石的电阻率;H为含水层厚度。
从而将原基本输入特征量ρ和H组合为一个输入特征量T″。
3激发比的引入
考虑到激发比可以放大激电异常,对第四系含水层有更为灵敏的反应。因此将激电模型里的极化率、衰减度参量用激发比参量代替,其表达式为J=ηsD。由表5-4和表5-5可知,激发比的引入,改善了模型预测精度。
表5-4 未引入激发比模型预测结果
表5-5 引入激发比模型预测结果
4输入特征量的归一化
由于各输入特征量的量度差异较大,在用支持向量回归机进行建模训练和使用时,有必要对输入特征量进行归一化。归一化是指将属性数据按比例缩放,使之落入一个小的特定区域,如[-1,1]或[0,1]范围内。
归一化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属性相比,权重差距过大。本次所建模型采用最小-最大规范化方法:将输入特征量归一化到[0,1]范围内。归一化公式为
含水层含水量预测综合物探技术
式中:x为某个输入参数对应的值;xmin和xmax分别为该项特征量的设置最小值和最大值;xs为该输入参数的归一化值。
5预测输入特征量的优选
在基本预测输入特征量归一化处理的基础上,需要进一步研究特征量组合结构的优化性问题,即确定预测模型最佳输入特征量的数量和成分。
通过电测深找水实践证明:
第四纪地下含水层结构对应特定的电测深异常特征,所获取的地电参数与单孔涌水量均存在着一定的对应关系,但深入研究还表明:作为预测输入量而言,每一参量与单孔涌水量间存在着不同的相关性,输入量相互之间可能还存在着冗余成分,为提高预测模型的预测精度和模型运算速度,探讨上述地电参量与地下水单孔涌水量的相关性和输入特征量的最佳组合问题,揭示地电参数与地下含水层含水量的内在关联是十分必要的,也是确定预测模型输入特征向量的基础。
鉴于地电参数与地下含水层含水量间不存在明确的函数关系,在优化分析过程中,以石家庄市西马庄水源地的已知8眼井孔的资料为基础,将现有的已知特征量参数:T″,Th,D,ηs及激发比J作为分析对象,利用高斯径向基核函数,C=1024,ε=05,γ=10和ε-SVR模型进行7+1循环式训练-预测方式。其分析结果如表5-6所示。
由表5-6所列预测精度可得到以下结论:
表5-6 特征量的优化分析表 单位:%
第一,随着特征数量的增大,其预测精度得到提高,四个特征量预测精度最好;
第二,若采用三个特征量时,其中的T″,Th,D组合最佳,其次为T″,D,ηs。以上结论对建模时输入特征量的优化筛选提供了重要的参考依据。
6预测模型输入特征量的确定
基于上述分析,针对研究对象的尺度及精度要求,建立了4种预测模式。对于不同的预测模型,分别确定了其输入特征量。
模型一:输入特征量为含水层的反演电阻率ρ、隔水层的反演电阻率ρ隔、含水层厚度h、含水层层数n和井孔孔径φ。该模型主要用于对精度要求不高的区域水文地质调查。
模型二:输入特征量为含水层的反演电阻率ρ、隔水层的反演电阻率ρ隔、视极化率ηs、含水层的半衰时Th、含水层厚度h、含水层层数n和井孔孔径φ。该模型主要用于专门性水文地质调查。
模型三:输入特征量为含水层的反演电阻率ρ、隔水层的反演电阻率ρ隔、视极化率ηs、半衰时Th、衰减度D、含水层厚度h、含水层层数n和井孔孔径φ。该模型主要用于对精度要求较高但探测深度要求不高的地下水源评价与开发工作。
模型四:输入特征量为含水层的反演电阻率、ρ隔水层的反演电阻率ρ隔、视极化率ηs、纵波波速v、含水层厚度h、含水层层数n和井孔孔径φ。该模型主要用于对精度要求较高,探测深度较深的地下水源评价与开发工作。
(二)核函数的选择
在建立预测模型过程中,需要选择函数K(·,·),即选择一个映射φ(·),把x所在的输入空间x映射到另一个空间H。H是一个Hilbert空间,即可以是有限维空间也可以是无穷维空间。因此核函数方法的核心内容就是采用非线性变换φ将n维矢量空间中的随机矢量x映射到高维特征空间,在高维特征空间中设相应的线性学习算法,由于其中各坐标分量间的相互作用只限于内积,因此不需要知道非线性变换φ的具体形式,只要利用满足Mercer条件的核函数替换线性算法中的内积,就能得到原输入空间中对应的非线性算法。
支持向量回归机中的核函数对于预测模型的推广能力产生直接的影响,在选取核函数时,通常采用的方法有:一是利用专家的先验知识预先给定核函数;二是采用Cross-Validation方法,即在核函数选取时,分别试用不同的核函数,归纳预测误差最小的核函数就是最好的核函数。在本课题中我们采用了第二种方法进行核函数的选择。
为使确定的核函数具有最佳的预测效果,首先要对相应的核数的参数进行优化筛选。由(5-20),(5-22),(5-24)式可见,径向基核函数需要确定1个核参数,即系数γ;Sigmoid核函数需要确定2个参数,分别为:系数γ和常数r;多项式核函数需要确定3个参数,分别为:阶数d、系数γ和常数r。
在筛选过程中,将石家庄市西马庄水源地的井旁电测深成果和抽水试验数据作为研究基础,具体数据详见表5-1所示。
将其划分为两个子集,即一个训练集和一个预测验证集。由此对上述每一种核函数利用已确定的训练集进行建模参数优化筛选。具体方法为:对于径向基函数采取了交叉验证和网格搜索的方法,多项式核函数和Sigmoid核函数采用了试凑法。
试验一:径向基核函数交叉验证对石家庄西马庄水源地8眼井作试验数据,选出7个作为训练样本,一个不参加训练的样本。再将选出的7个训练样本随机分为3组,选择其中两组进行训练,另外一组作为验证,这样一个接一个,进行3次。每次验证时,尝试所有的参数对,计算其交叉校验的平均性能MSE,最后以模型在3次验证数据上的性能平均值作为这一学习参数下的模型性能,然后循环8次,从而确定最佳参数值范围。确定的搜索范围分别为C(2-10,215),ε(2-10,23),γ(2-10,210)。为了增加搜索速度,我们步长选择的是2的指数倍。最终确定参数C=1024,ε=05,γ=1。
试验二:多项式核函数试凑法
借鉴试验一的分析结果,选择参数C=1024,ε=05。在选取核参数之前,我们需要对多项式核的阶数d做出限定,选择的阶数不易过大,如阶数太大,不仅增加了学习模型的复杂性,易出现“过拟合”现象,导致SVM的推广性能降低。因此,规定d的取值不超过4。另外对γ和r做了初步筛选,圈定了其范围分别为:γ∈[1,4];r∈[01,1]。然后采用阶梯式搜索分别找出最优的阶数d、系数γ和常数r;
首先进行阶数d的选择,设定参数γ=1,r=02;从8眼井中选出7个作为训练样本,d依次选择1、2、3、4进行训练,预测那个没有参加训练的样本,循环8次然后将预测结果进行对比。本文采用两个误差指标来衡量模型的预测效果:均方误差(MSE)和平均绝对百分比误差(AMPE),其表达式分别为
含水层含水量预测综合物探技术
式中: 为预测值;xi为实测值;N为试验次数,这里N取8。
由表5-7可以看出:当d=3或d=4时,预测精度相近,但考虑到阶数越大,学习模型的复杂性越大,因此选取d=3最佳参数。
表5-7 不同阶数多项式核函数对预测结果影响统计表
然后进行系数γ选择,设定参数d=3,r=02;γ依次选择1、2、3、4进行训练,然后将预测结果进行对比,可知γ=1为最佳参数(表5-8)。
表5-8 不同γ多项式核函数对预测结果影响统计表
最后进行常数r的选择,设定参数d=3,γ=10;r依次选择02、04、06、08和1进行训练,然后将预测结果进行对比,可知r=08为最佳参数(表5-9)。
表5-9 不同r多项式核函数对预测结果影响统计表
最终确定参数d=3,γ=1,r=0。
试验三:Sigmoid核函数试凑法
选取石家庄西马庄水源地8眼井作试验数据,仍借鉴试验一的分析结果,选择参数C=1024,ε=05。
对γ和r做了初步筛选后,确定γ为01;圈定r∈[001,1]。下边对参数r进行精细选择,设定r值分别为:001、01、02、04、08,从8眼井中选出7个作为训练样本,预测样本不参加训练集,经过8次循环,通过对预测结果的对比,从而确定r=001~01时预测效果最好。分析结果如表5-10所示。
表5-10 不同rSigmoid核函数对预测结果影响统计表
核函数的选择通常采用Cross-Validation法,即在核函数选取时,分别试用不同的核函数,归纳预测误差最小的核函数就是最好的核函数。
我们将石家庄西马庄8眼井的资料与北京潮白河水源地7眼井的资料组合建立新的建模集,从中任意选出14个作为训练集样本,另外1个样本组成预测集,这样进行了8组试验,通过图5-3我们看到基于RBF核函数的预测模型预测精度最高。因此我们认为利用RBF核函数建立的含水层含水量预测模型预测效果最佳。
图5-3 三种核函数预测精度对比
(三)参数确定
采用径向基核函数所建立的模型需要确定的参数共有三个,分别为核函数参数γ,惩罚系数C和松弛变量ε。
惩罚因子C为正常数,惩罚因子C决定了对超出误差ε的样本惩罚程度。从结构风险的角度考虑,C值取得过大,问题倾向于经验最小,忽略对结构复杂程度的考虑;反之则更多地考虑了问题的复杂程度,忽略了经验数据的作用。因此可以说,C是支持向量机回归和泛化能力的平衡参数。惩罚因子C取不同的常数值,对结果有不同的影响。
由表5-11可知当C值取1024和2048时预测精度相同,说明当C大于一定值时,其变化对分析结果产生的影响变小。
表5-11 不同C值对预测结果影响统计表
通过对比试验,最终取值
(四)模型建立
构造并求解最优化问题
含水层含水量预测综合物探技术
得到最优解 每个支持值 。
构造决策函数
含水层含水量预测综合物探技术
将所求得的核函数系数、β值及b值带入5-44式,即为ε-SVR预测模型。
(x+sinx)/x
=x/x+sinx/x
=1+sinx/x
x-0,sinx/x-1
y-1+1=2
limx-0 y=2
x+sinx/x
x-0,y-0+1=1
limx-0y=1
答:两种方法极限都存在。
因为极限的定义,f(x)=x和g(x)=sinx/x的核函数
则核函数的极限值=两个分函数的极限值的和
f(x)=x是基本初等函数,在R上连续,x-0,f(x)-f(0)=0
g(x)=sinx/x是基本重要极限,
limx-0 sinx/x=1
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)