最优分割是一种与系统聚类等多元分析中的分类方法不同的、主要用于有序样品的特殊的分类方法,最优分割在对样品进行分类时,不改变各样品在样本中的先后次序,是一种带有约束条件的分类方法。
在地层和文化层研究中应用最优分割的基本思路是:
在一定的自然沉积(或文化环境)下的相同的时间段内,堆(沉)积物的地球化学(或其他)特征具有某些相似性或具有某些特有的、区别于其他自然沉拿芹键积环境(或文化环境)和其他时间段内沉积的标志。因此,可以根据堆(沉)积物的化学成分变化对地层和文化层剖面进行分层,同时能够克服地层或文化层不连续的弊病。
图消巧6-5 文化层按元素组合(4个因子的得分)的聚类分析谱系图
数字为表6-1中的层序号
将地层和文化层按形成时代排成序列,其从上至下的样品所代表的堆(沉)积物是在不同的时间间隔和不同的环境中形成的。以地球化学参数为变量的最优分割就是要对序列的各层样品,系统地比较元素地球化学分布参数在每两两层之间的接近程度,将序列分成若干段(可称为对文化层的相似性进行组合,划分“文化大层”),使分成的段内样品之间元素含量或指标的差别尽可能最小,而段与段之间的差别则尽可能最大。这种差别用“离差”(严格来讲是“离差平方和”)来衡量。离差平方和较小,反映两个层形成的环境、物质来源相似、形成时代接近;相反,两个层元素丰度或指标相差较大,则其离差平方和也较大,反映两个层的形成时代、自然(地质)和人为环境、及物质来源有较大差异。
从前述研究中我们已获初步认识:对一套无论连续与否的文化层剖面而言,岩性变化可能明显也可能不明显,但元素地球化学分布变化是明显的。然而,55项化学成首纯分和物理参数的变化纷杂,似无一定规律可循,很难在整个序列中寻找某个变量或参数来系统取值。如果将文化层地球化学的系统测试值进行恰当地归纳统计,以地球化学综合指标为变量,找出指标差异性最小的均质层段和指标差异性尽可能大异质段,就能有效划分出代表不同自然沉积环境(或文化环境)、不同沉积(文化)间断面的界限,从而达到文化和地质地层划分的目的。
各段内样品之间的差异最小枝梁。最有分割法是对有序样品的一种聚类方法。当样品是按顺序排列,在分类中不允许打破样品的顺序。即 ,对 个有序样品进行分割,就可能有2n-1种划分方法,这每一种分法称为一种分割。在所有的这些分割中,找到圆晌一种分割法,这种分割法使得各段内样品之间的差异最小,而各段猛腔运之间的差异最大。这种对 个样品分段并使组内离差平方和最小的分割方法,称为最优分割法。数据聚类分析是一种无监督的机器学习方法。数据聚类算法从算法实现的不同方式方面可以划分为结构性或者分散性两种算法类型,从计算方式而言,可以拆分为至上而下(大——小,整体到具体)和至下而上(小——大,具体到整体)两个计算方式。
系统聚类又称作层次聚类,是通过计算将距离较近的样本先聚成一类,距离较远的样本后聚成了类,通过不断计算样本之间距离,最终每个样本都能找到合适的聚簇。
从聚类的过程分析,可以将聚类划分为:
1、系统聚类:主要用于对小数据量的样本间聚类及对指标聚类。
2、逐步聚类法:也称作为快速聚类法,主要用于对大数据样本之间的聚类。
3、有序样本聚类法:用于对有序的数据样本进行聚类,将次序相邻的样本聚为一类的竖闭方法。
4、模糊聚类法:基于模糊数学的样本聚类分析方法,主要适用于小数据样本。
在聚类中,主要的距离计算方法包括:最短距离法,最长距离法,中间距离法,重心法,离差平方和法及类平均距离法,这些距离的定法包括了前面介绍过的欧式距离、马氏距离、余弦相似性等。
主要通过样本数值之间的距离计算,然后将距离值最小的样本进行合并的过程。具体步骤如下:
1、定义样本数据之间的距离计算方式。
2、计算初始样本两两余凯裂之间的距离,构成距离矩阵。
3、在距离矩阵中筛选出最小的距离值,将最小值对应的两个样本合并为一个新的样本。
4、将新的样本纳入到样本中,再次进行迭代计算距离矩阵,重复2、3步骤,直到所有的样本均合并为一个大样本。
将两个聚类中心的距离定义为两个类的重心之间的距离,而类的重心为属于该类的样本的平均值。重心的概念能够较好地体现类的属性。
利用类平均值法对数据进行聚类的方法属于动态聚类的方法,也称作逐步聚类法,大致步骤是实现通过粗粒度的方式对样本进行分类,然后再逐步调整样本所属的聚簇孙物,直到把所有样本分到合理的聚簇中。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)