在信息论中,熵是对不确定性的一种度量。信息量越大,不确定性就越小,熵也就越小;信息量越小,不确定性越大,熵也越大。
根据熵的特性,可以通过计算熵值来判断一个事件的随机性及无序程度,也可以用熵值来判断某个指标的离散程度,指标的离散程度越大,该指标对综合评价的影响(权重)越大,其熵值越小。
二、熵值法步骤
1 选取n个国家,m个指标,则为第i个国家的第j个指标的数值(i=1, 2…, n; j=1,2,…, m);
2 指标的归一化处理:异质指标同质化
由于各项指标的计量单位并不统一,因此在用它们计算综合指标前,先要对它们进行标准化处理,即把指标的绝对值转化为相对值,并令,从而解决各项不同质指标值的同质化问题。而且,由于正向指标和负向指标数值代表的含义不同(正向指标数值越高越好,负向指标数值越低越好),因此,对于高低指标我们用不同的算法进行数据标准化处理。其具体方法如下:
正向指标:
负向指标:
则为第i个国家的第j个指标的数值(i=1, 2…, n; j=1, 2,…, m)。为了方便起见,归一化后的数据仍记为;
3 计算第j项指标下第i个国家占该指标的比重:
4 计算第j项指标的熵值:
其中 满足;
5 计算信息熵冗余度:
6 计算各项指标的权值:
7 计算各国家的综合得分:
[code]function [s,w]=shang(x)
% 函数shangm, 实现用熵值法求各指标(列)的权重及各数据行的得分
% x为原始数据矩阵, 一行代表一个国家, 每列对应一个指标
% s返回各行得分, w返回各列权重
[n,m]=size(x); % n=23个国家, m=5个指标
%% 数据的归一化处理
% Matlab2010b,2011a,b版本都有bug,需如下处理 其它版本直接用[X,ps]=mapminmax(x',0,1);即可
[X,ps]=mapminmax(x');
psymin=0002; % 归一化后的最小值
psymax=0996; % 归一化后的最大值
psyrange=psymax-psymin; % 归一化后的极差,若不调整该值, 则逆运算会出错
X=mapminmax(x',ps);
% mapminmax('reverse',xx,ps); % 反归一化, 回到原数据
X=X'; % X为归一化后的数据, 23行(国家), 5列(指标)
%% 计算第j个指标下,第i个记录占该指标的比重p(i,j)
for i=1:n
for j=1:m
p(i,j)=X(i,j)/sum(X(:,j));
end
end
%% 计算第j个指标的熵值e(j)
k=1/log(n);
for j=1:m
e(j)=-ksum(p(:,j)log(p(:,j)));
end
d=ones(1,m)-e; % 计算信息熵冗余度
w=d/sum(d); % 求权值w
s=wp'; % 求综合得分[\code]
测试程序:
datatxt 数据如下:
1146 11 071 850 346
553 096 04 690 300
1324 097 054 730 410
1521 104 049 770 433
1035 096 066 670 385
810 108 054 960 336
1793 088 059 890 446
298 083 049 1200 289
927 115 044 1540 300
2486 079 05 1470 483
1150 074 065 2520 453
649 059 05 1670 402
1636 085 058 2200 495
957 102 048 1600 384
1395 070 059 2170 478
899 096 039 1050 314
767 095 051 1620 341
1218 083 060 1400 401
421 108 047 1100 326
785 089 044 940 280
778 119 057 910 364
900 095 043 890 301
1006 082 059 830 456
执行代码:
[code]x=load('datatxt'); % 读入数据
[s,w]=shang(x)[\code]
运行结果:
s =
Columns 1 through 9
00431 00103 00371 00404 00369 00322 00507 00229 00397
Columns 10 through 18
00693 00878 00466 00860 00503 00800 00234 00456 00536
Columns 19 through 23
00272 00181 00364 00202 00420
w =
01660 00981 01757 03348 02254
证据权重法是加拿大数学地质学家Agterberg提出的一种地学统计方法,最初是基于二值图像的。它采用一种统计分析模式,通过对一些与矿产形成相关的地学信息的叠加复合分析来进行矿产远景区的预测。其中的每一种地学信息都被视为成矿远景区预测的一个证据因子,而每一个证据因子对成矿预测的贡献是由这个因子的权重值来确定的。
6511 先验概率
先验概率计算,即根据已知矿点分布,计算各证据因子单位区域内的成矿概率。假设研究区被划分成总体面积为T个像元单位,其中有D个矿点,则随机选取一个像元单位是矿点的概率是:
P先验=P(D)=D/T
先验几率(O)为:
西南三江中段成矿规律与成矿预测研究
图6-11 维恩图
对于任一个证据因子二值图像(图6-11),其存在区的像元数为B,不存在区的像元数为 。则已知矿点图与证据因子图的重叠部分有B∩D, , , ,其条件概率分别为
P(D/B)=B∩D/B
西南三江中段成矿规律与成矿预测研究
也就是说,证据因子的先验概率估算是计算证据因子存在区域中矿点像元、非矿点像元所占的百分比。
6512 权重
对任一个证据因子二值图像权重定义为
西南三江中段成矿规律与成矿预测研究
式中,W+、W-分别为证据因子存在区和不存在区的权重值,对于原始数据缺失区域权重值为0。
用C表示证据层与矿床(点)证据层的相关程度,C定义为
C=W+-W-
6513 后验概率
证据权重法要求各证据因子之间相对于矿点分布满足条件独立。对于n个证据因子,若它们都关于矿点条件独立,后验几率对数为
西南三江中段成矿规律与成矿预测研究
后验几率表示为
西南三江中段成矿规律与成矿预测研究
后验概率为
P后验=O后验/(1+O后验)
对于证据权,为了便于解释预测(证据)图通常采用二态赋值形式。应用地质判断或统计方法能够将这种形式主观地转换成其他形式以确定临界值,其临界值能够最大限度地揭示二态赋值图成果模式与数据模型的空间组合关系。证据权法最终结果是以权的形式或以后验概率图的形式表达的组合图。证据权法的优点在于权的解释是相对直观的,并能够独立的确定,易于产生重现性。该方法亦适用于获取局部特征和区域模型的信息(如地球化学和地球物理异常)。
6514 条件独立性检验
在计算后验概率时,假设了各个证据权因子都关于矿点条件独立。下面简单的“冗余度”的例子表明,证据权法模拟对于条件独立性的违背是敏感的。假设二元图A有正权值W+(A)=2,且其模式与图层B一致。它也遵循W+(B)=2。例如,当追踪元素的等值线图被用来预测与追踪元素相关的矿床出现时,这种情况可能会发生。
在A和B都存在的地方,证据权法的应用将产生很大的后验分对数值。当单元格面积很小时,意味着相应的后验概率为应该的值e2=74。很明显,这种情况在实际应用中应该被避免。
过去,两种条件独立性检验被应用于:①偶然性表格检验;②全面或综合检验,为更好地拟合,该检测由Kolmogorov-Smirnov检验作补充。如果在实际的应用中,一个或更多的检验失败了,可以定义新类型的图层,使得存在可由新的条件独立性检测验证的近似条件独立性。在前面所举的有相互关系的追踪元素的图层的例子中,追踪元素可以被组合成一个指数,例如,通过因素分析,与其他的条件独立的图层结合之前,条件独立性元素,多图层元素。
(1)偶然性表格检验
根据可作最佳拟合的秩平方检验和G2检验,可以估计A和B图层的条件独立性。表6-2是一对二元变量XI(I=A,~A)和XJ(J=B,~B)(见前一部分)的观测频率和期望频率的2×2偶然性图表。在假设单元格面积足够小时,表中所有的频率与单元格大小无关。
表6-2 2×2条件性独立检验的偶然性图表
在秩平方检验中,当连续校正时,观测频率只发生微小的改变。这个著名的细化过程包括:小于期望频率的观测频率加05,大于期望频率的减05。这可以通过增加素数作为上标进行校正计算。
西南三江中段成矿规律与成矿预测研究
如果两个二元变量是条件独立的,这种检验统计可以被看作具有一个单自由度χ2。不同的检验统计被用在G2检验中,但是这两种检验通常产生相似的结果。
前述的检验理论和它对离散多元统计的扩展应用在包括Bishop et al(1975)的许多书中都提到过。多图层间的内在相互关系可以在模型对比中进行研究。然而,应该记住,在检验统计的结果中,图层只有在接近矿点的地方才被考虑。因此,秩平方自由度的数量是1而不是(2×2×2)偶然性图表中的2。在离散多元分析非空间的应用中,该现象出现在两个二元变量进行关于第三个二元变量的条件独立性检验中(Agterberg,1992)。
(2)全面“综合”检验
证据权法模型的最终结果是一个后验概率图。如果考虑二元模式p,且没有丢失数据,有相同后验概率的单位像元属于可能条件2p中分类。假设T代表研究区所有单位像元的后验概率的总和。理想状况下,T应该等于n,n代表矿床的总数量。在实际的应用中,T通常大于n,可以假定T>n是由于图层缺乏条件独立。这就是条件独立的全面或所谓的“综合检验”(Kemp et al,1999)的基本原理。例如,在Bonham-Carter(1994),指出T大于n不应超过15%。
分配给后验概率的累计频率分布服从于Kolmogorov-Smirnov检验。这种检验通常应用于最大观测和期望累计频率都等于0的情况下。如果频率分布统计模型正确的话,计算出的和观测的累计频率最大差值的绝对值应该不超过从统计表得到的Kolmogorov-Smirnov检验的统计值。
在证据权法的应用中,Agterberg et al(1993)在用n差分了所有累计频率之后进行了Kolmogorov-Smirnov检验。在证据权法中,在唯一条件下——最大后验概率,最大差值通常等于(T/n-1)。这是因为在研究区中,唯一条件——最大后验概率,通常在所有考察的图层是正权。如果两个或更多的图层无条件独立性,在本节开头的那个所举的冗余度的例子中结果则被估计过高。我们并不知道在那种情况下,Kolmogorov-Smirnov检验统计可应用的范围。
假设T表示一个所有后验概率的总和的随机变量,在Kolmogorov-Smirnov检验被应用于累计频率乘以n/T 之前,第一次检验假设 ET=n 是很有效果的。在允许 KolmogorovSmirnov检验应用的情况下这种校正将使最大差值等于0。这种过程只有在条件独立假设被接受的情况下才可以被使用。
(3)新条件独立检验
对于单图层A,当A存在时,二元随机变量XI(I=A,~A)产生后验概率EXA=P(d|A)=nA/NA,当A缺失时,后验概率EX~A=P(d|~A)=(NA-nA)/NA。T的期望值表示在研究区内满足的所有后验概率之和:
ET=NAEXA+N~AEX~A=NAP(d|A)+N~AP(d|~A)
其中,ET=NA{nA/NA}+N~A{n~A/N~A}=n
方差是
如果两个图层上具有矿床的条件独立性,下面的源自两个二元模式A和B的四个后验概率之和是正确的:
ET=NABP(d|AB)+NA~BP(d|A~B)+N~ABP(d|~AB)+N~A~BP(d|~A~B)
=nAB+nA~B+n~AB+n~A~B=n
西南三江中段成矿规律与成矿预测研究
通常,如果满足(I=A,~A;J=B,~B;K=C,~C;…)的二元图层P上矿床具有条件独立性,构成NIJK…P(d|IJK…)=nIJK条件2p的总和为ET=n。相应的方差是型 的所有可能形式的总和。
通常,所有后验概率的和T大于n,条件独立的假设等于ET=n假设。由于估计σ2(T)可以很好的得到使得这一假设可以被检验。
理论上,对于非条件性独立的图层,T可能小于N。然而,由于图层因被确信可以提供矿床存在的正指示而被从第一个场所选取,使得在实际中这种情况通常不大可能继续发生。这种指示类型对矿床出露更可能具有正相关性而不是负相关性。
基于此,应该使用单侧重要性检验。当表示T标准偏差的s(T)显著小于T本身,可以假设T近似为常态。为了接受这种条件独立假设,T-n的差分小于1645·s(T)的概率是95%,或者小于233·s(T)的概率是99%。
6515 信息量计算法及其与证据权重法的比较
信息量计算法也属于统计分析方法。该方法应用于区域矿产预测,是由EB维索科奥斯特罗夫斯卡娅(1968)及NN恰金(1969)先后提出的。赵鹏大等于20世纪80年代应用该方法进行矿床统计预测并取得了良好效果。进行预测的基本步骤与证据权重法类似。首先,计算各地质因素、找矿标志所提供的找矿信息量,定量地评价各地质因素和标志对指导找矿的作用;其次,计算每个单元中各标志信息量的总和,其大小反映了该单元相对的找矿意义,用以评价找矿远景区进行预测。其基本原理和方法如下:信息量计算法用信息量的大小来评价地质因素、标志与研究对象的关系密切程度,信息量的物理意义与证据权重法中的权重相同,只是计算公式有所不同:
西南三江中段成矿规律与成矿预测研究
式中:I为A标志j状态提供事件B(有矿)发生的信息量;P(B/A)为A标志j状态存在条件下事件B实现的概率;P(B)为事件B发生的概率。根据概率乘法定理,上式可变为
西南三江中段成矿规律与成矿预测研究
具体计算时,总体概率用样本频率来估计:
西南三江中段成矿规律与成矿预测研究
式中:Nj为具有标志值Aj的含矿单元数;N为研究区中含矿单元总数;Sj为标志值Aj的单元数;S为研究区单元总数。
然后计算每个单元中各标志信息量的总和,其信息量总和的意义与证据权重法中后验概率的意义大致相同,即反映各单元相对找矿远景区大小。
最后,根据单元信息量的大小,提出找矿远景区。
由于两种模型均是从条件概率理论出发,所得的结果自然相似,只不过后来发展起来的证据加权模型更加精细。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)