什么是信息熵?_生活百科

什么是信息熵?

[拼音]：xinxishang

[外文]：information entropy

信源的平均不定度。在信息论中信源输出是随机量，因而其不定度可以用概率分布来度量。记 H(X)＝H(P1，P2，…，Pn)＝

P(xi)logP(xi)，这里P(xi)，i＝1，2，…，n为信源取第i个符号的概率。

P(xi)=1，H(X)称为信源的信息熵。

熵的概念来源于热力学。在热力学中熵的定义是系统可能状态数的对数值，称为热熵。它是用来表达分子状态杂乱程度的一个物理量。热力学指出，对任何已知孤立的物理系统的演化，热熵只能增加，不能减少。然而这里的信息熵则相反，它只能减少，不能增加。所以热熵和信息熵互为负量。且已证明，任何系统要获得信息必须要增加热熵来补偿，即两者在数量上是有联系的。

可以从数学上加以证明，只要H(X)满足下列三个条件：

（1）连续性：H(P，1－P)是P的连续函数(0≤P≤1)；

（2）对称性：H(P1，…，Pn)与P1，…，Pn的排列次序无关；

（3）可加性：若Pn＝Q1+Q2＞0，且Q1，Q2≥0，则有H(P1，…，Pn-1，Q1，Q2)＝H(P1，…，Pn-1)+PnH

；则一定有下列唯一表达形式：

H(P1，…，Pn)＝-C

P(xi)logP(xi)

其中C为正整数，一般取C＝1，它是信息熵的最基本表达式。

信息熵的单位与公式中对数的底有关。最常用的是以2为底，单位为比特(bit)；在理论推导中常采用以e为底，单位为奈特(Nat)；还可以采用其他的底和单位，并可进行互换。

信息熵除了上述三条基本性质外，还具有一系列重要性质，其中最主要的有

（1）非负性：H(P1，…，Pn)≥0；

（2）确定性：H(1，0)＝H(0，1)＝H(0，1，0，…)＝0；

（3）扩张性：

Hn-1(P1，…，Pn-ε，ε)＝Hn(P1，…，Pn)；

（4）极值性：

P(xi)logP(xi)≤

P(xi)logQ(xi)；

这里

Q(xi)＝1；

（5）上凸性：

H[λP +(1-λ)Q]＞λH(P)+(1-λ)H(Q)，

式中0＜λ＜1。

最简单的二元信源的信息熵性质如图所示。

当实际信源用随机序列X来表示时，它的熵可以直接推广为：

。但对连续信源则不能进行类似的推广。因为这样就必然会出现无限大量。1948年C.E.仙农建议用概率密度p(x)来定义H(X)，

这样定义的熵虽然仍具有可加性等熵的主要性质，但已不具有非负性，因此也不再代表连续信源的信息量。但由于在大量实际问题中需要的仅是两个熵的差值，这时它仍具有信息量特征的非负性。因此，连续熵H(X)具有相对性，又称为相对熵。它与力学中的势能概念相仿。

从理论上看，仙农对连续熵H(X)的定义是不完善的。1951年S.库尔伯克研究信息论在统计学中的应用时，引入了信息变差的概念。从一种概率密度p0(x)转移到另一种概率密度p(x)的信息变差I(p0，p)为

其中要求p(x)对p0(x)绝对连续。

若P0(x)是具有最大熵H0(X)的概率分布，则信息变差I(P0，P)=H0(X)-H(X)，所以一般情况下的信息熵H(X)可表示为:H(X)=H0(X)-I(P0，P)。即信息熵可理解为最大熵与信息变差之间的差值。由于它对离散熵和连续熵都适用，从信息变差出发就能使离散熵和连续熵有统一的含义，并可以使连续熵的定义建立在更为合理的基础上。

参考书目

Foundations of Information Theory

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/bake/4715259.html

什么是信息熵?

发表评论

评论列表（0条）