急求助:香农(信息)熵的计算~

急求助:香农(信息)熵的计算~,第1张

1948 年,香农提出了“信息熵” 的概念,所以叫香农熵。
香农不是用钱,而是用 “比特”(bit)这个概念来度量信息量。 一个比特是一位二进制数,计算机中的一个字节是八个比特。在上面的例子中,这条消息的信息量是五比特。 信息量的比特数和所有可能情况的对数函数 log 有关。 (log32=5, log64=6。)
对于任意一个随机变量 X,它的熵定义如下:
变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。
有了“熵”这个概念,我们就可以回答本文开始提出的问题,即一本五十万字的中文书平均有多少信息量。我们知道常用的汉字(一级二级国标)大约有 7000 字。假如每个字等概率,那么我们大约需要 13 个比特(即 13 位二进制数)表示一个汉字。但汉字的使用是不平衡的。实际上,前 10% 的汉字占文本的 95% 以上。因此,即使不考虑上下文的相关性,而只考虑每个汉字的独立的概率,那么,每个汉字的信息熵大约也只有 8-9 个比特。如果我们再考虑上下文相关性,每个汉字的信息熵只有5比特左右。所以,一本五十万字的中文书,信息量大约是 250 万比特。如果用一个好的算法压缩一下,整本书可以存成一个 320KB 的文件。如果我们直接用两字节的国标编码存储这本书,大约需要 1MB 大小,是压缩文件的三倍。这两个数量的差距,在信息论中称作“冗余度”(redundancy)。 需要指出的是我们这里讲的 250 万比特是个平均数,同样长度的书,所含的信息量可以差很多。如果一本书重复的内容很多,它的信息量就小,冗余度就大。

我也不知,不过。已经存在的某知识,想知道的话,搜索其实是最好的方法。香农编码方针:1。把概率从大到小排列
2。按照编码的进制数(如2进制)把概率分组,使每组的概率之和接近或相等
3。给每组分配码元
4。把每个分组按同样方针划分,重复2,3,直到不能再分
5。读数时从左到右

香农第三定理(保真度准则下的信源编码定理)
设R(D)为一离散无记忆信源的信息率失真函数,并且有有限的失真测度D,则对于任意的D≥0,ε>0,以及任意长的码长n,一定存在一种码字个数为M≥2n[R(D)+ε]的信源编码,使编码后的平均失真度
表述二:
设R(D)为一离散无记忆信源的信息率失真函数,并且规定了有限的失真测度,对于任意的D≥0,ε>0,则:
1)若给定失真D,且R’=logM/n≥R(D),则存在长度为N的码,它的平均失真度;(正定理)
2)若R’


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/12930814.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-29
下一篇 2023-05-29

发表评论

登录后才能评论

评论列表(0条)

保存