信息熵 Information Entropy
信息熵用于描述信源的不确定度, 即用数学语言描述概率与信息冗余度的关系.
C. E. Shannon 在 1948 年发表的论文A Mathematical Theory of Communication中指出, 任何信息都存在冗余, 冗余大小与信息中每个符号(数字, 字母或单词)的出现概率或者说不确定性有关. Shannon 借鉴了热力学的概念, 把信息中排除了冗余后的平均信息量称为信息熵, 并给出了计算信息熵的数学表达式.
一个信源发送出什么符号是不确定的, 衡量它可以根据其出现的概率来度量: 概率大出现机会多, 则不确定性小; 反之则不确定性就大.
不确定性函数f是概率P的减函数, 两个独立符号所产生的不确定性应等于各自不确定性之和, 即f(P1,P2)=f(P1)+f(P2), 这称为可加性, 同时满足这两个条件的函数f是对数函数, 即
$ f(P) = \log \frac{1}{P} = -\log P $
在信源中, 考虑的不是某一单个符号发生的不确定性, 而是要考虑这个信源所有可能发生情况的平均不确定性. 若信源符号有n种取值: U1, ... Ui, ...Un, 对应概率为 P1, ... Pi,... Pn, 且各种符号的出现彼此独立, 此时信源的平均不确定性应当为单个符号不确定性-logPi的统计平均值(E), 可称为信息熵, 即
$ H(U) = E\left [ -\log p_i \right ] = -\sum_{i=1}^{n}p_i\log p_i $
式中对数一般取2为底, 单位为比特. 也可以取其它对数底, 采用其它相应的单位, 可用换底公式换算.
信息的基本作用就是消除人们对事物的不确定性, 信息熵就是一个在博弈对局中信息混乱的现象. 当32个球队夺冠概率相同(即最混乱)时, 对应的信息熵等于五比特. 可以证明当n=32时信息熵公式的值不可能大于5.
信息熵是信息论中用于度量信息量的一个概念, 一个系统越是有序, 信息熵就越低; 反之, 一个系统越是混乱, 信息熵就越高. 所以信息熵也可以说是系统有序化程度的一个度量.
熵的概念源自热物理学
假定有两种气体a, b, 当两种气体完全混合时, 可以达到热物理学中的稳定状态, 此时熵最高. 如果要实现反向过程, 即将a, b完全分离, 在封闭的系统中是没有可能的. 只有外部干预, 也即系统外部加入某种有序化的东西(如能量), 使得a, b分离. 这时系统进入另一种稳定状态, 此时信息熵最低. 热物理学证明: 在一个封闭的系统中, 熵总是增大, 直至最大. 若要使系统的熵减少(使系统更加有序化), 则必须有外部能量的干预.
信息熵的计算是非常复杂的, 而具有多重前置条件的信息, 更是几乎不能计算的, 所以在现实世界中信息的价值大多是不能被计算出来的. 但因为信息熵和热力学熵的紧密相关性, 所以信息熵是可以在衰减的过程中被测定出来的. 因此信息的价值是通过信息的传递体现出来的, 在没有引入附加价值(负熵)的情况下, 传播得越广流传时间越长的信息越有价值. 在传播中是指信息的不确定性, 一则高信息度的信息熵是很低的, 低信息度的熵则高. 具体说来, 凡是导致随机事件集合的肯定性, 组织性, 法则性或有序性等增加或减少的活动过程, 都可以用信息熵的改变量这个统一的标尺来度量.
相关文章
- 在 Go 里用 CGO?这 7 个问题你要关注!
- 9款优秀的去中心化通讯软件 Matrix 的客户端
- 求职数据分析,项目经验该怎么写
- 在OKR中,我看到了数据驱动业务的未来
- 火山引擎云原生大数据在金融行业的实践
- OpenHarmony富设备移植指南(二)—从postmarketOS获取移植资源
- 《数据成熟度指数》报告:64%的企业领袖认为大多数员工“不懂数据”
- OpenHarmony 小型系统兼容性测试指南
- 肯睿中国(Cloudera):2023年企业数字战略三大趋势预测
- 适用于 Linux 的十大命令行游戏
- GNOME 截图工具的新旧截图方式
- System76 即将推出的 COSMIC 桌面正在酝酿大变化
- 2GB 内存 8GB 存储即可流畅运行,Windows 11 极致精简版系统 Tiny11 发布
- 迎接 ecode:一个即将推出的具有全新图形用户界面框架的现代、轻量级代码编辑器
- loongarch架构介绍(三)—地址翻译
- Go 语言怎么解决编译器错误“err is shadowed during return”?
- 敏捷:可能被开发人员遗忘的部分
- Denodo预测2023年数据管理和分析的未来
- 利用数据推动可持续发展
- 在 Vue3 中实现 React 原生 Hooks(useState、useEffect),深入理解 React Hooks 的