您现在的位置是：首页 > 其它

当前栏目

信息熵和基尼系数_信息熵和基尼系数

基尼系数信息熵

2023-06-13 09:14:42 时间

一、基尼系数是什么？

1)定义

下面是摘自李航《统计学习方法》中基尼系数的定义，非常清晰。

2)基尼系数有什么意义？ 我们可以先来看一组数据

由上图我们可以观察到，类别的个数是方案一(2个) < 方案三(3个) < 方案四(4个) ，基尼系数为方案一 < 方案三 < 方案四；而方案一和方案二类别个数相同，但方案一的类别集中度比方案二要高，而基尼系数为方案一 < 方案二

基尼系数的特质是：

1) 类别个数越少，基尼系数越低;

2)类别个数相同时，类别集中度越高，基尼系数越低。

当类别越少，类别集中度越高的时候，基尼系数越低；当类别越多，类别集中度越低的时候，基尼系数越高。

【类别集中度是指类别的概率差距，0.9+0.1的概率组合，比起0.5+0.5的概率组合集中度更高】

二、熵 1）熵是什么？ 下面是摘自李航《统计学习方法》中熵的定义。

2）怎样理解熵的意义？ 我们可以先来看一组数据

可以看到，这幅图跟基尼系数的图是差不多的。也就是熵和基尼系数都有着类似的特质，它们都可以用来衡量信息的不确定性。

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/183334.html原文链接：https://javaforall.cn