一些信息论的基础和机器学习中常见的概念和解释。
一、信息熵 又 香浓熵
首先,熵 描述的是混乱程度、不确定性程度,越混乱,越不确定,熵越大,越规整,越有序,熵越小。
简单理解信息的不确定性越大,信息熵就越大,信息的不确定性越小,信息熵也就越小。
如果一个随机变量X的可能取值为
,其概率分布为
,则随机变量X的熵定义为H(X):
二、条件熵
条件熵:表示在已知第二个随机变量 X 下第一个随机变量 Y 信息熵的大小。
条件熵可以类比条件概率,他表示:在随机变量 X 的基础上我们引入随机变量 Y,假设 Y 和 X 有一定的关系。那么 Y 的信息熵会相对减小。
条件熵还是很好理解的吧!不理解吗?还是结合足球的例子,比如你知道其中一个队是铁定不会赢的了,那你要现在要猜那个队会赢,那个难度就下降了是吧,因为信息熵下降了!
条件熵 = 联合熵 - 信息熵
而知道知道条件熵之后,信息增益就很简单了,信息增益:就是:
,表示的就是条件熵和原来熵的差值。(注意:信息增益也是相对熵的一个别称,指用来描述两个概率分布X和Y差别的非对称性的度量,下面讲相对熵)
上面是信息论的基础,而信息增益也是在机器学习中有很多的应用,比如在ID3算法中,衡量最佳特征的标准就是信息增益。
三、相对熵(KL散度)
KL散度:是两个概率分布P和Q差别的非对称性的度量。
KL散度是不对称的!!!
注意:在神经网络中,很多时候需要衡量两个分布的差异,就将一个看成真实分布,一个表示模型输出分布,这样来训练模型,也就是下面的交叉熵:
交叉熵:用来衡量在给定的真实分布下,使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小。而交叉熵和相对熵的关系如下:
相对熵=交叉熵-信息熵:
相对熵和交叉熵也是一个非常重要的概念,比如机器学习中有个交叉熵损失函数,用了交叉熵的重要性质,比如在GAN模型中,KL散度也是解释GAN原理的重要基础。
四、互信息
互信息:测量训练数据中x与y的相关度。
而在机器学习中,该算法可能会使得我们选择的都是与标签y强相关的特征值,从而进行特征选择。
Desicion Tree(决策树)的IG一般是指KL散度的期望,然后正好就是互信息。
五、常用距离
之前总结过的 闵可夫斯基 以及 余弦夹角等
六、图论
图 变 度 等基本理解
七、树论
树构建、根、节点、叶节点等
领取专属 10元无门槛券
私享最新 技术干货