参考通俗理解决策树算法中的信息增益
说到决策树就要知道如下概念:
假如双十一我要剁手买一件衣服,但是我一直犹豫着要不要买,我决定买这件事的不确定性(熵)为2.6。
我在看了这件衣服的评价后,我决定买衣服这件事的不确定性是1.2。 我在线下实体店试穿衣服后,我决定买衣服这件事的不确定性是0.9。
上面条件熵给出了两个: 一个是看了网上的评价,此时的信息增益是\(Gain_1 =2.6-1.2=1.4\)。 另一个是线下试穿了衣服,此时的信息增益 \(Gain_2=2.6-0.9=1.7\)。
很显然我在线下试穿衣服之后对于决定买这件衣服的不确定度下降更多,更通俗的说就是我试穿衣服之后买这件衣服的可能性更大了。所以如果有看买家评价和线下试穿两个属性,首先应该选择线下试穿来构建内部节点。
信息熵计算公式