3分钟学用决策树预测客户是否买电脑

在北京喝白开水都特别的开心

单枪匹马你别怕,一腔孤勇又如何,

这一路你可以苦,但不能怂,

总得熬过无人问津的日子,

才能迎来成功的和鲜花。

活着,

不是靠泪水博得同情,

而是开汗水赢的掌声。

2018 · 8 · 北京

买电脑?or 不买 AL神预测

什么是决策树/判定树(decision tree)?

判定树是一个类似于流程图的树结构:其中,每个内部结点表示在一个属性上的测试,每个分支代表一个属性输出,而每个树叶结点代表类或类分布。树的最顶层是根结点。

机器学习中分类方法中的一个重要算法构造决策树的基本算法

树叶

这里就要提到熵(entropy)概念啦,有兴趣的同学也可以参看考研408试题,难度是有滴,但是痛苦过后的收获还是蛮大的。

对于上诉表格的信息如此抽象,如何度量?

1948年,香农提出了 ”信息熵(entropy)“的概念

一条信息的信息量大小和它的不确定性有直接的关系,要搞清楚一件非常非常不确定的事情,或者是我们一无所知的事情,需要了解大量信息==>信息量的度量就等于不确定性的多少

例子:猜最近刚过去的世界杯冠军,假如一无所知,猜多少次?

每个队夺冠的几率不是相等的

咋们用比特(bit)来衡量信息的多少

pi是第i个队的夺冠的概率,当pi均为1/12时,是6,否则均小于6。

变量的不确定性越大,熵也就越大

决策树归纳算法 (ID3)

选择属性判断结点

信息获取量(Information Gain):Gain(A) = Info(D) - Infor_A(D)(没有的信息量加上按A来分的信息量)

通过A来作为节点分类获取了多少信息

买电脑两种情况,买与不买,14种情况当中,9中买,5不买,所有信息结果是在0~1内哈,别计算发错啦!具体参考本科教材《计算机网络》

年轻人当中个5个2买,3不买

类似,Gain(income) = 0.029, Gain(student) = 0.151, Gain(credit_rating)=0.048

所以,选择最大的age作为第一个根节点

其他算法

C4.5: Quinlan

共同点:都是贪心算法,自上而下

区别:属性选择度量方法不同

树剪枝叶

小时候家里有桃园,爸爸每年早春都会对桃树的枝蔓进行修剪一番,在这里,我们依然可以利用仿生学原理,当然不是我啦,多感谢有一群默默为IT奋斗的学术研究者

为了避免overfitting, 如果长的这个数,叶子太大,训练比较好,但是分的情况太细化,新数据就不好了

决策树的特点

直观,便于理解,小规模数据集有效

处理连续变量不好

类别较多时,错误增加的比较快

可规模性一般

明日推文,利用Python对已有数据进行机器训练,然后将一个陌生人的输入输入,让自己自动识别,预测是否买电脑,预知后事如何,赶快关注把!明晚8点与你不见不散。

码龙社

一个有趣,有料,专注于传播技术,以技术会天下IT的公众号

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180817G09AGB00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券