AI说人“画” | 惊!可以用“随机森林”治疗选择恐惧症

大数据文摘力荐!原创小视频【AI说人“画”】系列。用轻松的手绘方式,讲清楚一些有趣的AI概念。

我们有号称所有聪明人中最酷的那个小姐姐!用灵魂手绘和欢脱语言,来和你聊聊最枯燥的理论!请收看5分钟中文小视频节目▼

视频内容

hello大家好,我是Vicky,今天我们来聊聊“随机森林”~

某一天,小红想看个电影,但是她不确定自己会不会喜欢这个片子,于是她问她的朋友小明意见,小明先是一脸懵,但是因为小红长得好看所以决定....帮帮她吧

因为小明对她的口味也不是很了解,所以他先给了小红一些电影和电视剧,看看小红是不是喜欢 ——这些就是被标记的“训练数据集”。

比如,她喜不喜欢看《使徒行者》,喜不喜欢看《法证先锋》等等。随后,小红也反馈一些信息,比如她问,《使徒行者》是不是林峰演的? 《法证先锋》是不是警匪剧呀?

她先问的就是在她看来信息量最大的问题 (最大化每个问题的信息增益)综合这些问题之后给出一个“喜欢”或者“不喜欢”的答案。

此时,小明就是小红的决策树。

但是就算小明再聪明,小明也只是一个人,也是太主观,所以说有可能过拟合。 于是,小红又问了小绿、小黄和小兰,请他们一起投票决定小红是否喜欢某部电影,这时,小红就建立了一个集成分类器,这种情况叫“森林”。

对,是“森林”

但是小红她不想问所有朋友一样的问题,她想给自己的模型增加点儿多样性,以免大家给她相同的答案。

所以她给小黄、小蓝和小绿各自的信息都是不一样的。毕竟她就是因为不清楚自己的喜好 才问大家的——她告诉小蓝她喜欢《爱情公寓》,可是原因可能有很多种,因为演员或者单纯觉得剧情好玩……所以她的朋友们肯定不能仅仅根据她喜欢《爱情公寓》这个事儿来给她建议。

她告诉小绿她喜欢《霸王别姬》,因为她既喜欢张国荣,又喜欢剧情,总之就是真爱。所以这时候,权重就应该多一点

总而言之,就是不能让小红的朋友们得到与小明相同的数据,而是给他们稍加扰动的版本。(你给每个朋友一个原始训练数据bootstrap抽样后的版本)。

再拿网易云音乐的推荐举例。

= =怎么还是小红

我特别喜欢粤语歌,尤其是古巨基和张敬轩和侧田的,我也想要一些类型相近的但是不限于他们三个的歌儿。所以,我就不收藏他们,但是多赞一些他们的歌,这样呢,当网易云音乐给我推荐到不是他们三的歌的时候,我再点开相似推荐,就可以有越来越多的相近类型,但是不拘泥于几个歌手的歌了~(?)

利用刚才说的这种集成方法,小红希望她的每个朋友都有些特别的建议——小蓝认为她真心更喜欢《爱情公寓》,小绿认为她喜欢王宝强的电影,小黄认为她什么都不喜欢看,就是逗他们玩……

这样很多的误差都成功被抹掉了。因此,小红的朋友现在形成了一个她电影偏好的装袋(bootstrap aggregated)森林。

然而还有一个问题:比如小红喜欢看古惑仔,可能真不是因为她喜欢郑伊健,也许由于是喜欢陈小春或者是其他原因她自己也不知道。

所以,她并不想要她的朋友们都基于一部电影中有没有郑伊健而给出建议。于是当每个朋友问她问题的时候,问的问题是从全部问题里随机选取的子集,当在建立决策树时,在节点选择分裂属性时加入一些随机性,

也就是说随机选择某些属性,或者在随机选择的子集里面选择属性。这个例子里面就是说,小红的朋友不能问某个电影里面有没有郑伊健这个问题,因此咱们之前给数据层面注入了随机性,现在在模型层面也注入了随机性~

好了,现在小红的所有朋友们就形成了一个随机森林。

所以“随机森林”就是样本抽样(行抽样)+ 特征抽样(列抽样)的树的集合。

小红终于满意了

注:本来呢这期做的是《人的审美从何而来》,也就是上次大家的投票结果。不过今天收到一些反馈说是很多童鞋想要一些“AI说人画”的模型算法视频,所以临时改的这个,准备得比较仓促~(嗯,看出来了哈哈哈哈哈……小编被痛扁ing)

谢谢大家 么么哒~

内容策划及主播:凉亮

监制:Sophie,魏子敏

后期:郭丽(终结者字幕)

文案:韩蕊

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2017-10-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏顶级程序员

Python自动生成表情包

源 / 创业智库 文 / 唐一 作为一个数据分析师,应该信奉一句话----"一图胜千言"。不过这里要说的并不是数据可视化,而是一款全民向的产品形态----表情...

52080
来自专栏新智元

【强化学习炼金术】李飞飞高徒范麟熙解析强化学习在游戏和现实中的应用

来源: 心有麟熙 作者: Jim 范麟熙 编辑:张乾 【新智元导读】斯坦福大学博士生、师从李飞飞教授的Jim Fan(范麟熙)以轻松有趣的方式介绍了强化学习和游...

47580
来自专栏新智元

【黄铁军】“类脑计算”以神经形态器件构造电子大脑

【新智元导读】以类似结构将产生类似功能为假设,“类脑计算”以神经形态器件构造电子大脑,绕过“理解智能”,专注“模拟智能”,或将颠覆现有计算模型并有助于弄清何为“...

372100
来自专栏AI科技大本营的专栏

最近比较火的10篇大数据文章,看看你错过了哪篇?

翻译 | AI科技大本营(rgznai100) 参与 | Shawn Sicara团队精挑细选,了10篇在今年7月发表的大数据相关文章(Sicara是一家从事A...

36660
来自专栏IT派

一个很皮的实践 Python自动生成表情包

作为一个数据分析师,应该信奉一句话----"一图胜千言"。不过这里要说的并不是数据可视化,而是一款全民向的产品形态----表情包!!!!

21500
来自专栏AI科技大本营的专栏

谷歌大脑深度学习从入门到精通视频课程[9.9]:计算机视觉——数据扩展

AI100 已经引入 Hugo Larochelle 教授的深度学习课程,会在公众号中推送,并且对视频中的 PPT 进行讲解。课后,我们会设计一系列的问题来巩...

37370
来自专栏数据冰山

听说,SuperMajor,血魔和兽王更配哦

为什么要借用这个句式?因为本文要讨论的是——在刚刚结束的「中国DOTA2超级锦标赛」上,职业队选择的英雄之间,是否存在有价值的关联关系?这些英雄组合的胜率如何?

10420
来自专栏新智元

华中科大骆清铭:开启“脑空间信息计划”,连接脑科学与类脑人工智能

【新智元导读】华中科技大学(苏州)脑空间信息技术研究院启动在即,旨在使工业级高分辨率脑图成为神经科学的标准工具。这一项目由华中科技大学生物医学成像研究者骆清铭领...

49770
来自专栏张红林的专栏

机器学习入门书籍简介

在AIclub看到一篇机器学习入门的文章,回想自己磕磕碰碰走过的弯路,颇有感触,因此对自己从懵懂到稍稍入门过程中看过的教程做一个简单的介绍,希望帮到后来人。

4.6K30
来自专栏新智元

MIT非视线成像“透视相机”:隔墙观物、影中窥人!

2012年,MIT计算机视觉科学家安东尼奥·托拉尔巴(Antonio Torralba)在西班牙海岸度假时,发现他酒店房间墙壁上的杂散阴影似乎不是由任何东西投射...

19950

扫码关注云+社区

领取腾讯云代金券