前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据变现十日谈之五:归纳和认知

大数据变现十日谈之五:归纳和认知

作者头像
刀刀老高
发布2018-04-11 10:30:35
5780
发布2018-04-11 10:30:35
举报
文章被收录于专栏:奇点大数据奇点大数据

记得不止一次和一些做大数据和机器学习的朋友讨论过关于归纳和认知的观点。

在机器学习这个领域听过这样的声音,就是大家普遍觉得基于统计的机器学习和大数据加工方法要比神经网络LOW。或者说只有神经网络才是真的机器学习,其余的基于统计的方法都是伪机器学习。

这个观点是否正确我们暂时先不要着急负荷或者推翻,我们先看看人类自己的归纳和认知究竟是怎样完成的。

人类是怎么认识世界的?简单说就是观察和归纳,或者干脆就用归纳一个词就能代替。

当第一批脊椎动物不知从什么时候变成类人猿,或者变成拥有一定归纳意识的古猿的时候,它们如何认知世界?当时肯定是没有现代化的学校和教学体系的,这点毋庸置疑。当它们看到天上乌云翻滚然后很可能之后就是大雨倾盆的时候,它们自然会将“乌云翻滚”和“大雨倾盆”做一个逻辑关联。可是我们也知道,有时候纯粹是光打雷不下雨,那也就是说“乌云翻滚”之后还有一定概率是“大雨倾盆”只不过这种概率比响晴白日的情况下大雨倾盆的概率要大得多得多。能够量化对这件事进行描述甚至预测的方法就是贝叶斯方法了。这就是一种典型的且朴素的基于统计的认知,只不过类人猿很可能不会有量化进行科学统计的方法罢了。

冰是不可以燃烧的,但是有一种高压下形成的由甲烷和水形成的晶体却可以被引燃氧化。我们做一个极端的假设,如果在自然界中,早就已经存在这两种物质并同等概率地出现在人类的面前,人类会得到怎样的结果?世界上有一半的冰可以燃烧,而有一半的冰不能燃烧。教科书上会怎么写?冰有一部分可以燃烧,有一部分不可以燃烧,原因不详。没办法,因为在化学体系还没有建立或者人无法从其它层面区分两者的时候,这种认知我们至少不能认为是错的,因为被我们观察到的事实也确实如此,直到我们能从别的角度分清两种冰本是两种不同的物质。人类在从蒙昧到发达的进化过程中,在不停地经历这样的阶段,从认知不清晰到逐步清晰,也就是逐步丰富了输入样本向量的维度。

在我们使用贝叶斯方法、决策树、支持向量机等各种机器学习的方法的过程中,统计是贯穿始终的。而用来描述方法好坏也有两个重要的指标就是召回率和准确率,这两个指标也是基于样本分类结果统计而来,这和人类本身的认知观点也是一致的。人类中的专家也好,学者也罢,或者是行业中的大牛们,他们在进行事情的认知和判断上虽然说比常人要优秀很多,但是同样存在召回率和准确率的问题。机器学习中的召回率和准确率可以拿来跟专家和常人做一个比较,我们可以粗略地认为,只要机器学习中的召回率和准确率与常人相仿佛就可以基本通过图灵测试,只要和专家接近就可以被认定为智能专家系统。评价方法很简单,就是基于统计的召回率和准确率。如果机器在某个生产场景中召回率和准确率的方面已经超过常人,并且成本比常人要低,那么在这个分支机器会有非常明显的优势取代常人。或者我们同样可以认为这个是在常人和机器的性价比权衡的问题,比较的方法就是去衡量机器取代人后的机器成本和误判造成的损失成本有否整体降低,原则很简单。

再回过头来说神经网络,神经网络是靠多次迭代进行超平面权值调整的,迭代的终极目标是什么?当然还是召回率和准确率的问题,在这个点上神经网络与其它“传统”的机器学习算法并无二致。

而这些机器学习的方法归根结底和人类认知的方法是一致的,那就是基于统计的方法,用统计和概率来进行认知量化描述从而取代“极少是”、“一部分是”、“将近一半是”、“大多是”、“绝大部分是”、“几乎全是”这样的比率描述词汇。我想这可能就是大数据与数据科学的魅力所在吧。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-04-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 奇点 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档