十分钟带你认识“机器学习”

看完本文你会知道:

1、机器学习并不是一群机器人排排坐、写习题(大雾)

2、没有海量数据支撑的人工智能就是人工智障

3、人工智能其实比你笨多了,它只是靠阅历取胜的“老怪物”

4、如果不是有寿命限制,人类依靠知识累积一样能够“智能爆炸”

5、机器学习模拟了人类学习方式的哪些“皮毛”?

“人工智能”、“大数据”、“机器学习”这三个热门词汇有很多朋友理不清其中关系,有些具有“抽象词汇恐惧症”的朋友还会觉得头疼。

我们来类比一下,如果我们把人工智能机器人比作一个武学高手的话,“大数据”就是内力,“机器学习”就是用来催动内力的内功心法,某项“人工智能”就可以对应于具体的武功招式,比如图像识别就相当于“降龙十八掌”,语音识别就相当于“六脉神剑”。

招式再花哨,失去内力的武学高手无疑是废物……

同样的道理,没有大数据作为支撑的人工智能一无是处。

大数据是很重要,可它毕竟只是一堆冰冷的数字,怎么与“图像识别”、“语音识别”这样具体的技术联系起来呢?靠的就是机器学习。

就像我们人类看书,书是什么?不过是一堆文字和符号。我们依靠自身的思考与学习,从书中提炼出智慧。

我们可以对机器学习下这样一个定义了:机器学习是指用某些算法指导计算机利用已知数据得出适当的模型,并利用此模型对新的情境给出判断的过程。

机器学习就是这样一个“提炼”的过程。它是人类定义出的一种算法,目的是让机器能够模拟人的一些学习、思考行为。

这里我用的是“模拟”而不是“模仿”,模仿是一种主动行为,模拟只是一种状态。

目前为止,我们知道了机器学习是一种计算机算法,通过“阅读”大数据来模拟人类的学习行为。

“机器学习”现在在我们的脑海中已经形成了一个轮廓,至少我们知道它是做什么的了。

按照我们习惯的学习逻辑——是什么?为什么?怎么样?

为什么我们需要费力搞出这样一个东西?

为什么我们不能凭借着自身知识的积累完成智能爆炸?整个二十世纪人类进入知识爆炸阶段,文明发展达到前所未有的速度,这样的知识爆炸再来几次,我们人类文明或许就能走向巅峰,为什么需要研究机器学习的办法,试图让机器代替人类思考?

事实上正是因为知识爆炸,人类的发展遇到了瓶颈,寿命的瓶颈。举个简单例子,爱因斯坦在一百年前提出了相对论。一个现代精英,想要完全掌握当时爱因斯坦的全部知识,少说也要努力学习到四五十岁,之后才能有所创见。

随着人类知识的累积,想要学完一个学科所要花费的时间将会不断拉长,再难以出现达芬奇时代那样的通才。

终有一天会到达一个时间节点,人类耗费一生时间只能勉强学习完前人的知识,从那以后,人类的发展速度就会变得极其缓慢。(这个过程中人类会不断优化学习方法精简知识量,但是终究避不过这个时间节点)

机器则不会有这样的忧虑,它凭借超高的运算速度可以在很短时间里做完人类几十年才能做完的事情,并且数据可以持续留存下去。

举个简单例子,让我们把目光拉回2016年3月,Alphago战胜李世石九段——这个时间节点必定在后世被无数次提及。彼时李世石虽然落败却并非毫无还手之力,甚至凭借“神之一手”搬回一局。

表面看起来Alphago比人要聪明得多,因为他是短期速成击败了浸淫棋道二十多年的李世石。

实际恰恰相反,Alphago自行模拟了数千万场棋局,相当于一个活了10000岁除了下棋什么也不干的棋疯子。一个下了10000年棋的老妖怪居然会输给一个33岁的“年轻人”,可见它的智商其实低得可怜。这么说还不够直观,可以说它活到100岁的时候还下不过大多数初通围棋规则的普通人。

所以我说,目前人工智能其实非常笨,它的智慧是靠另一种形式的“漫长岁月”累积的大量经验形成的,并不是依靠举一反三的思维能力获得的。

或许未来会有类似往人脑中植入芯片的方式来快速获取知识,但目前更可行的方案还是让机器逐渐承担一些思考工作,提高人类思考的“质量”。

现在,我们对机器学习的又多了一层认识,那是一种很“笨”的学习过程,依赖大量的数据和练习,是让机器以经验形成某种“智慧”。

接下来终于要揭开机器学习的最后一层面纱了,到底是怎样实现这个“学习”过程的?

人类的聪明之处就体现出来了,我们可以通过既有的认知触类旁通推理出未知的问题。我们不知道机器学习应该是怎样的,就去回想我们幼年时是怎么开始学习的。

我们幼年的学习是从认知开始的,父母告诉我们这是太阳,那是花,那是草,那是动物……我们通过看卡片和实物认识了各类事物,并且对具有类似特征的事物进行归纳和总结。

这个过程在机器学习中被称为“聚类”,是把物理对象或抽象对象的集合分组为由彼此类似的对象组成的多个类的分析过程。

机器学习分为有监督学习和无监督学习,聚类学习是一种无监督学习,在这个过程中,从获得具体的样本向量,到得出聚类结果,人们是不用进行干预的,这就是“非监督”一词的由来。

此外,还有回归、分类等其余学习方法。回归是由果溯因,根据样本里呈现出的事实回推导致这种结果的原因可能是什么,也是一种归纳思想。分类则是目前机器学习中使用最多的一种算法,图像、语音识别都涉及到分类。

我们回忆一下人工智能做的事情,就能得到一个更直白的概括。机器学习本质上就是,计算机通过大量样本数据的训练,能够对之后输入的内容作出正确的反馈。

训练的过程就是通过合理的试错调整参数,使得出错率降低,当出错率低到满足预期的时候就可以拿出来应用了。

比如我们给机器一幅画,它正确告诉我画面上是一只老虎;比如我们跟机器下棋,它根据我的落子反馈出它认为的最优解;传感器告诉自动驾驶系统红灯亮了,自动驾驶系统作出正确的反馈减速停车。

也就是说目前机器学习能够做到的事情其实很简单,就是让机器通过大量训练调整参数,最终在获取到某些信息的时候给出合适的反馈。

形象点说,传统机器学习只是让机器在一些领域像人一样形成直接的、正确的条件反射,甚至对一些复杂的条件还难以给出正确反射,更不用说独立思考产生意识了。深度学习则是另一个故事了。

本文来自企鹅号 - 凤凰科技媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏顶级程序员

不同的编程语言是怎么卖牛排的?网友:绝了!

C++:服务员牵来一头牛,给了顾客主厨刀、削皮刀、剔骨刀、片刀、砍刀、美工刀……堆满在桌上,笑道,请享用!顾客一脸懵逼,但看到邻桌的老大爷用挥舞双截棍的姿势使用...

972
来自专栏琦小虾的Binary

Matlab R2012b 重复激活,License 失效问题解决

前段时间好多同学的 Matlab 突然同时不能用了,相当诡异。后来查了一下资料,现在已经解决该问题。 解决方案: 之前的破解方法按照下面链接进行操作即可: ...

3989
来自专栏SDNLAB

国外主流SD-WAN产品对比

Lasted Updated: July 12, 2017 (Juniper added) Velocloud ViptelaVersa Silver ...

3984
来自专栏林德熙的博客

win10 uwp 活动磁贴

本文翻译:https://mobileprogrammerblog.wordpress.com/2015/12/23/live-tiles-and-notifi...

512
来自专栏转载gongluck的CSDN博客

cocos2dx 象棋

/******************************************************************* * Copyrigh...

2799
来自专栏听雨堂

想修改CSS

      下载了一个“通用”的CSS文件,本来想偷懒的,结果发现有问题,就是它用的颜色是变量定义的,无法识别。我又找不到在哪里可以定义。 BODY{     ...

17710
来自专栏fangyangcoder

基于FPGA的IIR滤波器

                                                        by方阳

1021
来自专栏叁金大数据

EmguCV学习——简单算法 差分与高斯

公司项目需要检测运动物体,我对opencv也没啥研究,google了好久看了好多方法,最简单的就是差分与高斯背景建模了。

683
来自专栏腾讯数据中心

敬请收藏:数据中心常用标识的中英文对照

中国的数据中心在不断走向国际化,同时数据中心内的关键标识也逐渐采取了中英文双语标识。 今天,我们整理出腾讯数据中心内部使用的中英文标识对照。敬请收藏以备后续参考...

3184
来自专栏Java帮帮-微信公众号-技术文章全总结

【数据库】MySQL经典面试题二(练习)

【数据库】MySQL经典面试题二(练习) 需要数据库表 1.学生表 Student(SID,Sname,Sage,Ssex) --SID 学生编号,Sname ...

5416

扫码关注云+社区