浅说深度学习之一-从到

上一次,司德谭同学给大家介绍了机器学习的基本概念和特征提取的具体例子,相信大家对于机器学习已经有了一个基本的概念。

和君商学院的王明夫院长曾经给我们提出了一个ABCD学习模型。A是熟读教科书;B是梳理学说史;C是熟悉主流理论流派和代表人物;D是了解大量实案。我个人觉得用在机器学习上也很适用。

机器学习的主要流派有哪些呢?初步划分可以分为『归纳学习』和『统计学习』两大类。

所谓『归纳学习』,就跟我们平时学习所用的归纳法差不多,也叫『从样例中学习』。归纳学习又分为两大类,一类是像我们归纳知识点一样,把知识分解成一个一个的点,然后进行学习。因为最终都要表示成符号,所以也叫做『符号主义学习』;另一类则另辟蹊径,不关心知识是啥,而是模拟人脑学习的过程,人脑咋学咱们就照着学。这类思路模拟人的神经系统,因为人的神经网络是连接在一起的,所以也叫『连接主义学习』。

『统计学习』,则是上世经90年代才兴起的新学派。是一种应用数学和统计学方法进行学习的新思路,就是我既不关心学习的内容,也不是模拟人脑,而主要关心统计概率。这是一种脱离了主观,基本全靠客观的方式。

三大流派清楚了之后,我们就挑目前世界上最流行的一派,就是连接主义学习方式的最新发展,深度学习来介绍一下。这一流派一波三折,故事充满传奇色彩。希望他们的故事能让你学习机器学习的知识之余,也能对自己的学习和工作有所启示。

首先我们先复习一下初中生理卫生课中学习的关于神经元的知识吧。

如上图所示,一个神经元由三个主要部分组成:中间是细胞体,细胞体周围有若干起接收信号作用的树突,还有一条长长的轴突,用于将信号传导给远处的其他细胞。神经细胞收到所有树突传来的信号之后,细胞体会产生化学反应,决定是否通过轴突输出给其他细胞。

比如皮肤上的感觉细胞接受了刺激之后,将信号传给附近的神经细胞的树突。达到一定强度之后,神经细胞会通过轴突传递给下一个神经细胞,一直传递到大脑。大脑做出反应之后,再通过运动神经元的轴突去刺激肌肉去进行反应。

这其中值得一提的是赫布理论。这是加拿大心理学家赫布在1949年出版的《行为组织学》中提出的,其内容是:如果一个神经元B在另一个神经元A的轴突附近,并且受到了A的信号的激活,那么A或B之一就会产生相应的增长变化,使得这个连接被加强。

这一理论一直到51年以后的2000年,才由诺贝尔医学奖得主肯德尔的动物实验所证实。但是在被证实之前,各种无监督机器学习算法其实都是赫布规则的一个变种。在被证明之前,就被广泛使用了。

现在常用的机器学习算法中,仍然有大量的规则其实是没有被严格证明的,这使得整个机器学习大厦实际上生活在风险中。所以大家在学习时需要留个心眼,不是所有的算法在所有场景下都是金科玉律。

在赫布原理提出6年前的1943年,虽然这时候电子计算机还没有被发明出来,距离我们的伟大偶像阿兰.图灵研究出来『图灵机测试』也还有3年时间,有两位传奇人物麦卡洛可和皮茨就发表了用算法模拟神经网络的文章。那一年,少年天才皮茨只有20岁!皮茨同学是个苦出身,15岁因为父亲让他退学,他一怒之下离家出走。那时候,他已经读完了罗素的《数学原理》这样一本大学教材。罗素后来把皮茨推荐给了著名哲学家,维也纳学派的代表人物卡尔纳普。后面我们讲归纳学习和归纳逻辑时还会说过卡尔纳普。卡尔纳普就把自己的哲学著作《语言的逻辑句法》送给初中生皮茨看,结果皮茨不过一个月就看完了。于是卡尔纳普惊为天人,请皮茨到芝加哥大学。。。打扫厕所!

后来,医生兼神经科学家麦卡洛可研究神经学需要一个懂数学的合作者,于是就选了17岁的清洁工皮茨。后来他们成为控制论创始人维纳的学生。后来因为被造谣陷害,皮茨跟维纳闹翻,46岁就英年早逝了。神经网络的基础至今仍然是麦卡洛可和皮茨提出的模型,简称M-P模型。

皮茨

1954年,IBM推出了IBM704计算机,并且有Fortran这样的算法语言。4年后, 1958年,康奈尔大学实验心理学家弗兰克.罗森布拉特根据M-P模型实现了第一个人工神经网络模型-感知器。

感知器的提出,使人类有了第一种可以模拟人脑神经活动的模型,迅速引起轰动,迎来了人工神经网络的第一个高潮。

感知器了不起的地方在于,不需要任何先验知识,只要能够用一条直线把要解决的问题分为两部分,就可以区分。这种问题叫做线性可分问题,比如一些建筑在长安街以北,一些在长安街以南,感知器就能做到把这两部分建筑分开,尽管感知器根本不知道长安街是什么,东南西北是什么。

如左图所示,因为x和o可以找到一条直线分隔,所以感知器模型可以解决它。而像右图这样红蓝点没法用一条直接分开的,就没办法应用感知器来区分它。

罗森布拉特比起少年扫地僧皮茨,可是名校高材生。他所就读的纽约Bronx科学高中,光诺贝尔奖获得者就有8个,此外还有6个普利策奖。也是这所学校,比他大一届的学长有个叫马文.明斯基的,是人工智能的奠基人之一。

正值感知器如日中天时,明斯基出版了著名的《感知器》一书,证明感知器连异或这种最基本的逻辑运算都无法解决。因为异或问题不是线性可分的,需要两条直线才可以,所以感知器模型确实解决不了。这一致命一击,使得人工神经网络的第一次高潮迅速被打入低谷。

马文.明斯基

单独的感知器无法解决的问题,是不是将多个感知器组合在一起就可以了呢?是的。1974年,哈佛大学学生保罗.沃波斯的博士论文提出了反向传播算法(简称BP算法),成功地解决了感知器不能实现异或的问题。实现的方法也基本上就是,一条直线不够,再加一条就好了。

但是,当时正是人工神经网络的第一次低谷中,纵然你是哈佛大学高材生也无人问津。这一重要成果当时没有造成大的影响。

在沃波斯的论文发表后10年后的1984年,这一年乔布斯推出了著名的苹果第一代mac电脑,加州理工学院的物理学家霍普菲尔德实现了他于两年前提出的一种循环神经网络模型。这个重要成果重新激发了大家对于人工神经网络的热情。

两年后的1986年,处于第二次人工神经网络热潮的学界再次重新发现了沃波斯提出过的BP算法。这更加促进了人工神经网络的发展。

感知器的局限在于它只有两层小网络。而BP算法给创造更多层更大型的网络创造了可能。BP算法的基本思想是:1.信号正向传播。2.误差反向传播给上层的每一个神经元。通过BP算法,成功将神经网络做到了5层。然而,在超过5层时,遇到了困难。这个困难,困扰了研究者整整20年。

这个困难主要有两方面,第一方面,随着层数的增多,反馈的误差对上层的影响越来越小。第二方面,层数增加之后,很容易被训练到一个局部最优值,而无法继续下去。

遇到了这个困难之后,大部分研究人员转而研究如何在少的层次上有所突破。正如我们前面所讲的,机器学习的另一大流派『统计学习』正是在这个时代取得了突破性的进展,其代表作是『支持向量机』。这一支我们后面再讲。

杰弗里.辛顿(Hinton)

但是还是有极少数的研究人员在人工神经网络的第二次低潮中继续坐冷板凳研究。20年后的2006年,加拿大学者杰弗里.辛顿(Hinton)提出了有效解决多层神经网络的训练方法。他的方法是将每一层都看成一个无监督学习的受限玻尔兹曼机(后面再解释,大家先知道有这么个东西就好)进行预训练提取特征,然后再采用BP算法进行训练。

这样的话,这些受限玻尔兹曼机就可以像搭积木一样搭得很高。这些由受限玻尔兹曼机搭起的网络叫做深度信念网络或者叫深层信念网络。这种采用深度信念网络的模型后来就叫做『深度学习』。深度学习推出后,图像、语音和文本等领域都产生巨大的革命,进入了影响至今的第三次人工神经网络高潮。

当然,Hinton也并不是在孤军奋战。他有位博士后高徒叫Yann Lecun。1989年,BP算法重新发现后的第3年,Lecun将BP算法成功应用在卷积神经网络CNN中。1998年,经过十年努力,Yann Lecun发明了LeNet。但是请注意这个时间点,这时候还没到2006年Hinton改变世界的时候,机器学习的王者是支持向量机SVM。

但是,机遇是留给有准备的人的。一方面CNN中的关键技术点ReLU和Dropout(后面都会有详细解释)不断被解决;另一方面大数据和云计算引发的计算能力的突破,使得CNN可以使用更强大的计算能力来完成以前无法想象的任务。

右为Yann Lecun

2012年,还是创造奇迹的Hinton和他的学生Alex Krizhevsky,在LeNet基础上改进的AlexNet一举夺取ImageNet图像分类的冠军,刷新了世界记录。促使卷积神经网络成为处理图像最有力的武器。

AlexNet之所以有这样大的进步,其主要原因有四种:

1. 为了防止过拟合,使用了Dropout和数据增强技术;

2. 采用了非线性激活函数ReLU;

3. 大数据量训练(大数据时代的作用!);

4. GPU训练加速(硬件的进步) ;

卷积神经网络是一种权值共享的网络,这个特点使其模型的复杂度显著降低是,目前上语音和图像分析研究的热点。

那么什么是卷积呢?卷积是泛函分析中的一种积分变换的数学方法,通过两个函数来生成第三个函数,表征两个函数经过翻转和平移的重叠部分的面积。

在传统认别算法中,我们需要对输入的数据进行特征提取和数据重建,而卷积神经网络可以直接将图片做为网络的输入,自动提取特征。它的优越特征在于对于图片的平移、比例缩放、倾斜等变形有非常好的适应性。这种技术简直就是为了图形和语音而生的。从此,图片是正着放还是倒着放或者随便换个角度,远点还是近点等再也不是问题,使得识别率一下子显著提升到了可用的程度。

上一期爱扒科技曾经讲过无人驾驶技术。在出现CNN之前,自动驾驶技术也有自己的模型叫区域建议网络RPN,用来区分哪里可能是车辆,哪里可能是行人等,但是识别速度慢,无法在快速驾驶中有效使用。当RPN与CNN结合之后,产生的技术叫做Fast R-CNN,快速区域卷积神经网络,使自动驾驶或者辅助驾驶技术产生巨大进步。

DBN和CNN双剑合壁,成功引发了图像和语音两个领域的革命。使得图像识别和语音识别技术迅速换代。

不过问题还有一个,自然语言处理和机器翻译。这也是个老大难问题了,我们单纯想想就知道难度有多高。江山代有才人出,当Yann LeCun发表他那篇著名的论文时,文章第三作者叫做Yoshua Bengio。在神经网络低潮的90年代,Hinton研究DBN,LeCun研究CNN的时候,Yoshua在研究循环神经网络RNN,并且开启了神经网络研究自然语言处理的先河。后来,RNN的改进模型长短期记忆模型LSTM成功解决了RNN梯度消失的问题,从此成为自然语言处理和机器翻译中的利器。

Yoshua Behgio

Hinton, Yann LeCun和Yoshua Bengio,就是被国人称为『深度学习三巨头』的三位传奇人物。他们共同在神经网络第二次低潮的寒冬中,坚持自己所坚信的方向,最终一起改变了世界。

不得不补充的一点是,由于数学方法还不严谨,三位大师被认为理论高度不够。但是,正如牛顿和莱布尼茨时代的微积分也不严谨一样,这样的成果无损他们的伟大。将来一定会有这个时代的柯西和魏尔斯特拉斯等人来将其完善的。

三巨头还有一个了不起的地方是与工业界的紧密结合。Hinton在领导Google的AI团队,而Yann Lecun奋战在Facebook。

第一次和第二次高潮分别迎来了两次低谷,第三次高潮之后会不会是第三次低谷?后面是不是还会有第四次高潮? 这是本次分享留得您的思考题,欢迎大家留言分享您的观点。

供稿弗里德曼.路德维希

本文来自企鹅号 - 爱扒科技媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

专访 | 诺基亚首席科学家范力欣:用模糊逻辑实现可解释的深度神经网络

深度学习发展到今天,很大程度上依然是一个「实验主导」的、「先有实验结果再找可能解释」的学科。对实验结果的理论解释,争议不断,而且随着时间的推移,研究者们给出的解...

772
来自专栏大数据挖掘DT机器学习

【趣味】数据挖掘(7)——团拜会与鸡尾酒会上的聚类

在硕博士生的数据挖掘课程中,聚类是难点,一文难尽。此文用宴会上的见闻,用异于传统的方式,从讲课PPT上取些素材(这样比较快),来说明聚类的一些概念,为下篇...

3254
来自专栏华章科技

500款各领域机器学习数据集,总有一个是你要找的

美国劳工部统计局官方发布数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/139

1151
来自专栏机器人网

顶级AI会议NIPS压轴2017

NIPS,全称神经信息处理系统大会(Conference and Workshop on Neural Information Processing Sys...

3698
来自专栏量子位

年度必看AI论文:生成式非对抗网络(停止对抗,用爱学习)

震惊!(本次使用已获UC震惊部授权) 就在昨天,人工智能领域一个开创性的成果出现了:关于生成对抗网络(GAN)的最新论文出炉。很多学者和业内人士,都用震惊二字描...

3484
来自专栏大数据文摘

业界 | 李飞飞团队最新研究成果:视觉AI让医院细菌无处可逃!

据说每年都会有很多人在医院感染病菌然后不幸患病,甚至因此导致的死亡人数比车祸还多。

651
来自专栏PPV课数据科学社区

500款各领域机器学习数据集,总有一个是你要找的

金融 美国劳工部统计局官方发布数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/139 沪深股票除权除息...

2.2K11
来自专栏机器学习算法与Python学习

800万中文词,腾讯AI Lab开源大规模NLP数据集

10 月19 日,腾讯 AI Lab 宣布开源大规模、高质量的中文词向量数据。该数据包含 800 多万中文词汇。

1323
来自专栏量化投资与机器学习

【Python量化投资】基于单因子的Alpha预测

AlphaHorizon介绍 - 以非流动性因子ILLIQ为例 ? 名称解释:AlphaHorizon是优矿团队实现的基于单因子的Alpha研究和实现一种过程和...

2766
来自专栏大数据

一位 TalkingData 员工学习人大统计学课程的笔记及感想

引言 新的一年,想必不少人都给自己树立了学习目标,要想学习上得去,先得学会做笔记。记笔记是我们在学习过程中消化总结的好方式,良好的记笔记习惯能起到事半功倍的效果...

2009

扫码关注云+社区