【不在谷歌?没关系】不在大公司,如何做好深度学习

【新智元导读】不在大公司,没有大数据,如何做好深度学习?深度学习研究员 Bharath Ramsundar 看好低数据学习(low data learning),他认为牛顿从一个苹果下落中推导出万有引力定理的故事是低数据学习的最佳壮举。物理学家、数学家能够从少量/有限的数据中提取关于这个世界的一般规律。Ramsundar 认为,在设计学习算法时,借鉴物理学家、数学家的做法,或许能对手头没有大规模数据集的深度学习研究员以启发。

(文/Bharath Ramsundar)很多人都以为机器学习和大数据是同义词。原因很简单,算法需要大量的训练数据识别噪声信号。因此,机器学习技术一般都由手中握有大量用户数据的网络公司所使用。对于谷歌、Facebook、微软、亚马逊和苹果(也即《纽约时报》的 Farhad Manjoo 所说的“五巨头”[Fearsome Five]),获得大量的用户数据很简单。数据使用政策变得越来越宽泛,让这些公司能够在我们使用其产品时,获取从点击到个人位置等一切信息。因此,依赖大规模数据集,网络公司能够提供非常有用但同时也非常具有侵入性的产品和服务。拿出数十亿规模的数据集对这些公司而言并非不可能。

在学术界,机器学习在各个学科中出现的次数也越来越多。学术界掌握数据的情况与产业界有着显著的不同。要获取大量科学数据或医疗数据并不容易。在学术界,最大的障碍是成本。传统上,研究人员依靠 Amazon Mechanical Turk 收集数据。那里,低薪工人(时薪远低于美国联邦政府规定的最低工资,平均为 1 美元/小时)执行重复性劳动,例如在图像中标记物体和人脸,或在文本中注释说话者是谁。这些劳动所需要的技巧,通常在人类幼儿园时期就能掌握。但是,进行科学实验需要大量的专业知识。因此,在实验中使用人类专家的成本比使用 Mechanical turker 服务高太多。

解决这个问题的一个方法是钱,大量的钱。谷歌最近发表了一项研究,用深度学习系统识别眼球扫描图像中糖尿病性视网膜病变的迹象。为了获得这项研究的数据,谷歌支付专业医生人工注释大量数据,这项工作可能花费数十万或数百万美元。对于谷歌来说,这可能算一笔不小的财政支出——但仍然能够负担。而对于学术研究人员,进行这样的研究必须从赞助机构获得大量资助。不用说,如今很少有研究人员能够得到这样的资源。

那结果是什么呢?难道我们注定要生活在这样一个世界,最好的研究只能由有钱的大公司进行?

钱多总是会更好,但也许情况并不像看起来那么糟。

最近,在小数据机器学习(low data machine learning)领域涌现出大量的工作。MIT 几年前的工作[1] 表明,可以使用概率编程,从单一的一个例子中构建“one-shot”图像识别系统。DeepMind 的后续工作[2] 表明,像 TensorFlow 这样的标准深度学习工具包可以复制这一壮举。从那时起,有很多工作都表明,小数据学习(one-shot learning)可以扩展到药物发现[3]、机器人[4] 等领域。

现在,越来越多的研究人员认为,有时我们可以在不同的数据集之间传输信息。虽然对于特定的机器学习问题,可用的数据集非常有限,但如果有大量可用于相关问题的数据,那么就有技术可以让模型在两个系统之间传输有用的信息。这些技术可以帮助机器学习系统,将知识从数据丰富的问题空间转移到数据不足的问题空间,从而克服其数据少的问题。

为了直观地了解这些技术如何工作,我们来看看这样一个故事。假设你把侄女带到动物园。你带她去看长颈鹿展览。她以前从未见过长颈鹿,所以非常兴奋,学会说:“长颈鹿!”几个星期后,你再带她去动物园,路过长颈鹿馆时,她会说:“长颈鹿、长颈鹿!”这是怎么回事?小孩是怎么学会认出只见过一次的长颈鹿的?

虽然发展心理学和认知科学对于人类是如何学习识别动物的还没有确切的解答。但是,我们现在有可以(粗略)解释这个过程的数学模型。

虽然你的侄女以前从未见过长颈鹿,但她看到过很多其他的东西。特别是,她可能学会了如何区分事物。在数学上,这就叫做图像空间的度量(metric)。Metric 表示两个物体之间的差距。要知道她看到的新物体是不是长颈鹿,她只需要从记忆中提取长颈鹿的图像,然后用这个 metric 去判断,新物体是否与“长颈鹿”足够近似。

以前讨论过的一系列有关学习(learning)的论文已经表明,这一情况能够在现实世界的数据集上有效实现,并且能够从视觉领域扩展到分子领域,以及机器人领域的机器学习问题(robotic machine learning)。

那么,这些技术能拓展到多远?大数据机器学习的时代是否会完结?先不要这么快下结论。小数据(One-shot)药物发现分析工作[3] 表明,信息传递目前存在许多限制。至少对于分子问题来说,的算法还不能推广到新的系统。学会的 metric 相对不灵活,不能处理有着明显区别的数据点(datapoint)。

因此,很容易想到,类似的限制也存在于其他机器学习应用程序当中。虽然 one-shot 和低数据技术能够进行一些信息传递,但无法让系统像人类那样灵活有效地举一反三。

有理由认为,将今天的人工智能与一般人类智能区隔开来的主要障碍之一,是低数据信息传输问题(low data information transfer problem)。人类科学家能够从非常有限的信息中获得深远的见解。就像故事里说的,牛顿从一个苹果掉下来的事例中,得出行星运行的万有引力定理。这简直是 one-shot learning 的壮举!

以此看,物理本身就是低数据学习(low data learning)的一种极端形式,旨在从有限的数据点中提取一般原则

我们可以从物理学家那里吸取经验和灵感吗?我们能够设计出具有类似学习属性的学习系统吗?

在设计理论时,物理学家通常会依赖不朽(invariance)和美(aesthetics)。

从长期的经验来看,物理学家知道,科学理论往往满足一定的数学标准。爱因斯坦对广义相对论的研究主要取决于他对协方差(covariance)的看法,即不存在绝对静止的空间或时间,所有时空都是和运动的物体联系在一起的。

同样,我们也可以假设,能够泛化的学习算法必须利用世界上的隐藏结构。

我们如何编码算法提取这些能够泛化的规律?这是一个重大的研究问题,我个人希望,我们能够找到一种方法,教导学习系统理解美。

数学家、物理学家和科学家训练自己,在自然界的法则中感受到美的存在。

能够从隐藏结构中学会欣赏这种美的算法可能十分重要,这种算法有一天或许能做出伟大的科学理论发现。

参考文献

  1. Lake, Brenden M., Ruslan Salakhutdinov, and Joshua B. Tenenbaum. “Human-level concept learning through probabilistic program induction.” Science 350.6266 (2015): 1332-1338.
  2. Vinyals, Oriol, et al. “Matching networks for one shot learning.” Advances in Neural Information Processing Systems. 2016.
  3. Altae-Tran, Han, et al. “Low Data Drug Discovery with One-Shot Learning.” ACS central science 3.4 (2017): 283-293.
  4. Duan, Yan, et al. “One-Shot Imitation Learning.” arXiv preprint arXiv:1703.07326 (2017).

原文地址:http://rbharath.github.io/machine-learning-with-small-data/

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-06-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏钱塘大数据

【推荐阅读】人工智能的原理,技术和未来

星期二早上8:00。你已经醒了,扫了一眼手机上的标题,回复了一个在线帖子,为你妈妈订购了一件假日毛衣,锁上屋子开车上班,路上听一些好听的曲子。 在这个过程中,...

3607
来自专栏大数据文摘

干货 | 北大林作铨教授:从事AI研究30年,我如何看待人工智能

2732
来自专栏算法channel

如何抉择是否要做机器学习?如何入门机器学习?

今天又有公众号读者问我一些关于职业选择、入门AI的问题,想想它们同样曾经困扰着我,相信现在也还困扰着一些人,未来可能还会有人面临这样的问题。我深知你们心里很焦急...

942
来自专栏AI科技评论

干货 | 从菜鸟到老司机 数据科学的 17 个必用数据集推荐

编者按:数据集可谓是数据科学的练兵场,不管是对菜鸟入门还是老司机上路,能找到一个好用的数据集无异于如虎添翼。以下是雷锋网整理编译的 17 个常用数据集,并列举了...

3994
来自专栏AI科技大本营的专栏

结构化数据上的机器学习大杀器XGBoost

XGBoost是一个机器学习算法工具,它的原理本身就并不难理解,而且你并不需要彻底搞懂背后的原理就能把它用得呼呼生风。 它的威力有多强? 自从2014年9月份在...

3289
来自专栏AI科技大本营的专栏

AI Insight:有了深度学习就可以包打天下?你想多了

眼下深度学习是整个 IT 领域中最热门的技术之一。虽然它只是机器学习五大学派数十种算法之一,但从媒体关注度、论文发表数量和创业投资热度来说,在人工智能、数据科技...

33411
来自专栏AI研习社

Kaggle 大神 Eureka 的高手进阶之路

作为全球首屈一指的数据科学、机器学习竞赛和分享平台,Kaggle 以其比赛多样、数据集全面、社群活跃的优势而备受推崇。从学生到上班族,Kaggle 的用户群体范...

41810
来自专栏智能算法

干货 | 从菜鸟到老司机,数据科学的 17 个必用数据集推荐

编者按:数据集可谓是数据科学的练兵场,不管是对菜鸟入门还是老司机上路,能找到一个好用的数据集无异于如虎添翼。以下是编者整理编译的 17 个常用数据集,并列举了适...

4196
来自专栏PPV课数据科学社区

【学习】如何利用互联网文本语义分析进行金融量化投资?

1.金融文本挖掘背景介绍 文本挖掘作为数据挖掘的一个分支,挖掘对象通常是非结构化的文本数据,常见的文本挖掘对象包括网页中的论坛、微博、新闻等。文本挖掘是...

2816
来自专栏量子位

中科院自动化所王亮:由AI Challenger漫谈数据集的重要性

李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI AI火热,但并不是所有人都清楚“数据集”的意义。 首届“AI Challenger·全球AI挑战赛...

4357

扫码关注云+社区

领取腾讯云代金券