机器学习行业盛会-旧金山机器学习研讨会上的10点思考

大数据文摘作品 转载具体要求见文末

作者 | Alan 选文 | Aileen

翻译 | 酒酒 校对 | 姜范波

2016旧金山/三番机器学习研讨会(The 2016 Machine Learning Conference SF, 以下简称MLconf)于2016年11月11日在旧金山的Hotel Nikko召开。这是一场机器学习行业的盛会,来自各行各业的机器学习大咖和使用者发表了演讲。

本文作者是机器学习领域的从业者,同时也是此次大会的赞助商以及亲历人,大数据文摘为您带来他在本次大会上的心得体会:深度学习已经取代了业界现有的其他方法吗?谷歌的自动回复是如何工作的?一起看看机器学习行业的一线大会给我们带来了什么。

我们最近参加了三番的机器学习研讨会(MLconf),真心祝贺会议的所有演讲者、赞助者和组织者,这次会议非常成功!听了很多业界机器学习使用者的演讲,我们收益颇丰,也希望在这篇文章里分享给大家一些我们所学到的。

1. 深度学习(仍然)不是一切

众所周知深度学习已经在很多领域取得了成功,比如图像和声音识别,机器翻译和游戏等。难道深度学习已经取代了业界现有的其他方法了么?其实并不然。 经典的机器学习模型仍发挥着效力。像Gradient Boosing, 逻辑回归和SVM实际上效果都很好,并且在业界被广泛使用着。比如亚马逊的搜索结果用的就是Graident Boosting, Quara也开诚布公地展示了他们使用的算法,其中就有逻辑回归和随机森林。 在一些垂直领域,比如医疗业,因为人们需要对模型进行理解和分析,仅仅使用黑匣子的模型是不行的。我们本以为这可能阻碍了深度学习的一些应用,但是 Metis的Brian Lucena就展示了一系列方法,使得即使是黑匣子模型,我们也能对其分析。

大会现场照片 图片来自大会官网

2.使用正确的衡量方法,选择正确的问题

你想在公司中使用机器学习,经过了一番头脑风暴后,你想到了很多可以用到的地方。这次很多演讲者都强调了我们要选择*合适的问题*。一个工程上的挑战并不一定是合适的问题,一个合适的问题应该是能够给公司带来*最大的商业收益*的问题。 即使是大公司也难以确定怎样让机器学习带来最大收益。Elena Grewal(Airbnb的数据科学部经理)在她的演讲中清楚地表明,你的机器学习模型的衡量标准并不是准确率/查全率,而是**商业效果**。评估一下模型给业务带来的价值可以防止我们走到错误的方向上。

3. 模型调参只占了项目的5%

玩转模型的各项参数来提高1%的精确率对于工业项目来说没有意义。千万别花太多时间在调参上,有的是比调参更值得花时间的地方。 研究一下怎样才能有一个更统一的收集数据的流程,怎样更好地对数据进行预处理,对于缺省的数据该怎么办?还有算法的时间复杂度,因为现实世界的用户们对延迟可敏感了。你还得思考怎样衡量模型对产品带来的影响,评估一下模型的演进还要设置预警,当然还有如何高效地在投入产品后及时进行模型的更新。 要知道,现实世界里的机器学习可不简单呐。

4.使用集成算法几乎总比单一模型要好

集成算法是将不同模型组合起来,这样我们就有了k个学习模型,M1, M2,..., Mk,来组成一个有更高精确率的模型M*。比方说,你可以平均所有分类器的概率结果,或者使用它们的加权和。 斯坦福的卷积神机网络课程(CS231n),Andrej Karpathy就开玩笑地说过在深度学习中使用集成模型一定能让准确率提高2%。(大数据文摘已经获得了这门课程的授权,并组织团队翻译汉化,在网易云课堂上免费发布,每周二上午八点更新,点击文末阅读原文,查看网易云【斯坦福CS231n深度学习与计算机视觉】,和5000+人一起学习这门课程)

玩笑归玩笑,多个演讲均强调,业界使用多种模型事实上是集成算法。在最近Kaggle竞赛的优胜方案中也能看到这一趋势。(点击查看大数据文摘近期相关文章:Kaggle大赛:债务违约预测冠军作品解析)看来集成算法有立足之地。

5.个性化趋势

个性化可不仅仅指某一方面(比如广告推送),现在的趋势是完全的个性化:用户看到的一切(像是日常反馈,主页等)都是只为他们专门设置的。

这在好几个演讲中都有提到,比如Pinterest的Stephanie deWet就说到了用户主页的完全个性化(针对用户喜好和相似用户喜好的各种推荐),Netflix的 Guy Lebanon也讲了对于图片产品的个性化服务(推广海报和视频截图展示等)。

6.完全自动化还没有实现

如果你使用Gmail(或是Inbox),你大概已经看到过Google的智能回复功能。这个功能令人印象深刻,现在超过10%的移动端回复都在使用它。Anjuli Kannan(谷歌的研究工程师)与我们分享了这个功能是怎样工作的。

所有的自动回复都是从数据中学习出来的,没有任何人为规定的规则或特征。它们使用了一个序列对序列的模型(a sequence to sequence model),包括两个端对端训练的神经网络,最终的输出是可能的回复里单词的概率分布。 我们有过这样一个问题:他们怎么确定这个方法得到的回复一定能用呢?神经网络可能会学到错误的单词和语法,或者不正规的,不同于用户的表达等。仅仅限制回复里的单词正确性是不够的(比如,“your the best”的语法是不正确的,但是每个单词都是正确的)。 解决的方法是限定于一套有效的或者高质量的回复集内。。这套回复集也是从大量数据中得到的(通过半监督学习)。看来想要有一个完全自动化学习的模型来得到准确的表达还有很长一段路要走。 更多内容可以参考这篇关于自动回复的论文,后台回复“自动回复”获得。

大会现场照片 图片来自大会官网

7.避免复杂性诅咒

如果你在一个大型公司里,公司的很多小组都在做数据科学的相关项目或者是解决机器学习的问题,那可就要警惕不必要的工作开销了。

Nikhil Garg (Quara的工程经理)介绍了一个概念:复杂性诅咒(curse of complexity),即当不同小组使用着不同的流程,数据收集的方法也不同,但工作又紧密相关时,要接着开始新的项目就很困难,由于不同的数据结构等原因,之前的资源不能重复利用,这样项目开销就大大提高了。 改善的方法应该是使得不同小组的工具和资源都能被重复使用,而关键就在于建立一个良好的机器学习平台(使得每一步流程都最有效率),和有效的平台设施。 8.有效利用已有的资源

我们能看到最近几年市场已经从各自为营的文化转移为更开放,更趋于合作的氛围。人们不再从零开始一切,相反地,更愿意在已有的平台上继续自己的项目。相比从前,大家的效率大大提高了。 在这次会议上,很多人,比如Josh Wills (Slack数据工程部总监)都坦然承认他们的工作都是站在巨人的肩膀上完成的:学习行业翘楚们的开发经验,比如Facebook, Netflix, Airbnb等,并且选择已有的最好的工具来开发自己的项目。而且,同在这些大公司里工作过的人合作也可以扩散大公司的优秀文化。 别闭门造车了,像大家一样使用已有的资源吧,因为: 9.人人都爱开源工具 数据科学已经民主化了,使得如今我们有大量开源工具。从数据管理到模型建立,很多知名公司都开源了他们的工具(比如谷歌的TensorFlow, Airbnb的Airflow)。这让每个机器学习使用者都有了更强大的平台。 这次会议我们发现公司都不惧承认他们使用了开源工具。像是TenserFlow, XGBoost, scikit-learn等,即使是行业巨头也不想投入大量资源各自研究重复产品,而是节约成本,选择已有的工具。 10.确保项目得到管理层的支持

如果你不在谷歌也不在脸书,想要得到数据上的支持可能更困难一些,因为小公司对产品结果的压力更大。谷歌早已知道投资数据项目会有好的回报,但不是所有公司都这么认为。 想要开始一个机器学习项目有一个阻碍就是,这些项目可能要等到6个月后才能看到价值,所以一开始你得说服管理层,告诉他们这个项目是值得投资时间和资源的。也许要做一个ppt展示,说明可以带来的商业效益和需要的资源。 总结

总之,这次会议是个难忘的经历,我们也准备积极地把此行所学投入到我们的项目里。如果你也参加了,并且认为还有一些要点被我们忽略了,就请在评论里告诉我们吧。

原文:https://tryolabs.com/blog/2016/11/18/10-main-takeaways-from-mlconf/

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2016-11-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

突破 | 语音识别新里程碑,微软将错误率降至6.3% (附论文)

【新智元导读】微软的语音识别技术又获得了新的突破:9月13日,微软语音与对话研究团队在arxive上发表论文,宣布在 作为行业标准的 Switchboard 基...

3575
来自专栏量子位

谷歌大脑小姐姐亲授:如何应聘成功羡煞旁人的AI工程师岗位

不如听听过来人怎么说。最近,谷歌大脑的小姐姐Catherine Olsson上了一堂名企应聘公开分享,手把手教你应该以怎样的姿势开始AI安全类工程师求职之旅。

982
来自专栏达观数据

技术分享 | 个性化推荐系统商业化的五大要素

在日前举行的2017 CSDI 中国软件研发管理行业峰会上,包括摩拜单车创始人及CTO夏一平、华为首席系统工程专家徐琦海、京东云、携程等一线互联网企业大数据平台...

43910
来自专栏木东居士的专栏

你了解你的数据吗(开篇):总览

2584
来自专栏新智元

当无人机学会人工智能,它将是世界上最恐怖的武器

外媒称,五角大楼将提供资金,以研发一种小型芯片。这种芯片不仅有着类似人类大脑的人工智能,而且它很小,可以安装到大量移动设备上。 英国网站2月8日发表题为《会像...

2243
来自专栏大数据挖掘DT机器学习

赛题解说|“达观杯”个性化推荐算法挑战赛技术讲解

达观杯推荐算法大赛开赛将近一个月,获得了大量选手的踊跃参与。为方便大家更好的理解赛题,本次将做一个较为全面的讲解,包括对赛题背景、赛题数据、评分规则等的详细讲解...

3574
来自专栏ATYUN订阅号

【学术】量子算法与计算机对抗,胜者究竟是谁?

我们对“量子霸权(quantum supremacy)”的追求证明了量子计算机比普通计算机能够更快地做一些事情,但是,却自相矛盾地导致了准量子典型算法的繁荣。 ...

3234
来自专栏PHP在线

人工智能和工作的未来

原文出处: Lukas Biewald 译文出处:腊八粥 技 术淘汰了某些种类的工作,并创造了其它种类的工作——从石器时代就是如此。在过去,机器取代了需要...

38912
来自专栏人工智能头条

杨光信解析京东应对双11背后的“京东大脑”

1746
来自专栏人工智能头条

从经济学博士到爬坑机器学习十年,微软首席数据科学家谢梁的AI故事

1867

扫码关注云+社区

领取腾讯云代金券