为何机器学习的黄金时代才刚刚来临

虽然已被关于神经网络、人工智能和机器学习的热烈讨论所包围,但很多人都知道,这些方法根本没有什么新颖的东西。让人疑惑的是,这些算法和方法早在几十年前就已经存在了算法和方法,那么为何现在才是它们如日中天的时候呢?

为了回答这个问题,我们先围绕数据和工具来看看在过去的五年里究竟发生了什么。我们可以看到,可扩展的计算能力在急剧上升,或者更确切地说,是每瓦特和每比特的性能。这两个因素合并到一起,增加了发展的气焰,而且日益发展的数据分析已经远远地超越了存在数十年的标准数据库和计算方法。问题是,我们正处于“数据炒作”的风口浪尖——急于开发一系列的工具和框架(正如Hadoop这个示例)来支持更大更复杂的数据集,然后再努力去增强新框架的数据分析性能。

因此,对于那些已经登上数据表现顶峰的公司和用户,机器学习会成为他们下一个方向么?事实上,对大规模、复杂分析以及支撑它们的这些系统和框架的关注,促使了一些发展。但最终,可以得到这样一个结论,无论是学术界还是工业界,这些进步都已达到了自己的巅峰。这些从肥沃的“大数据”土壤里成长的新方法和研究,也都得到了充分的训练和测试。然而,对于一系列受限(但在增长)的工作负载而言,还有另一种解决复杂问题的思考方法。

这并不是说,那些能够利用可扩展硬件的新机器学习方法没有前进的研究和发展。但这有一个更大的故事,Patrick Hall解释道,他在统计软件巨头SAS中拥有高级机器学习科学家(senior machine learning scientists)的独特地位。他的头衔值得注意,因为他正在寻找不能很好适用于经典统计建模方法(他所在公司的主要研究领域)问题的解决方法,目的是将这些方法集成到现有的企业产品中——至少能在某个点用到。

Hall声称,虽然上述的所有趋势正在推动机器学习走向最前沿,但这有一个例外,也就是数据最终的体量特别大,使得统计分析方法已经难以发挥自身的优势。再加上机器学习算法的新发展,这意味着机器学习的黄金时代终于来临了。

“‘宽度大于长度’的数据集随处可见——这些数据集列数大于行数,而且有更多的变量和观测值。所有的这些都不利于传统的统计方法,而且现在,有着相关变量的数据(例如,和图像数据有关的像素)越来越多,甚至存在于文本挖掘中。”Hall公正地说道。此外,大量的新数据来源于数据缺失的数据集或是稀疏数据集,这些数据集中有用的数据不到整个集合的1%。

对于那些想要去投资分析传统统计方法无法适用的数据的企业,这有很多的机会——其中一个就是赞助初创公司和来自分析公司的新动机,这些公司似乎得到一个信息,把产品称作是“机器学习”成果是一种流行的趋势,即使只是对分析做了轻微的提升。这造成了定义上的问题,没有命名,而且一些糟糕的分析实例和BI(商业智能)公司也采用一样过时的软件,然后打上机器学习的标签,仅仅是因为它听起来比数据分析更具有鲁棒性或者更复杂。这对于任何一个新技术领域都是持续的疼痛,尤其是一种技术正在快速发展的时候。Hall指出,用户需要理解他们的数据和问题,一旦掌握了它们,那么无论是标准统计还是数据库解决方案,都能处理一些更灵活(可能有点复杂)的问题。

这并不是说所有传统的统计公司和数据库公司都在改变它的产品消息,而不是提升机器学习技术。SAS在20世纪90年代末期引入了它的第一款数据挖掘产品(企业版数据挖掘),而且在当时,许多的机器学习模型也得到了大量的炒作(有神经网络、决策树、K均值聚类等)。Hall说,在当时,出现了一些使用企业数据仓库的数据去拟合缺乏任何参数假设的模型的事迹。因此,这并不是什么新鲜事——但这种问题的范围和数目正在不断增加,即使是没什么预期结果。

在企业领域中,成熟的机器学习行业是银行业,保险业和信用卡产业。有趣的是,这三个行业都是管制市场的实例,对不同的问题都有着对应的黑盒方法,这对监管者来说可能有些难以理解。“幸运的是,机器学习总有一个折衷的方法。你可以把希望的结果理解成更加准确,这对于调控行业来说可能很困难,但最后他们把它看成是一个机会,而且这个权衡的结果使他们感觉越来越舒服。”

Hall和他所在的公司强烈的意识到他们必须在语言和产品水平上保持创新,以赶上一个又一个机器学习初创公司潮流的步伐。“目前,这的确是一个备受关注的竞争,”他很赞成的说。“我们正在尝试将我们的技术和机器学习的并发性和可扩展性应用到这些问题中,但这毕竟是SAS,这意味着我们要受到语言语法的限制,老实说,好像过时了。”他说,即使这种技术比以往技术的鲁棒性都要好,但SAS仍然进退两难,因为改变核心语法意味着美国运通(American Express)和美国银行(Bank of America)的数据业务系统将会瘫痪。“我们能做的就是改变语法背后的运行,而且这也是我们现在正在做的。”

大型企业会如何去思考他们仓库里不能适用于标准回归模型的所有账单数据,这很难说。但为了公正起见,使用熟悉的框架和方法做更复杂的事情仍有其价值,特别是在寻找使用机器学习方法加强他们分析能力的监管行业,因为熟悉的框架和方法至少意味着会有一个正式的、熟悉的基础。这也正是SAS希望其成功进军机器学习大企业的地方——而对于一些新兴的初创公司,则会有一个艰难的时刻,主要体现在以过去的消费者为核心的图像和人脸识别、语音识别、或其它领域。

说已经看到机器学习黄金时代的黎明可能还为时过早,但远处的地平线已经开始绽放光芒。鉴于对机器学习投入的资金量和关注,作为大数据工具和方法的下一个重大合作伙伴,这似乎并不像是一个扩展。

原文链接:Why The Golden Age Of Machine Learning is Just Beginning(译者/刘帝伟 审校/赵屹华 责编/周建丁)

译者简介:刘帝伟,中南大学软件学院在读研究生,关注机器学习、数据挖掘及生物信息领域。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2016-03-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

实现无监督学习?谷歌雇百名语言学家为训练数据“镀金”

【新智元导读】自然语言处理大师 Fred Jelinek 有一句名言:“我每开除一名语言学家,我的语音识别系统错误率就降低一个百分点。”不过,在谷歌搜索 app...

33810
来自专栏数据派THU

独家 | 一文读懂社交网络分析-下(应用、前沿、学习资源)

本文主要阐述: 社交网络分析的应用 社交网络前沿研究 学习资料 参考资料 浏览前三章的内容请见上篇(2017年9月26日头条)。 四. 社交网络分析的应用 1....

25810
来自专栏PHP技术

人工智能和工作的未来

原文出处: Lukas Biewald 译文出处:腊八粥 技 术淘汰了某些种类的工作,并创造了其它种类的工作——从石器时代就是如此。在过去,机器取代了需要...

35012
来自专栏大数据文摘

重磅清单 | 当前AI领域尚未攻克的29个难题及进展评估(附百篇文献)

1853
来自专栏数据猿

【案例】大拇哥财富——互联网金融个人评分模型

数据猿导读 随着互联网技术的不断发展,传统金融业务也从线下不断转移到线上,很多原先在线下的金融机构开始在互联网上开展经营活动。由于线上和线下的经营方式的差异,在...

3506
来自专栏钱塘大数据

谷歌展示多款AI游戏:人工智能系统准确识别涂鸦

导读:据外媒报道,对谷歌来说,仅仅将机器学习和人工智能用于产品还远远不够。谷歌还希望用户能理解,这些技术是如何运转的。 去年,在深度学习引擎开源的几个月之后,谷...

3498
来自专栏机器之心

业界 | DuerOS普罗米修斯计划:30页国际专家PPT全面剖析对话式AI数据集

机器之心发布 百度 DuerOS 美国西部时间 11 月 9 日,百度 DuerOS 普罗米修斯计划在美国硅谷召开启动发布会。一周后,2017 百度世界大会上,...

31310
来自专栏AI科技评论

写影评、看图写诗、甚至生成视频,微软亚洲研究院梅涛博士讲解视频理解的最新进展 | CCF-GAIR 2017

AI科技评论按:7月7号,全球人工智能和机器人峰会在深圳如期举办,由CCF主办、雷锋网与香港中文大学(深圳)承办的这次大会共聚集了来自全球30多位AI领域科学家...

3817
来自专栏CDA数据分析师

吴甘沙:数据分析师进化的3道阶梯

9月11日—9月12日,由经管之家(原人大经济论坛)主办的“2015中国数据分析师行业峰会(CDA?Summit)”在北京举行。 英特尔中国研究院院长兼首席工程...

1787
来自专栏AI科技大本营的专栏

NLP顶级专家Dan Roth :自然语言处理领域近期的任务和主要应用

记者 | 周翔 AI科技大本营1月28日消息,《麻省理工科技评论》新兴科技峰会EmTech China在北京召开,营长也受邀参加,会上有多位人工智能领域的重磅大...

3466

扫码关注云+社区