为何机器学习的黄金时代才刚刚来临

虽然已被关于神经网络、人工智能和机器学习的热烈讨论所包围,但很多人都知道,这些方法根本没有什么新颖的东西。让人疑惑的是,这些算法和方法早在几十年前就已经存在了算法和方法,那么为何现在才是它们如日中天的时候呢?

为了回答这个问题,我们先围绕数据和工具来看看在过去的五年里究竟发生了什么。我们可以看到,可扩展的计算能力在急剧上升,或者更确切地说,是每瓦特和每比特的性能。这两个因素合并到一起,增加了发展的气焰,而且日益发展的数据分析已经远远地超越了存在数十年的标准数据库和计算方法。问题是,我们正处于“数据炒作”的风口浪尖——急于开发一系列的工具和框架(正如Hadoop这个示例)来支持更大更复杂的数据集,然后再努力去增强新框架的数据分析性能。

因此,对于那些已经登上数据表现顶峰的公司和用户,机器学习会成为他们下一个方向么?事实上,对大规模、复杂分析以及支撑它们的这些系统和框架的关注,促使了一些发展。但最终,可以得到这样一个结论,无论是学术界还是工业界,这些进步都已达到了自己的巅峰。这些从肥沃的“大数据”土壤里成长的新方法和研究,也都得到了充分的训练和测试。然而,对于一系列受限(但在增长)的工作负载而言,还有另一种解决复杂问题的思考方法。

这并不是说,那些能够利用可扩展硬件的新机器学习方法没有前进的研究和发展。但这有一个更大的故事,Patrick Hall解释道,他在统计软件巨头SAS中拥有高级机器学习科学家(senior machine learning scientists)的独特地位。他的头衔值得注意,因为他正在寻找不能很好适用于经典统计建模方法(他所在公司的主要研究领域)问题的解决方法,目的是将这些方法集成到现有的企业产品中——至少能在某个点用到。

Hall声称,虽然上述的所有趋势正在推动机器学习走向最前沿,但这有一个例外,也就是数据最终的体量特别大,使得统计分析方法已经难以发挥自身的优势。再加上机器学习算法的新发展,这意味着机器学习的黄金时代终于来临了。

“‘宽度大于长度’的数据集随处可见——这些数据集列数大于行数,而且有更多的变量和观测值。所有的这些都不利于传统的统计方法,而且现在,有着相关变量的数据(例如,和图像数据有关的像素)越来越多,甚至存在于文本挖掘中。”Hall公正地说道。此外,大量的新数据来源于数据缺失的数据集或是稀疏数据集,这些数据集中有用的数据不到整个集合的1%。

对于那些想要去投资分析传统统计方法无法适用的数据的企业,这有很多的机会——其中一个就是赞助初创公司和来自分析公司的新动机,这些公司似乎得到一个信息,把产品称作是“机器学习”成果是一种流行的趋势,即使只是对分析做了轻微的提升。这造成了定义上的问题,没有命名,而且一些糟糕的分析实例和BI(商业智能)公司也采用一样过时的软件,然后打上机器学习的标签,仅仅是因为它听起来比数据分析更具有鲁棒性或者更复杂。这对于任何一个新技术领域都是持续的疼痛,尤其是一种技术正在快速发展的时候。Hall指出,用户需要理解他们的数据和问题,一旦掌握了它们,那么无论是标准统计还是数据库解决方案,都能处理一些更灵活(可能有点复杂)的问题。

这并不是说所有传统的统计公司和数据库公司都在改变它的产品消息,而不是提升机器学习技术。SAS在20世纪90年代末期引入了它的第一款数据挖掘产品(企业版数据挖掘),而且在当时,许多的机器学习模型也得到了大量的炒作(有神经网络、决策树、K均值聚类等)。Hall说,在当时,出现了一些使用企业数据仓库的数据去拟合缺乏任何参数假设的模型的事迹。因此,这并不是什么新鲜事——但这种问题的范围和数目正在不断增加,即使是没什么预期结果。

在企业领域中,成熟的机器学习行业是银行业,保险业和信用卡产业。有趣的是,这三个行业都是管制市场的实例,对不同的问题都有着对应的黑盒方法,这对监管者来说可能有些难以理解。“幸运的是,机器学习总有一个折衷的方法。你可以把希望的结果理解成更加准确,这对于调控行业来说可能很困难,但最后他们把它看成是一个机会,而且这个权衡的结果使他们感觉越来越舒服。”

Hall和他所在的公司强烈的意识到他们必须在语言和产品水平上保持创新,以赶上一个又一个机器学习初创公司潮流的步伐。“目前,这的确是一个备受关注的竞争,”他很赞成的说。“我们正在尝试将我们的技术和机器学习的并发性和可扩展性应用到这些问题中,但这毕竟是SAS,这意味着我们要受到语言语法的限制,老实说,好像过时了。”他说,即使这种技术比以往技术的鲁棒性都要好,但SAS仍然进退两难,因为改变核心语法意味着美国运通(American Express)和美国银行(Bank of America)的数据业务系统将会瘫痪。“我们能做的就是改变语法背后的运行,而且这也是我们现在正在做的。”

大型企业会如何去思考他们仓库里不能适用于标准回归模型的所有账单数据,这很难说。但为了公正起见,使用熟悉的框架和方法做更复杂的事情仍有其价值,特别是在寻找使用机器学习方法加强他们分析能力的监管行业,因为熟悉的框架和方法至少意味着会有一个正式的、熟悉的基础。这也正是SAS希望其成功进军机器学习大企业的地方——而对于一些新兴的初创公司,则会有一个艰难的时刻,主要体现在以过去的消费者为核心的图像和人脸识别、语音识别、或其它领域。

说已经看到机器学习黄金时代的黎明可能还为时过早,但远处的地平线已经开始绽放光芒。鉴于对机器学习投入的资金量和关注,作为大数据工具和方法的下一个重大合作伙伴,这似乎并不像是一个扩展。

原文链接:Why The Golden Age Of Machine Learning is Just Beginning(译者/刘帝伟 审校/赵屹华 责编/周建丁)

译者简介:刘帝伟,中南大学软件学院在读研究生,关注机器学习、数据挖掘及生物信息领域。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2016-03-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【数据挖掘】互联网和金融 在数据挖掘上究竟存在什么区别?

文|周学春 在银行做了两年的数据分析和挖掘工作,较少接触互联网的应用场景,因此,一直都在思考一个问题,“互联网和金融,在数据挖掘上,究竟存在什么样的区别”。在对...

263100
来自专栏新智元

【谷歌AI换帅】Jeff Dean正式接管,人工智能和搜索部门一分为二!

17540
来自专栏about云

什么阻碍了强人工智能的发展

问题导读 1.哪些问题阻碍了人工智能的发展? 2.这些问题出现的原因是什么? 导读 当今科学虽然非常发达了,但还是没能很好的理解和解释我们的世界。三...

39770
来自专栏腾讯技术工程官方号的专栏

腾讯AI Lab刘霁谈机器学习,异步计算和去中心化是两大杀器

本文转载自「AI科技评论」,搜索「aitechtalk」即可关注。 编者按:并行计算是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器...

435130
来自专栏人工智能头条

为何机器学习的黄金时代才刚刚来临

12420
来自专栏AI科技评论

业界丨从 AlphaGo 说起, DeepMind 官方回顾 2016 年大事记

AI 科技评论按:“我们正处在最好的时代,我们正处在最坏的时代。”《双城记》的开篇同样适用于今天。 这个时代变化多端,复杂多样,我们正在经历气候变迁,也曾忍受新...

35770
来自专栏产品成长日志

要想学习好,套路不能少

视频中所提及的定桩记忆法,常用100个数字桩,神奇的大脑论文请点击【阅读原文】下载使用。

11330
来自专栏新智元

【重磅】DeepMind进军星际争霸2,谷歌Facebook打响通用AI战争

【新智元导读】7日,Facebook刚刚宣布开源史上最大的《星际争霸》游戏数据集STARDATA。今天(10日)DeepMind在官方博客上宣布开源星际争霸2 ...

40540
来自专栏PPV课数据科学社区

【数据分析】互联网和金融,在数据挖掘上究竟存在什么区别?

一、数据挖掘的层次 一直想整理下对数据挖掘不同层次的理解,这也是这两年多的时间里面,和很多金融领域、互联网做数据相关工作的小伙伴,聊天交流的一些整理和归纳。大概...

46690
来自专栏机器之心

专栏 | 深思考:实现人机多轮交互突破是攻克图灵测试的核心

机器之心专栏 作者:杨志明、王泳、毛金涛 本文作者是中科院 NLP 博士,深思考人工智能机器人科技 ideepwise 的首席架构师/CEO 杨志明博士,首席...

432100

扫码关注云+社区

领取腾讯云代金券