专栏首页PPV课数据科学社区你知道吗:机器学习发展的黄金时间只是刚刚开始?

你知道吗:机器学习发展的黄金时间只是刚刚开始?

尽管神经网络、人工智能和机器学习的嗡嗡声已经发展到相当的阶段。然后,就像很多人知道的那样,这里仍然没有发展出一套新的研究方法。如果有很多核心的算法和途径在这几十年里得到了一定的发展,那么它们的发展为什么仅仅还在起步阶段?

想要回答这些问题,那么我们来看一下最近这5年发生了什么事,或者与数据相关的焦点和相关工具。同时,我们也可以指出可扩展的计算能力为何发展的如此迅速,或者这方面已经更加的专业化,性能为每瓦和每秒(衡量)。这两个因素结合在一起导致了机器学习如此快速的发展,而日益增长的数据分析需求已经远远超出了标准数据库和计算方法,尽管这两个学科本身已经发展了数十年。有一点需要指出的是,我们已经在“数据成熟度”的顶峰——这个时候许多新的数据挖掘工具和相关结构也在迅速的发展(Hadoop,作为一个典型的例子),而这些工具也用于支持处理更大、结果更复杂的数据,同时它们的后劲也提高了数据分析的性能,或者完善了相关的架构。

那么,它会是机器学习尤其对于所有的公司和尝试过通过爬虫技术进行数据分析的终端用户来说,一个很自然的下一步吗?的确,对于大规模、复杂的数据分析的关注,以及系统和架构对它们的支持引发了一些相关的革命。但最终的,一些人会争论到,对于一些分析涉及到研究和企业运作的分析工作量来说,这些提升都让他们走到了事业的巅峰。所有的新方法和解决方案都来自于这块富含“大数据”的“土壤”中,而这些“土壤”历经了轮种和测试。在这里,还要再说一次,对于一个小(但在不断扩大)的工作量的集合来说,给另一种思考复杂问题的解决方法的方案提供了其发展空间。

这里并不是说不曾有关于新的机器学习方法的持续研究和发展,而这些方法以杠杆作用于超扩展的硬件发展中。但是,这里有一个更惊人的故事:讲述了Patrick Hall,一位曾经通过研发了一个市面上热卖的软件,SAS而在高级机器学习科学家中取得了特殊的定位的经历。他的故事的标题是值得我们去注意的,因为他现在致力于寻找一些不能用经典统计模式(这些问题正是这个企业致力于它们所从事的业务的过程中产生的)来解答,并力争把几个经典模型结合起来解释现存的企业产品的问题,最少可在某种程度上用到它们。

Hall断言说,当上述的趋势推动了机器学习往前沿发展的时候,现在有一点不一样的是数据终将存在一个足够容量大的容器中,而它们不再像统计分析师那样工作,再加上机器学习算法有了新的发展的时候,那么它的黄金时期也终将到来。

“这是说我们可以在很多地方都能看到数据的存在,它的范围比以前更宽了——也就是说它们的列比行更多,而且有了更多的变量和观察资料。这一切对于传统的统计学来说就不适用了。现在,这里有更多相关变量伴随的数据(例如,像素与图像数据相关),甚至还存在文本挖掘中。”Hall也同样说到,这里大量新产生的数据构成了一套资源,这套资源由迷失或松散的数据定义,这些数据只有百分之一或更少的数据集包含了确切的变量。

对于那些想要投入一定的时间来分析一种无法用传统的统计学方法分析的数据的商人来说,这里蕴含了一个巨大的商机——这个商机是给一些刚创立的公司一笔新的财富或者来自一些有一定知名度的分析公司新的主动权,而他们想要得到那些被称之为“机器学习”的产品的信息,甚至也只是稍微加优化过的分析,是他们所渴望的。这给定义又带来了这样的一个问题,而且这里没有命名名称,一些严重的分析例子和商业智能公司会使用一些旧的软件然后简单的打上一个“机器学习”的标准,因为这听起来比数据分析更加的健壮和复杂。这是其中一种在崭新的科技领域在发展时期所产生的阵痛,尤其是当超级机器加速它强大的引擎的时候。Hall说用户需要明白他们的数据及其问题所在,而且一旦发生了这样的情况,我们会很清楚的看到无论是一个标准的统计学还是数据库,其解决方案总会相对的适合一些更通用的东西(而且可能看起来会更复杂)。

这不是说每个传统的统计学和数据库公司都在改变它们的产品信息而不是围绕机器学习的技术。SAS在20世纪90年代的时候第一次以数据开发产品的方式(企业数据挖掘者)被介绍到世人面前的时候,它涵盖了很多机器学习的模型,而它们也让这产品在近来被大肆的炒作(神经网络、决策时、k均值聚类等等)。甚至有些像Hall所说的那样,有些模型还形成了很多的用例,而这些用例来自企业的数据仓库,以用来匹配那些缺少任何参数的假设的模型。所以这不是什么新鲜事——但是使用范围和问题的数量也在增长,甚至在有些地方都不会用这样的模型。

在企业的竞技场中,随着机器学习学科的发展和成熟,这使得隐含、保险和信用卡行业都发展迅速。有趣的是,这三样东西都是一个市场调控的例子,这些市场拥有黑盒测试法来解决监管部门需要解决的相关参数问题。

这里总有关于机器学习的公平交易的身影。你交易的可解释下是为了希望能得到更多精确的结果,然而这对于一个受管制的行业进行公平交易来说变得更为艰难。事实上,他们最终还是看到了这样的一个机会,而这样的公平交易也让他们感到更加的舒适和满足。

Hall和他的公司的人都清楚的意识到他们不得不同时在语言和产品的级别上保持创新,从而能跟上创业的浪潮,进而能不断的取得经费的支持。“现在你确实要意识到竞争在不断的加剧”,他赞同。“我们在尝试让我们的技术不断适应机器学习的并发性可扩展性当中所产生的问题。但是这是SAS,它意味着我们使用那些已经被认为是陈旧了的语言的语法将收到限制。”他说到即使现在的技术还能像以前那样健壮性比较强,SAS已经“不再实用”,因为改变了语法的核心意味着主要的框架在American Express和美国银行这样的企业中已经崩溃了。“我们现在能做的就是改变语法背后所运行的东西,而这也是我们现阶段所努力的方向。”

在这点上我们很难说多大规模的企业会考虑所有在数据仓库的数据哪些不再适用于传统的回归模型的账单中。如果想要做到公平,我们就要在熟悉的框架中做更多复杂的事情,而这些解决方案也似乎有了自己的价值,尤其是对那些收到调控的行业的人来说,他们企图要通过使用一些机器学习的方法来加强他们的分析能力,至少对于他们的理解和熟悉度来说是一个最基本的层次。这是SAS希望其进军机器学习为大型成功企业,并在一些新兴的创业公司将有一个艰难的时间转变过去的以消费者为中心的图像和脸部识别,语音识别,或者其他领域。

也许我们说机器学习已经在它的黄金时期走下坡路也为时尚早。但有些事情我们几乎可以肯定很快就会发生,并在不久的将来会看到显著的结果。而那些给予新的投资和注意在机器学习作为下一个在大数据工具和处理问题的方法来说是最好的合作伙伴的财富,这看起来不像是这个行业发展的延伸。

翻译:品言 审核:陆勤

原文链接:http://www.theplatform.net/2015/10/20/why-the-golden-age-of-machine-learning-begins-now/

PPV课原创翻译文章,转载请注明出处!

1、回复“数据分析师”查看数据分析师系列文章

2、回复“案例”查看大数据案例系列文章

3、回复“征信”查看相关征信的系列文章

4、回复“可视化”查看可视化专题系列文章

5、回复“SPPS”查看SPSS系列文章

6、回复“答案”查看hadoop面试题题目及答案

7、回复“爱情”查看大数据与爱情的故事

8、回复“笑话”查看大数据系列笑话

9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载

PPV课大数据ID: ppvke123 (长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

本文分享自微信公众号 - PPV课数据科学社区(ppvke123)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-11-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【应用】机器学习商业应用入门及七个实例

    机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或...

    小莹莹
  • AI时代就业指南:普通程序员转行大数据十问十答

    随着大数据的爆发,中国IT业内环境也将面临新一轮的洗牌,不仅是企业,更是从业人员转型可遇而不可求的机遇。如果将IT人士统一比作一条船上的海员,大数据就是最大的浪...

    小莹莹
  • 如何区分理解数据科学家与机器学习工程师

    数据科学家Vs机器学习工程师 原文: What are machine learning engineers来源: https://tech.co/12-way...

    小莹莹
  • 英国皇家学会百页报告:机器学习的力量与希望(豪华阵容参与完成)

    选自:英国皇家学会 参与:机器之心编辑部 以机器学习为代表的人工智能技术是当下最为热门的技术研究方向之一,其被认为对经济、社会、科学等都会有颠覆性的重大影响。近...

    机器之心
  • 专访CMU邢波教授:机器学习与医疗大数据,及大规模机器学习系统的开发

    用户1737318
  • 观点 | 重新思考机器学习:大数据消耗已无必要

    翻译 | AI科技大本营(rgznai100) 参与 | Shawn,焦燕 导读 机器学习炒了这么这么多年,为什么我们还没看到企业有开发出任何这方面应用?本文会...

    AI科技大本营
  • 谷歌教你学 AI -第一讲机器学习是什么?

    CDA字幕组 翻译整理 世界中充满了数据,大量的数据。图片、音乐、文字、电子表格还有视频。而且在短时间内丝毫没有放缓的趋势。机器学习给所有的数据带来意义。 A...

    CDA数据分析师
  • 气象遇见机器学习

    近些年来关于人工智能(AI)、机器学习(machine learning)、深度学习(deep learning)的新闻数不胜数。各领域也都高举人工智能大旗,试...

    zhangqibot
  • 简明数据科学(1):啥啥啥?这都是啥?

    原文:Data Science Simplified Part 1: Principles and Process 译者:杨德杰 2006年,英国数学家、Tes...

    陆勤_数据人网
  • 关于“机器学习”,医生们需要知道的5件事

    作者:麦子 转载请注明:解螺旋·临床医生科研成长平台 机器学习,简单可以理解为一种数据分析的方法。医生们对数据驱动型预测研究应该不陌生,比如利用风险评分来指导抗...

    企鹅号小编

扫码关注云+社区

领取腾讯云代金券

玩转腾讯云 有奖征文活动