Teradata CTO:将筛选数据的时间用来决策,机器学习如何改变商业决策模式

大数据文摘作品,转载要求见文末

作者 | 钱天培

5月19日,Teradata天睿公司在上海举办主题为“数据分析 卓越业务”的2017大数据峰会”。本届峰会围绕数据分析和业务咨询在各个行业的应用,尤其探讨了数据分析在人工智能、机器学习等前沿领域的应用和趋势。

天睿公司首席技术官、全球数据仓库技术的一流专家Stephen Brobst在会上做了演讲,Stephen Brobst主要谈到了机器学习和人工智能在过去的20年间是如何改变商业决策模式的,以及如何更好地在这次浪潮中获益。他指出,运营智能化正逐渐成为了一种商业决策的新模式。

图:Teradata天睿公司首席技术官宝立明(Stephen Brobst)

将筛选数据的时间用来决策

从上世纪90年代起,随着商业运营数据井喷式的产生,以及数据存储技术的变革,运营智能化逐渐成为了一种商业决策的新模式。然而直到2010年,大多数公司对于越来越多且杂乱无章的数据一筹莫展。大部分公司浪费了90%的时间来搞清楚他们那些一团乱麻的数据到底代表了什么,而忽略了决策这一最终环节。而在这个时间节点,人工智能和机器学习带来了突破性的解决方案。

人工智能的到来使得这些杂乱无章的处理变得自动化。人类不必再需要手动查找各种变量,而把这一过程交给机器,实现变量自动化选择。机器学习的介入并不是要推出什么新的预测、算法,它更多的是提出了一种新的概念——将从数据中学习从而获取信息的过程自动化。得益于此,现在我们可以将90%的时间用在决策这一最终目标上。

Stephen用图表的形式论证,人工智能在北美地区的应用呈指数级上升。几乎所有公司都开始强调用人工智能做决策。

从线性回归到深度学习

人工智能带来了数据处理的自动化,而这种自动化有95%是依靠线性回归实现的。

关于对需求的预测,包括预测一些会发生的欺诈情况,有很多变量,还有数据和预测的结果之间的非线性的回归,这就叫做人工智能,能够远远超出传统的一些机器学习的范畴。

深度学习:从理论到现实

不同于线性模型,深度学习使用了一种多层次的神经网络的技术。这是一种非线性、非关系型数据库。深度学习淡化了领域知识的必要性,使得人们在只具备些微领域知识甚至不具备领域知识的情况下也能实现数据分析的自动化。

我们来看一下深度学习是跟机器学习有什么不一样。在把人工智能转换成更加狭隘的定义就是深度学习。深度学习最基本来说,叫做一种多层次的神经网络的技术,以便来创建在中间的数据的表示功能来解决问题。这些是属于非线性的、非关系型的数据库。这些领域有很多繁杂的数据,或者是缺失的数据,或者是高维度的数据,都可以通过深度学习解决,而那些线性的模型在这个集群里是难以解决问题。

这些数据可以来自于各种不同的数据源,把这些数据汇集在一起,让我们的神经网络技术来自我组织、预测结果,这就对维度的知识、来自于数据科学家的支持的要求就少了一些。跟以前的科技相比,我们比较容忍丢失数据或者繁杂的数据,比如说这些犯罪者要去进行欺诈,因为被掩盖所以他们的数据很难找到。我们的神经网络能够更加有效地找出它的模式,并且能检测这些欺诈。这叫做多层次的神经网络的技术,从理论上说,它已经存在差不多有超过50年的时间了。

以前这种技术都是用一种学术论文里边描述的,并没有在现实当中真正被使用。这里边的原因是什么呢?因为这些技巧太需要大量的计算密集型的应用,很难有及时的预测,而且计算时间很长。这是需要大量的计算密集型的技术和能力,但是计算机的能力最近几年发展非常快,有能力充分地利用特殊的一些处理工艺,能够在过去几年让我们把深度学习从学术理论变成了一种现实当中可行的现实。其中一项关键技术是GPU的技术,就是图形处理技术。GPU也已经存在很长时间了,在我们在线游戏上都在用。比如孩子们在玩一些大量的怪兽、机器等游戏,还有魔兽等游戏,GPU能够提供这样一种图形和能力,有这样的用户进行游戏体验。GPU的技术能够搞清楚如何来掌握这种技术。

作为一个产业来讲,能够在神经网络上执行一些学习的算法。以前的算法在计算上是被限制了,现在我们能够来执行更大范畴的能力,能够用更高效率的技术。GPU技术企业的股价在过去几年已经爆棚了,并不是因为游戏爆棚、增长,而是计算机科学家们搞清楚了如何来映射人工智能、深度学习放在GPU的技术里边。Teradata拥有GPU技术高级开发实验室,以及合作伙伴有亚马逊AWS,他们有GPU的技术,以及一些instances配置的一些情况。Teradata技术有充分利用这样的并行处理能力,能够来开发多层的神经网络的技术,能够来推动这样一些预测,能够来覆盖很多行业。Teradata充分地利用这些算法的发展,这些实验室能够利用GPU的开源技术,能够结合我们实时的流处理的能力。

这有一个来自于一个美国的高科技制造公司的例子,他们有100万个不同的变量,而且这些就是计算要用的,来看一下有没有机会能够改变。传统的线性的模型不能够应对这么多数据,而且是没有线性关系的数据。有了深度学习之后,以及我们所说的多层神经网络的深度学习,他们就可以实现很好的改进,能够看一下机会在什么地方进行预测。这样的话,在他们的制造流程中就能做得更好。

那么这个预测的核心是什么?就是开源的软件。特别是在这个领域中的发展,人工智能的发展最重要的东西是从开源社区来的。我们可以看一下加州伯克利大学,还有Google的开源,还有Facebook的开源,他们这种开源的项目是可以给客户带来价值的。但是,你用了开源软件包进行部署,这对于数据科学家来讲需要很多专业知识。这些工具包可以到网站上去获取到,包括有开源的神经元的网络,这样你能够感觉得到用这些神经元网络的预测结果的能力,但是做软件的时候是很难的。

这个机器学习问题有100万个不同的变量,远超出传统的线性的模型的处理能力。而深度学习则能有效地进行数据分析,从而给他们的制造流程提供重要的优化建议。

使开源技术变得平易近人

开源社区对人工智能发展所作出了重要贡献。如加州伯克利大学的开源,Google的开源,Facebook的开源等。这些开源技术能够为客户带来巨大的商业价值。然而,这些开源技术的实际应用对许多非数据科学家来说可不是那么简单的。

Teradata的人工智能专家团队通过对开源部署的关于及研究开发出了ThinkDeep这有框架,从而为非数据科学家建立了使用深度学习的生态系统。ThinkDeep旨在将深度学习和机器学习的框架带入实际中去,从而落实为企业的优秀分析能力。

人工智能在金融领域的广泛应用

在演讲以及会后记者问答环节中,Stephen为大数据文摘记者介绍了人工智能在金融领域的应用案例。

Stephen:很重要的一个应用是反欺诈,有了深度学习以后,它可以很大程度上降低欺诈的情况,使欺诈行为发生得越来越少,尤其是考虑到罪犯是变换不同的欺诈手法,因此学习的速度应该是特别特别快才行。

还有金融公司也想知道客户花钱的情况,比如说花钱都在什么地方、干了什么。如果他是刷信用卡,就很容易知道是在餐馆、机场还是什么地方花的,因为都有一个码,代表哪个是餐馆、哪个是什么。

还有一部分美国人爱写支票,比如他在哪花了300美元,作为金融机构来讲,不知道他花钱买了什么东西。要是识别这个人在支票上签字,最后谁签收的支票的时候,他可能能通过这个了解到这个客户到底是在什么地方花了这笔钱。但是因为人写字的时候写得乱七八糟,有的写得不清楚,所以识别起来还是挺不容易的。现在有了深度学习,深度学习来识别手写字体,到底是在什么地方、谁写的什么的时候,比人要做得更好。

来源:http://blogs.sas.com/content/subconsciousmusings/2017/04/12/machine-learning-algorithm-use/

关于转载 如需转载,请在开篇显著位置注明作者和出处(转自:大数据文摘 | bigdatadigest),并在文章结尾放置大数据文摘醒目二维码。无原创标识文章请按照转载要求编辑,可直接转载,转载后请将转载链接发送给我们;有原创标识文章,请发送【文章名称-待授权公众号名称及ID】给我们申请白名单授权。未经许可的转载以及改编者,我们将依法追究其法律责任。联系邮箱:zz@bigdatadigest.cn。

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2017-05-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【技术辟谣】Facebook机器人发明语言系误读,专家访谈还原真相

【新智元导读】Facebook AI “发展出人类无法理解的语言” 火了,但这实际上源自一些媒体的误读和炒作。研究计算机是否能(非监督地)独立产生自己的语言本身...

33140
来自专栏大数据挖掘DT机器学习

一个资深数据人对 数据挖掘 的解读

数据分析网 http://www.afenxi.com/post/7348 在银行做了两年的数据分析和挖掘工作,较少接触互联网的应用场景,因此,一直都在思考一个...

36390
来自专栏新智元

Facebook对话AI发展出人类无法理解语言,肇因两个智能体参数跑偏

【新智元导读】在名为 Dealor No Deal? End-to-End Learning for Negotiation Dialogues 的论文中,Fa...

44990
来自专栏新智元

【机器学习面试终极通关指南】从打造性感履历到跨越面试三大关卡

来源:Reddit 编译:费欣欣,胡祥杰 【新智元导读】 机器学习工程师薪资水涨船高,在国内,毕业生的平均年薪也达到了30-50万,一些人拿到了上百万的薪...

41760
来自专栏CDA数据分析师

收藏 | 新手零基础数据分析入门指南

什么是数据分析? 数据分析是指用适当的统计分析对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。在实用中,数据分析可帮助人...

261100
来自专栏腾讯技术工程官方号的专栏

腾讯AI Lab刘霁谈机器学习,异步计算和去中心化是两大杀器

本文转载自「AI科技评论」,搜索「aitechtalk」即可关注。 编者按:并行计算是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器...

421130
来自专栏新智元

【谷歌AI换帅】Jeff Dean正式接管,人工智能和搜索部门一分为二!

17440
来自专栏CDA数据分析师

互联网和金融 在数据挖掘上究竟存在什么区别?

在银行做了两年的数据分析和挖掘工作,较少接触互联网的应用场景,因此,一直都在思考一个问题,“互联网和金融,在数据挖掘上,究竟存在什么样的区别”。在对这个问题的摸...

30150
来自专栏PPV课数据科学社区

【数据分析】互联网和金融,在数据挖掘上究竟存在什么区别?

一、数据挖掘的层次 一直想整理下对数据挖掘不同层次的理解,这也是这两年多的时间里面,和很多金融领域、互联网做数据相关工作的小伙伴,聊天交流的一些整理和归纳。大概...

45890
来自专栏CDA数据分析师

吴甘沙:数据分析师进化的3道阶梯

9月11日—9月12日,由经管之家(原人大经济论坛)主办的“2015中国数据分析师行业峰会(CDA?Summit)”在北京举行。 英特尔中国研究院院长兼首席工程...

23070

扫码关注云+社区

领取腾讯云代金券