机器学习实践指南:理解、差异化和应用

作者:Rob Thomas 和 Jean-François Puget

机器学习由Arthur Samuel在1959年首次定义,即“学习领域,使计算机能够在没有被明确编程的情况下学习”。换言之就是,这就是分析的自动化,从而能够让分析得以大规模应用。

在过去几十年来,分析一直是高度手工操作的行为,分析师基本上都是手动来梳理数千行的表单,现在正由技术变得自动化起来,基本上通过一些简单的按钮就能够实现操作。那么,如果机器学习是在1959年就已经被首次定义,那为什么直到现在才是抓住机会的时候?

答案很简单:经济因素。

下面的相对关系图可以解释这一点:

(图注:过去十年,预算都被计算和数据占用,而现在是分析可以占主要部分)

自从机器学习被定义一直到过去 10 年内,机器学习的应用都受限于计算和数据获取以及准备等操作的成本。事实上,计算和数据耗尽了所有的预算,导致没有更多资金可以投入到真正推动价值的因素上,即获取可操作洞察的算法。

近些年,计算和数据的成本急剧下降,现在任何人都能够快速应用和探索机器学习。

快速适应

企业必须不断适应瞬息万变的业务环境:竞争者引入新产品,用户习惯改变,以及经济和政治环境改变等。这不是新变化,但是业务环境变化的速度在加快。对于为企业开发的技术解决方案来说,这种不断加快的变化节奏给企业增加了新的负担。

多年以来,应用开发人员已从周期最多可达数年的 V 形项目转向周期只有几月、几周,甚至常常只有几天的敏捷开发方法。这使得企业能够更快地适应其应用和服务需要,不管是零售商的销售预测,还是股票经纪商所需要的产品推荐系统,乃至备受期待的个性化医疗保健系统,都能够被满足。

这些场景以及其他类似场景,给机器学习创造了独特的机遇。诚然,机器学习本就是为适应这些问题的多变性而设计的。

首先,它将应用开发从编程转变为训练:应用开发人员使用新数据训练同一个应用,无需编写新代码。这是应用开发的一种根本性转变,因为每周,甚至每天都能够自动获得全新应用或者更新版本的应用。

这种转变是认知时代下的IT核心。

其次,机器学习促进了在数据所在位置(也就是最具业务价值的地方)自动生成可操作洞察。可以构建一些机器学习系统,从每一次的用户交互中学习,或者从物联网设备收集的新数据中学习。然后,这些系统基于最新可用数据生成输出。在传统 IT 开发中,即使使用了敏捷方法,也不可能做到这一点。

建立反馈循环

尽管大部分企业都已了解机器学习,但很少有企业付诸行动。他们要么因担心数据资产受到破坏而减缓进度,要么尝试一次之后就缩减投入,声称结果不尽人意。这些是常见的顾虑和考虑因素,但我们应该认识到,只要采用正确的方法,这些问题很容易解决。

首先看看数据。一个常见的误区是,认为只要有了数据,机器学习项目就会成功。数据不可或缺,但是机器学习需要明确的业务目标或结果。如果起初仅有很少或没有数据,但是拥有明确、可衡量的业务目标,则项目更可能成功。业务目标应规定相关数据的收集,还要指导机器学习模型的开发。此方法提供了一种评估模型有效性的机制。

机器学习项目的第二个误区是,认为它能一蹴而就。根据定义,机器学习是一个连续过程,所以项目在运行时必须考虑到这一点。

机器学习项目常常按如下方式运行:

1) 从收集数据和定义新业务目标开始。

2) 准备数据,因为最开始收集数据时通常并不会参考新业务目标。

3) 准备好数据后,对数据运行机器学习算法来生成模型。

4) 基于全新的、未使用过的数据评估该模型,验证它是否能从数据中获得合理的洞察。如果是,则将它部署到生产环境中,基于新数据执行预测。

这一典型方法很有价值,但是它受限于这样一个事实,即模型仅学习一次。您可能开发了一个不错的模型,但是不断变化的业务环境可能让它失去现实意义。

以使用机器学习检测信用卡交易异常为例。用过去多年的交易来创建模型,异常指的是欺诈性交易。然后将此模型部署在一个支付系统中,让它在检测到异常时进行标记。这在短期内很有效,但是聪明的罪犯很快会认识到他们的诡计已被检测到。他们会不断调整,找到使用被盗信用卡信息的新方法。模型将无法检测出这些新方法,因为生成该模型的数据中没有包含这些方法。结果,模型有效性将下降。

解决方法是通过将模型预测结果与实际情况相比较,监视预测结果的有效性。例如,经过一定的延迟后,银行会知道哪些交易是欺诈性的,哪些不是。然后,可以将实际的欺诈性交易与机器学习模型检测到的异常相比较。通过这种比较,可以计算预测结果的准确性。

然后我们可以不断监视准确性,观察准确性是否下降。出现下降情况时,就使用更新的数据刷新机器学习模型。这就是我们所谓的反馈循环。

参见下图:

(图注:反馈循环)

当然,反馈循环不仅能够应用于欺诈检测。甚至在零售银行业务方面,我们也看到机器学习模型通过反馈循环不断演化,能做到:

  • 自定义取款限额
  • 跨投资组合优化税收考量
  • 检测开支模式
  • 接受或拒绝抵押和贷款
  • 评估信贷限额
  • 留住客户
  • 提供情绪和新闻分析
  • 打击身份盗窃
  • 自动化文件审查
  • 检测财务报表中的风险
  • 向客户推荐其他产品

借助反馈循环,系统通过监视预测结果的有效性而不断学习,并在需要时重新训练。监视和使用收到的反馈是机器学习的核心。就像人类执行新任务、从错误中学习、调整行动一样,机器学习没什么不同。

DataFirst:成功三部曲

对于相信机器学习是分析旅程的核心组件的企业来说,需要一个经过测试且可重复的模型:方法论。与无数客户合作的经验,促使我们发明了一种我们称之为 DataFirst 的方法论。它是一种成功实现机器学习的循序渐进的方法。

阶段 1:数据评估

目的在于理解您的数据资产,验证满足机器学习的业务目标所需的所有数据都可用。如果不可用,可以立刻采取行动,引入与规定目标一致的新数据源(内部或外部)。

阶段 2:研讨会

研讨会的目标是确保机器学习项目的定义和范围一致。我们通常涵盖以下主题:

  • 规定机器学习能做和不能做的事情
  • 协商要使用哪些数据。
  • 协商要用于评估结果的指标
  • 探讨机器学习工作流(尤其是部署和反馈循环)将如何与其他 IT 系统和应用集成。

阶段 3:原型设计

原型设计的目的是利用实际数据展示机器学习的价值。它也将用于评估运行和操作已生产就绪的机器学习系统所需的性能和资源。设计完成后,原型往往是确保决策安全,构建生产就绪系统的关键。

在最近几个月,我们在全球启动了 5 个机器学习中心,在这些中心,我们引导客户完成 DataFirst 流程。

机器学习就是竞争优势

数据时代的领导者将在动态数据语料库的推动下,利用他们的资产开发出色的机器学习系统,获取有价值的洞察。差异化方法需要井然有序的流程,以及对基于反馈循环的差异化的关注。在现代业务环境中,数据不再是竞争优势的一个方面;它是竞争优势的基础。

原文发布于微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文发表时间:2017-08-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

谷歌研究阻止“人工智能毁灭人类”的核心,都在这篇论文里面了

马斯克和霍金等科技界名人纷纷表示,要警惕人工智能失控。图片来源:CT。 人们一定还没忘记,今年谷歌DeepMind的人工智能软件AlphaGo打败了世界围棋大师...

307100
来自专栏人工智能头条

构建实战机器学习系统的10点经验(二)

17230
来自专栏新智元

【干货】开发者如何掌握机器学习?传统方法可能都走了弯路

【新智元导读】作为一名开发者,怎么才能加入时下正火热的机器学习?本文作者Jason认为,传统的方法,包括从经典图书、博客文章或线上课程进行学习成效不大,甚至“错...

369160
来自专栏大数据文摘

【干货】推荐系统原理介绍

489120
来自专栏DT数据侠

让数据帮你找到属于自己的“忠实粉丝”

层出不穷的音乐社区网站,打破了传统的媒体“造星方式”,越来越多的平民歌手通过社区网站上传和发表自己的音乐作品,来获取品味相投的粉丝。但平民歌手想要“火”,离不开...

11600
来自专栏CSDN技术头条

Facebook开源Torchnet,加速AI研究

近日,Facebook 发表了一篇学术论文和一篇博客帖子详述Torchnet——一个用于简化人工智能——深度学习的新型开源软件。 图片描述 深度学习涉及海量数据...

23090
来自专栏量子位

谷歌再推AI开源平台AI·ON,你有机会参与Bengio的项目了

安妮 发自 凹非寺 量子位 出品 | 公众号 QbitAI 再次亮相。 首次推出一年后,谷歌又重新推出了AI开源项目讨论合作平台AI·ON(Artificial...

29860
来自专栏机器人网

MIT分布式运算革新机器学习算法

从语音识别系统到自助停车等人工智能领域,“机器学习”的最新进展总能吸引大众的眼球。 所谓机器学习,就是让计算机在数据库中搜索特定模型从而获得新技能,以及让自主机...

34860
来自专栏PPV课数据科学社区

【干货】个性化推荐十大挑战(中)

前文介绍了个性化推荐十大挑战的背景其中的数据稀疏性问题,冷启动问题。本篇介绍个性化推荐十大挑战中的大数据处理与增量计算问题,多样性与精确性的两难困境,推荐系统的...

40590
来自专栏人工智能头条

猜你喜欢-----推荐系统原理介绍

23520

扫码关注云+社区

领取腾讯云代金券