前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习实践指南:理解、差异化和应用

机器学习实践指南:理解、差异化和应用

作者头像
陆勤_数据人网
发布2018-02-28 14:24:31
5750
发布2018-02-28 14:24:31
举报

作者:Rob Thomas 和 Jean-François Puget

机器学习由Arthur Samuel在1959年首次定义,即“学习领域,使计算机能够在没有被明确编程的情况下学习”。换言之就是,这就是分析的自动化,从而能够让分析得以大规模应用。

在过去几十年来,分析一直是高度手工操作的行为,分析师基本上都是手动来梳理数千行的表单,现在正由技术变得自动化起来,基本上通过一些简单的按钮就能够实现操作。那么,如果机器学习是在1959年就已经被首次定义,那为什么直到现在才是抓住机会的时候?

答案很简单:经济因素。

下面的相对关系图可以解释这一点:

(图注:过去十年,预算都被计算和数据占用,而现在是分析可以占主要部分)

自从机器学习被定义一直到过去 10 年内,机器学习的应用都受限于计算和数据获取以及准备等操作的成本。事实上,计算和数据耗尽了所有的预算,导致没有更多资金可以投入到真正推动价值的因素上,即获取可操作洞察的算法。

近些年,计算和数据的成本急剧下降,现在任何人都能够快速应用和探索机器学习。

快速适应

企业必须不断适应瞬息万变的业务环境:竞争者引入新产品,用户习惯改变,以及经济和政治环境改变等。这不是新变化,但是业务环境变化的速度在加快。对于为企业开发的技术解决方案来说,这种不断加快的变化节奏给企业增加了新的负担。

多年以来,应用开发人员已从周期最多可达数年的 V 形项目转向周期只有几月、几周,甚至常常只有几天的敏捷开发方法。这使得企业能够更快地适应其应用和服务需要,不管是零售商的销售预测,还是股票经纪商所需要的产品推荐系统,乃至备受期待的个性化医疗保健系统,都能够被满足。

这些场景以及其他类似场景,给机器学习创造了独特的机遇。诚然,机器学习本就是为适应这些问题的多变性而设计的。

首先,它将应用开发从编程转变为训练:应用开发人员使用新数据训练同一个应用,无需编写新代码。这是应用开发的一种根本性转变,因为每周,甚至每天都能够自动获得全新应用或者更新版本的应用。

这种转变是认知时代下的IT核心。

其次,机器学习促进了在数据所在位置(也就是最具业务价值的地方)自动生成可操作洞察。可以构建一些机器学习系统,从每一次的用户交互中学习,或者从物联网设备收集的新数据中学习。然后,这些系统基于最新可用数据生成输出。在传统 IT 开发中,即使使用了敏捷方法,也不可能做到这一点。

建立反馈循环

尽管大部分企业都已了解机器学习,但很少有企业付诸行动。他们要么因担心数据资产受到破坏而减缓进度,要么尝试一次之后就缩减投入,声称结果不尽人意。这些是常见的顾虑和考虑因素,但我们应该认识到,只要采用正确的方法,这些问题很容易解决。

首先看看数据。一个常见的误区是,认为只要有了数据,机器学习项目就会成功。数据不可或缺,但是机器学习需要明确的业务目标或结果。如果起初仅有很少或没有数据,但是拥有明确、可衡量的业务目标,则项目更可能成功。业务目标应规定相关数据的收集,还要指导机器学习模型的开发。此方法提供了一种评估模型有效性的机制。

机器学习项目的第二个误区是,认为它能一蹴而就。根据定义,机器学习是一个连续过程,所以项目在运行时必须考虑到这一点。

机器学习项目常常按如下方式运行:

1) 从收集数据和定义新业务目标开始。

2) 准备数据,因为最开始收集数据时通常并不会参考新业务目标。

3) 准备好数据后,对数据运行机器学习算法来生成模型。

4) 基于全新的、未使用过的数据评估该模型,验证它是否能从数据中获得合理的洞察。如果是,则将它部署到生产环境中,基于新数据执行预测。

这一典型方法很有价值,但是它受限于这样一个事实,即模型仅学习一次。您可能开发了一个不错的模型,但是不断变化的业务环境可能让它失去现实意义。

以使用机器学习检测信用卡交易异常为例。用过去多年的交易来创建模型,异常指的是欺诈性交易。然后将此模型部署在一个支付系统中,让它在检测到异常时进行标记。这在短期内很有效,但是聪明的罪犯很快会认识到他们的诡计已被检测到。他们会不断调整,找到使用被盗信用卡信息的新方法。模型将无法检测出这些新方法,因为生成该模型的数据中没有包含这些方法。结果,模型有效性将下降。

解决方法是通过将模型预测结果与实际情况相比较,监视预测结果的有效性。例如,经过一定的延迟后,银行会知道哪些交易是欺诈性的,哪些不是。然后,可以将实际的欺诈性交易与机器学习模型检测到的异常相比较。通过这种比较,可以计算预测结果的准确性。

然后我们可以不断监视准确性,观察准确性是否下降。出现下降情况时,就使用更新的数据刷新机器学习模型。这就是我们所谓的反馈循环。

参见下图:

(图注:反馈循环)

当然,反馈循环不仅能够应用于欺诈检测。甚至在零售银行业务方面,我们也看到机器学习模型通过反馈循环不断演化,能做到:

  • 自定义取款限额
  • 跨投资组合优化税收考量
  • 检测开支模式
  • 接受或拒绝抵押和贷款
  • 评估信贷限额
  • 留住客户
  • 提供情绪和新闻分析
  • 打击身份盗窃
  • 自动化文件审查
  • 检测财务报表中的风险
  • 向客户推荐其他产品

借助反馈循环,系统通过监视预测结果的有效性而不断学习,并在需要时重新训练。监视和使用收到的反馈是机器学习的核心。就像人类执行新任务、从错误中学习、调整行动一样,机器学习没什么不同。

DataFirst:成功三部曲

对于相信机器学习是分析旅程的核心组件的企业来说,需要一个经过测试且可重复的模型:方法论。与无数客户合作的经验,促使我们发明了一种我们称之为 DataFirst 的方法论。它是一种成功实现机器学习的循序渐进的方法。

阶段 1:数据评估

目的在于理解您的数据资产,验证满足机器学习的业务目标所需的所有数据都可用。如果不可用,可以立刻采取行动,引入与规定目标一致的新数据源(内部或外部)。

阶段 2:研讨会

研讨会的目标是确保机器学习项目的定义和范围一致。我们通常涵盖以下主题:

  • 规定机器学习能做和不能做的事情
  • 协商要使用哪些数据。
  • 协商要用于评估结果的指标
  • 探讨机器学习工作流(尤其是部署和反馈循环)将如何与其他 IT 系统和应用集成。

阶段 3:原型设计

原型设计的目的是利用实际数据展示机器学习的价值。它也将用于评估运行和操作已生产就绪的机器学习系统所需的性能和资源。设计完成后,原型往往是确保决策安全,构建生产就绪系统的关键。

在最近几个月,我们在全球启动了 5 个机器学习中心,在这些中心,我们引导客户完成 DataFirst 流程。

机器学习就是竞争优势

数据时代的领导者将在动态数据语料库的推动下,利用他们的资产开发出色的机器学习系统,获取有价值的洞察。差异化方法需要井然有序的流程,以及对基于反馈循环的差异化的关注。在现代业务环境中,数据不再是竞争优势的一个方面;它是竞争优势的基础。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-08-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学与人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
项目管理
CODING 项目管理(CODING Project Management,CODING-PM)工具包含迭代管理、需求管理、任务管理、缺陷管理、文件/wiki 等功能,适用于研发团队进行项目管理或敏捷开发实践。结合敏捷研发理念,帮助您对产品进行迭代规划,让每个迭代中的需求、任务、缺陷无障碍沟通流转, 让项目开发过程风险可控,达到可持续性快速迭代。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档