学习
实践
活动
工具
TVP
写文章

机器学习与数据质量的相辅相成

作者:Anu Jain,Teradata天睿公司

你决定开始机器学习(ML)的项目来强化业务分析能力,这是一件好事,这是未来不可抵挡的趋势。我是机器学习坚定的支持者,因为我认为它和人类学习的方式相仿——在学习时都会调用所有已有的经验,并从经验的结果中学习。仅仅凭借分析技术的帮助,通过这样一个自然的过程,我们就可以获得更深入、更有预见性的洞察。

但是,我常常看到许多公司会犯一个错误,让他们厌倦机器学习、以及广泛的人工智能技术,但这个错误和机器学习技术或者其中运用的算法本身并没有什么关系,那就是:他们利用了质量太低的数据,所以得到的也是错误的结果。但问题是他们往往都没有意识到他们的数据质量很低,所以总是归咎于算法。

那么要怎么判断数据是否可信呢?这其中有一套流程,不能只是凭直觉拍脑袋,而是要仔细思考一些困难的问题。首先第一个问题就是:这些数据是从哪来的?其次,可以看到数据质量的统计数据吗?如果你的数据科学家告诉你,数据是从内部数据库来的,数据已经被清洗过并且调整格式,那么根据你们公司数据质量的管理政策判断,这些数据质量的统计数据是可以接受的,那么你就可以使用这些数据。

但如果数据是从公共渠道来的、或者是自己收集拼凑的,又或者数据没有被清洗和验证过,那么就不应该信任这些数据。在使用这些数据之前,必须坚持验证数据、严格对照你的数据质量政策。如果数据的质量无法通过测试,那么在使用前必须坚持对数据进行清洗。这可能会延缓你的进程,但相对于数据能够提供的洞察的价值而言,清洗它的成本是完全值得的。

从一开始就提高数据质量有助于形成良性循环,它和机器学习是相辅相成的,机器学习也能够帮助企业提升数据的质量。举个例子,机器学习能够帮助解决在提高数据质量方面最大的难题:数据匹配和数据副本的删除。例如,假设你是一家大型的金融机构,正在和一家名为东部社区银行(ECB)的小型银行共同合作。不同的业务部门对这家银行的叫法可能不同,可能叫它ECB、东部银行或者社区银行。说到这里你就明白了吧,不管是在系统里还是在表单里,只要人类负责数据的录入,那么他们就可能会走捷径、或者发生错误。

而机器学习就能帮助企业抓出这些错误,并对数据进行清洗,同时在往后的环节中保持数据的清洁度。通常说来,寻找并清洗数据的流程是非常艰巨的——哪怕是使用市面上最好的数据质量工具也是如此。但是,通过机器学习,整个流程就能够得到简化,因为有了正确的数据匹配算法,机器就能够学会数据匹配,并随着流程对数据进行清洗。

忽然之间,以往需要花费几周的数据匹配流程现在几天之内就可以完成。这么做有什么好处呢?假设现在东部社区银行的系统发生了故障,那要怎么知道有多少信息被暴露了?以往的做法是要等上几个星期,让分析师们把数据表一个个倒出来,在另外一个不同的、不互相连接的系统中逐一排查可能存在的匹配信息;而现在不同了,现在你可以更快地获取这些信息,并且可以相信,这些信息是准确且完整的。企业可以评估披露的信息并快速制定计划,那么你可能就比另外一个也被ECB暴露的竞争对手更快一步了,这意味着多大的优势啊!

如何判断数据是否可信?

此外,有了机器学习技术以后,算法能够通过学习变得更加地智能,你向算法中投入下一组的数据,它就能通过以往的经验来利用这一组数据。每投入一组数据,这个过程就会重复一次,所以算法会变得越来越智能。

数据匹配只是通过机器学习提高数据质量的一个例子,此外还有误差侦查和矫正等更多的利用方法,能够不断地监控数据格式化的流程和数据质量,在不需要人工参与的情况下自动优化数据——在这里只是举几个例子。算法模型的开发如此迅速,所以数据质量对于机器学习新使用案例开发的重要性一天天地显现了出来。

数据质量和机器学习之间存在相辅相成的良性循环。没有干净的高质量数据,机器算法实际上是无用的。这其实就是“garbage in, garbage out(无效输入导致无效输出)”。但是,如果向算法模型中投入干净的数据,它们就可以大大提高洞察的质量,远远超过以往通过非机器学习强化分析手段可以获得的成效。同时,机器学习算法还可以通过帮助清洗数据来提供支持,所以说这是一种双赢。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180905G17EYN00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券