专栏首页数据科学与人工智能【数据】数据质量和数据治理为什么重新引起关注?

【数据】数据质量和数据治理为什么重新引起关注?

数据治理和数据质量已经存在了相当长的时间,但这些重要的数据管理实践近来又重新引起关注。Dataversity最近采访了Syncsort产品管理总监哈拉尔德·史密斯(Harald Smith),就数据治理和数据质量的这种复兴和未来发展方向,请史密斯谈了谈他的看法。

他们的网站写道:“Syncsort是一家为大型机提供大数据解决方案的领先企业。”Syncsort的关注点是大型机的高性能数据排序。史密斯说:

“在高性能数据移动和转换的过程中,排序是关键的一步。但有一个大问题要解决,那就是‘如何有效地处理移动中的数据?’”

一年多以前,Syncsort收购了Trillium Software。史密斯说,Trillium现在为Syncsort提供了“一个非常广泛的数据管理组合”,而对核心遗留数据的获取已经成为一个重要课题。Trillium出身自数据质量领域,其关注点是解决核心数据清理、标准化和重复项删除方面的挑战。

史密斯说,凭借这次收购和新扩展的数据管理组合,“我们现在向全球大约6000家企业提供产品。我们在金融服务领域一直非常突出,在零售和酒店业等领域也是如此,这些领域非常重视”从客户数据中寻找洞见。

数据质量和数据治理的复兴

史密斯认为,近期使人们对数据质量和数据治理重新产生兴趣的驱动因素主要有两个,分别是合规性和提高市场竞争力的渴望。他说,自从2008年金融危机以来的这十年中,金融服务行业很多时候都在努力解决合规性问题,但欧洲的数据隐私法规(特别是《通用数据保护条例》)正在对所有行业产生重大影响。

史密斯认为,美国不会在2018年出台类似法规,但他说,“任何跨国企业都必须解决这一问题。你不会真的想处于被动局面”。他指出,有些工具可以识别、监控并按要求删除信息类型,即使是在未必预料到的地方。

“你希望对数据有那样的了解,这肯定强烈地促使你采用各种工具,帮助你了解你的大数据环境和整个数据图景,持续不断地进行监控。你知道这可能帮助你发现那些客户数据所在的位置。这是明显的驱动因素。”

Syncsort产品管理副总裁基思·科尔(Keith Kohl)也分享了他的一些想法。他同样认为,监管和隐私是使人们对数据治理和数据质量重新产生兴趣的两个驱动因素。

“随着企业越来越懂得如何使用大数据,大数据不再只是任何人都能进入的沙箱,它是真正的工作负荷,需要围绕它进行治理控制。这是强制性的:需要建立一些流程,需要一些人来执行,这项技术本身必须支持所需的控制和审核。”

另一个驱动因素不那么明显,但越来越多的客户向史密斯表示了这点,那就是提高竞争力。“我想增加公司收入,我想了解如何更高效地完成任务,这意味着我必须可以处理我能信任的、拥有正确内容的数据。”

他举了一个例子。有一家做网络销售的公司想知道其英国客户的位置,他们的方法是查看IP地址,并在地图上标示出来:

“有些请求来自北部,有些来自西南部,但很多的地理位置信息都模糊不清,是基于非标准化的集中式信息,而且没有验证基于地址的内容。然而在应用了一些质量工具之后,整个图景都发生了变化。”

突然之间,这家公司发现,他们的大多数客户和询问都来自伦敦及附近郡县,这需要他们改变其营销工作的侧重点。

数据质量和数据治理的交集

史密斯看到了一个趋势,即人们越来越了解数据质量在企业成功中发挥的作用:

“人们开始认识到,明智的商业决策需要高质量的数据,这就是他们希望数据质量到位的重要原因。然后你可以开始说,‘我该怎么实现?’好吧,我需要数据治理流程发挥作用,这样我就可以对数据质量进行监控、衡量和密切追踪。”

数据治理创造了一种数据质量文化,以便“所有业务线都了解数据质量对企业作出明智决策的重要性”。科尔还说:

“除非拥有恰当的数据治理策略(包括数据质量控制和监测),否则根本做不到这一点。这仍将是2018年的一个紧迫问题。”

数据质量和数据治理:不再可有可无

“数据治理和数据质量一直都很重要,”史密斯说。哪怕是在20年前也是如此。“那时,数据还不像现在这么多,但重点不在于有多少数据。如果你不治理,数据没有质量,即使数据再多也无济于事。”

史密斯强调,基本的数据管理实践、概念和技术一直都在我们身边,“甚至变得更加突出。为了能够利用这些数据集做好数据科学,你必须知道你在做什么,否则你将浪费大量的时间和金钱”。不了解数据的来源,或者不了解数据是否适合预期用途,都会对成本产生影响。此外,数据不仅呈指数增长,而且来源日益广泛。

“数据增长的速度越来越快,管理起来非人力可及。因此,你必须开始采用一种质量控制方法(一种衡量方法),这是数据治理过程的重中之重,”他说。

史密斯说,最近有研究显示,很多数据科学家花费了近80%的时间寻找和准备数据。他说,就人力成本而言,这不是一项划算的投资。

“你付钱让他们处理你的数据,提出新的洞见和建立新的模型,帮助你评估有关客户或行业的不同预测,但他们的时间却没有花在这些事情上。”

虽然仍有试验的空间,但按照数据治理策略创建的可重复过程必须就位。

“在这么做的时候,你必须能够为下一个人提供严谨性,说‘这就是我获得此数据源的地方。’我认为,在未来五年左右的时间里,随着各行各业努力钻研这些概念并试图管理那些数据,我们将会看到这方面的大幅变化。这就是关于数据质量和数据治理的实践和工具真正的发展方向。”

史密斯说,保持竞争力越来越有必要,人们越来越意识到数据分析和机器学习等技术对企业成功的作用,这两点推动了文化上的转变。“我认为另一个重要因素是如何改变整个公司,使其具备数据方面的知识,了解什么是数据。”企业如何解决这个问题?企业可以使用哪些工具来帮助解决这个问题?仅仅有了工具是不够的。工具到位后,企业还必须让员工明白这些工具能做什么。

史密斯认为,当企业努力应付体量庞大、增长迅猛的数据时,这种文化上的转变对企业至关重要。

支撑新技术:数据治理和数据质量

科尔看到了一个更快获取信息的趋势,企业可能担心自己改变得不够快。“如果你无法实时进行数据分析,现在还不算太晚,但你需要立刻行动起来。”他预计,机器学习的应用将超出数据分析的范畴。

“人们越来越意识到,人工智能可以应用于生活中的一切,不管是简化他们的工作,还是帮助他们做出明智的决定。Syncsort预测,在2018年,机器学习和人工智能将在各种技术中更加普及。从产品到分析,再到数据质量和数据治理,人工智能适用于一切。”

史密斯还预测,未来五年,新技术的广泛使用将有助于改善“数据质量和数据治理的实践和工具”。由于大量数据来自不同的来源,因此必须制定数据治理策略,以便“对一切进行标记和记录,使你能够了解内容、来源和完整程度,从而不会(做出)有偏见的商业决策”。

史密斯说,根据高质量数据作出明智的商业决策,“这是数据治理和数据质量的发展方向”。

原文: DataQuality and Data Governance: A Resurgence of Interest and Future Maturity

来源: http://www.dataversity.net/data-quality-data-governance-resurgence-interest-future-maturity/

转自品觉公众号

本文分享自微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-04-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【数据分析】Intel研究院院长吴甘沙:大数据分析师的卓越之道

    吴甘沙 Intel中国研究院第一位“首席工程师” Intel中国研究院院长 ? 亲爱的各位同仁,各位同学,早上好。讲到大数据,就要问数据分析师应该做什么?所以我...

    陆勤_数据人网
  • 【数据】数据驱动的流程和产品

    “只是拥有数据自然用处不大,真正的赢家是像Amazon或Netflix这类公司,他们比竞争对手更好地利用了大数据而取得了竞争优势。如果不能数据变成收入,你的Ha...

    陆勤_数据人网
  • 【数据科学家】养成方案 9步从菜鸟成为数据科学家

    由于数据科学和数据分析是个快速发展的领域,当前的合格申请者严重缺乏。这使得数据科学家对于那些有兴趣,并寻找新的职业生涯的人成为有前途的和有利可图的领域。 ? 漫...

    陆勤_数据人网
  • 源头数据采集与智能设备投资

    源头数据是企业大数据应用的基础,也是所有数据分析和挖掘工作的基础。没有原始数据,所有的大数据都找不到依据。很多企业之所以不知道“大数据在哪里呢”,就是因为没有构...

    明悦数据
  • 闲聊大数据是什么

    今年回家有人问了我一个问题,大数据是什么?在这个领域里工作了这么久,竟然一时不知道怎么回答。是的,大数据到底是什么呢?每个人都在谈论,比如大数据分析、大数据XX...

    哒呵呵
  • 数据太多、太乱、太杂?你需要这样一套数据治理流程

    最近,明略科技与合肥工业大学的研究者在中文核心期刊《软件学报》上发表了一篇关于数据治理的论文。它介绍了数据治理的概念,并对数据清洗、交换和集成等进行具体分析,从...

    机器之心
  • 你了解你的数据吗

    0x00 前言 你了解你的数据吗? 前几天突然来了点灵感,想梳理一下自己对数据的理解,因此便有了这篇博客或者说这系列博客来聊聊数据。 数据从业者有很多,比如说数...

    企鹅号小编
  • 数据预处理和挖掘究竟该怎么做?硅谷网红告诉你

    Siraj Raval 作为深度学习领域的自媒体人在欧美可以说是无人不知、无人不晓。 凭借在 Youtube 上的指导视频,Siraj Raval 在全世界吸...

    AI研习社
  • “第五届中国国际大数据大会”将聚焦大数据创新应用

    一份简单的外卖,如何在骑手人员调配、天气变化、出菜速度等因素实时变动的情况下,可以及时送到消费者手里?

    IT大咖说
  • 未来战争,军事大数据决定主动权

    大数据文摘

扫码关注云+社区

领取腾讯云代金券