大数据文摘作品
编译:傅一洋、笪洁琼、魏子敏
提升数据分析能力正成为企业数字化转型的当务之急。
成功的企业数字化案例显然有自己的共同点:
重视数据质量、重视数据上下文、以及建立有效的数据管理体制。
而失败的企业则各有各的问题。
我们调研了118家公司的首席信息官(CIO)、首席技术官(CTO)、数据总管以及IT部门的员工及顾问,找到了这7种企业数据实践中最可能出现的问题。
只做数据集中,并没有对数据进行整合
“数据整合是当今数据分析面临的最大挑战。”SAS公司的业务解决方案顾问,数据治理专业组织(DGPO)的首席发言人Anne Buff说道。
实际上,许多公司只是简单地将数据堆积在一起,并未对不同来源的数据进行整合。就拿身份认定来说,比如一套系统下“路人A”的信息与另一套系统下“路人A”(甚至可能是重名)的信息之间,没有进行关联,这样的话,就无法对“路人A”的身份进行完整性描述。
“数据整合并不等于将数据集中到一起,”Buff说,“对于某个研究对象,要将不同来源的数据相互关联,以便获取更准确的信息定位。一旦你这样做,当这一切相关数据都聚集在一起时,它将达到一个更完整的结果,即比尔史密斯是谁。你必须将它们关联起来。”
Buff还说道:各种数据集成技术使之成为可能,同时,正确的选用、实现并执行数据整合的技术,减少不必要的人工操作和重复劳动这点很重要。
数据科学家会通过数据来寻找并分析竞争优势,可能的突破点等等,因此,数据整合也变得越发重要。
“如果不将以往所有的数据整合,就无法发现其中的模式。”Buff说道。
忽视了不同业务对数据的需求差别
“整合的集成数据技术对于一个成功的分析程序是至关重要的,必须要意识到不同业务部门对数据的需求是不同的,”Buff说道,“数据的形式不能千篇一律。相反,还需要考虑数据供给,IT部门需要将业务类型与数据形式相匹配。”
并不是所有的业务都需要整合过后的数据。以金融机构的众多需求为例,风控部门需要未经处理的原始数据,以从中发现异常。比如通过搜寻多组数据中某个人地址信息的,确定其是否申请了多笔贷款等。
“这些业务更倾向于研究多组相似数据间的差别,因此这些差别是要有所保留的。”Buff解释道。
另一方面,诸如市场部等部门希望实现准确的用户信息定位,因此只需要其中正确的那组数据。
数据工程师可能比数据科学家更重要
数据科学家这个职业在过去几年中正迅速抢占硅谷、纽约、中关村、西二旗的各大互联网公司。一大批传统企业也开始设置这个职位,并且大批招募。
毕竟,每个公司都希望通过势头正盛的新兴技术使业务分析具有一定的预测性和分析说明,这需要专业团队和人员的支持。
但通常,这些公司挂出的招募岗位只有数据科学家这一种。
这是远远不够的。
数据科学家需要数据工程师来收集数据集,但是,数据工程师这一职位,在许多公司没有受到应有的重视。
“目前,大公司对数据工程师的需求增速是对数据科学家需求的两倍。” 贝恩公司旧金山办事处合伙人,高级分析和数字化实践负责人Lori Sherer这样说。
美联邦劳工统计局预测,目前数据工程师的平均年薪已经达到135,800美元,且未来十年里,对数据工程师的需求将继续保持快速增长态势,2026年前将新增44200个相关的就业岗位。
有专家称,同很多IT岗位一样,数据工程师的人才供不应求,部分企业会通过招聘或者从IT部门普通员工中选拔培训,来弥补这一人才缺口。
缺乏对数据时效性和生命周期的管理
近十年来,随着数据存储成本不断降低, IT部门可以将大量数据存储起来,并保存很长的时间。对于不断增长的数据量和数据分析需求来说,这是个好消息。
“公司都希望拥有大量数据。”Soaring Eagle咨询公司的创始人、《挖掘新黄金:管理你的商业数据(Mining New Gold: Managing Your Business Data)》的合著作者Penny Garbus说道。
但Garbus同时认为,许多企业都将数据留存的过久了。
“这不仅仅是存储成本的问题,超过十年的数据基本没有时效性了。”她说,“数据要被赋予生命周期。”
Garbus认为,数据留存期限要根据不同部门、不同组织来确定。例如,零售行业需要的是即时和相关的数据,而市场部门需要多年来的历史数据以探寻趋势。
这需要IT部门根据不同部门的需求,制定一套明确的数据时效标准,从而确保数据的有效性。
Garbus还补充道,对于那些“老旧”数据,只要保证有就可以了,不要将其放在核心数据库中。
只关注数据量而忽视数据相关性
“我们总喜欢用最容易获得的数据进行建模与分析,而不是最相关的。” Booz Allen Hamilton(IT咨询公司)的高级副总裁Steve Escaravage说。
他认为,这是目前公司或组织普遍存在的一个误区。或许,在寻找更多的数据集之前,应该先想想数据是否相关,而不是询问我们是否有正确的数据。
比如,许多公司会从大量数据中寻找异常。尽管充分性很重要,但优秀的公司同样兼顾数据的针对性。他们会关注来自于特定个体和机构的数据,并从中发现异常。比如医疗结构在分析病例时,会考虑到医生的轮班周期等。
Escaravage认为,公司或组织可以列一个数据意愿清单,由业务部门填写意愿,由CIO、CTO或首席数据高管实现数据收集。
忽略数据来源
“当今数据分析存在一个显著的问题,是数据偏见。偏向性的数据会造成分析结果偏差,从而影响到正确的业务决策与结果。其中的偏见来源于整个分析过程涉及的许多个部门,包括IT部门处理数据方式,都会有一些偏见。”Escaravage说道。
“很多时候,IT部门在对数据来源的追踪上,做的并不完善。如果无法意识到这一点,就会影响到数据模型的的性能,而且,缺乏数据来源的可见性使得对偏见的控制更为困难。”
Escaravage觉得,IT有义务搞清楚数据的来源在哪里,以及来源的相关情况。在投资数据管理的同时,也要制定一套源数据管理解决方案。
缺乏面向用户的数据上下文
Escaravage认为,不仅应该有一个强大的源数据管理程序,它可以追踪数据的来源,以及它是如何在系统中运行的,它应该为用户提供一些历史信息,并为一些通过分析产生的结果提供背景信息。
“有时我们会认为,拥有绝佳的数据和模型已经足够完美,但是近几年,由于分析方法越来越复杂,对数据和分析结果的解释变得越来越少。不像前几年,在将分析结果应用于业务时,会根据业务规则对数据进行分析阐述。”他说。
Escaravage解释道,更新的深度学习模型为分析结果提供了一些注解,也为决策提供了一些可行的建议,但无法提供对最佳决策有帮助甚至至关重要的上下文,例如某件事情发生的可能性与确定性等信息。因此,需要能提供更好的用户界面以帮助用户进行决策。
“其中的技术问题在于,要明确用户与数据模型的交互程度如何。UI/UX界面决定了系统对用户的透明度,而透明度取决于用户对分析结果的钻研深度,这些都是首席信息官(CIO)在建立分析系统前,应当考虑清楚的。”
相关报道:
https://www-cio-com.cdn.ampproject.org/c/s/www.cio.com/article/3269012/analytics/why-data-analytics-initiatives-still-fail.amp.html