助您首个大数据项目破茧成蝶的实践指南

自从本世纪初软件应用开始在整个业务流程中盛行以来,一个不争的事实就是:数据改变了我们的工作方式。越来越多的企业认识到必须在大数据方面有所作为,但他们却并未切实规划出如何开展这项工作。而调查发现,切实展开的大数据项目,因为缺少明确目标,55%都会半途而废。在一项技术趋势早期阶段出现这样的失败并非罕见,倘若不吸取经验教训,那显然不是明智之举。

大数据项目失败的首要原因是缺乏清晰的目标。现在,让Informatica确保您计划的项目不会因为目标模糊而失败。

制定目标

1、确定业务目标

让我们先从业务开始,因为要使项目得到充分重视,这些目标必须放在比IT更重要的位置上。制定您希望项目实现的业务目标时,请尽量具体。并且记住确定产生可衡量影响的目标。例如,在可预测客户流失的客户服务接口示例中,项目列出的目标不应是像“提高客户体验”这样模糊的说法。目标越清晰,离实现目标的距离就越近。一个高度精确的目标比五个模糊的目标更有价值。

2、确定IT目标

现在,让我们看一下与项目相关的IT目标。需要指出的是,如果项目是要帮助IT更快更好地工作,向业务用户推销的时候会很困难。就其本身而言,IT目标的沟通描述应与业务用户十分感兴趣的目标结合。按照重要性高低列出与IT相关的大数据项目的目标。例如,建立聚合客户数据、信用卡使用数据、社交图数据和流失指标的实时收集、清洗、掌握和存储流程。

3、确定数据需求

现在我们已经概括介绍了如何制定大数据项目的具体目标,接下来我们开始直接讨论项目的核心——数据本身。无论是什么项目,必须战略性地思考您需要什么信息,使用什么数据集应对这种需求, 以及如何获取和使用这样的数据。

五个关键数据考虑事项

一旦列出您要寻找的数据,您就会更清楚地了解所面临的具体大数据挑战。尤其重要的是,在进一步行动之前,有五个您必须考虑的关键要素,这些要素将决定针对每个数据集以及您的大数据数据集需要采取的行动。

1、为海量数据做好准备

您必须做好应对需要“海量”数据的准备。从多个角度根据数据价值、使用情况、大小、复杂度以及允许访问数据的人员对数据进行分类。全面、有序的数据库存有利于您确定如何对所有数据进行管理。评估您的当前存储和处理能力,并寻找最经济高效的方式来扩展它。

2、应对多样性

大数据最具挑战性的一面是,必须在分析中统协多种不同的格式和结构。如果要在已经习惯使用的数据源之外增加新的数据类型和结构,则您必须集成大量的数据源。如果要对每次集成都进行手动编码,则会非常繁琐,必将耗费您的所有时间和资源。充分利用所提供的数据集成和数据质量工具,可以让更有价值的任务加快进度。

3、处理速度

实时流数据和历史数据相结合往往能提高分析的预测能力。因此,您所需要的某些数据只有在不断涌入您的系统时才可能有价值。实际上,大多数实时分析都需要基于流数据进行。这种数据通常来自不同的源并采用不同的格式。为您的项目准备流分析技术和一个逻辑基础设施,以便管理所有数据。

4、确保真实性

无论您的分析有多么重要,如果人们不信任其中的数据,它就一文不值。根据需要准备的数据创建类别,包括原始数据以及由经过清洗的可靠权威数据组成的数据存储等,该数据存储已进行精心组织并会受到掌控。

5、考虑合规性

您处理的不同数据集也会具有不同的安全规定和要求。对于每个数据集,您需要考虑需要采取什么措施来根据安全策略对数据进行匿名化处理。您的海量数据会分散在企业的数百个数据存储中。您需要熟悉敏感数据所在的位置,并通过加密来确保其数据源的安全性,然后对有权访问该数据的人员加以控制。除了对敏感数据进行安全、智能存档之外,还要随时在其迁移或进入开发和测试环境时使用预定义的规则使该数据脱敏。

对要处理的每个数据集应用上述五个考虑事项,您就可以更现实地做好准备以迎接大数据的挑战。但如果要建立一个更加稳固的大数据项目,您还必须为数据治理搭建一个程序框架。实际上,即使大数据项目的目标只是为一个部门创造价值,您也需要考虑设立一个小型数据治理委员会,以便您了解如何应对此类机构提出的独特挑战。

然后,您的大数据之旅即将启程。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190131A0CHME00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励