科技:数据目录与机器学习市场的成熟

导语:这是大数据的时代。我们被信息所淹没,企业发现管理和从中提取价值是一项挑战。今天的大数据流不仅包括数量,种类和速度,还包括复杂性。正如SAS在大数据历史和当前注意事项中所确定的那样,这是来自多个来源的流的一个因素,这使得难以跨系统链接,匹配,清理和转换数据。

寻找有价值的洞察力不仅仅是简单地积累尽可能多的数据,而是寻找正确的数据。通过手动流程完成所有工作是不可能的。这就是为什么越来越多的企业“转向数据目录以使数据访问民主化,使部落数据知识能够策划信息,应用数据策略以及快速激活所有数据以实现业务价值”。这是数据目录(有时也称为信息目录)输入图片的地方。根据这里的定义,它们使用户能够探索他们所需的数据源并理解所探索的数据源,同时帮助组织从他们目前的投资中获得更多价值。其中一种方法是通过在可以利用或贡献它的不同类型的用户之间实现更大的数据访问

注意到2017年底对数据目录的需求急剧增加,Gartner称他们为“新黑人”。它们被认为是一种快速而经济的解决方案,“对组织日益分散和混乱的数据资产进行盘点和分类,并映射其信息供应链。” 由于“infonomics”的兴起,出现了这种情况的必要性,“infonomics”要求对跟踪信息应用与管理其他业务资产相同的一丝不苟。

Gartner 采用Forrester Wave:机器学习数据目录,2018年第二季度。该报告中超过一半的调查参与者表示他们正在计划建立他们的数据目录实施。可能他们在很大程度上受到这样一个事实的驱动:每个人在他们的组织中至少有七个数据湖。正如Gartner对数据目录的解释所解释的那样,数据目录对于提取数据湖中未分类形式的“数据的上下文,含义和价值”特别有用。Forrester报告称,超过三分之一的数据和分析决策者在2017年处理1,000TB或更多数据,一年前报告的数据仅为10%至14%。管理这种规模的数据是一项日益严峻的挑战,或者具体而言是两项挑战,将现有业务流程与源数据合并,以对其进行分析并实施洞察力,在数据增长时采购,收集,管理和管理数据。

Gartner确定了数据目录可以改善组织信息流和生产力的具体方式:整理和传达组织可用的最新信息资产清单。创建业务术语的通用术语表,用于定义组织数据的语义解释和含义,从而提供调解和解决定义不一致的方法。启用动态和敏捷的协作环境,使业务和IT同事能够评论,记录和共享数据。通过沿袭和影响分析提供数据使用透明度。监控,审计和跟踪数据,以支持信息治理流程。

捕获元数据以增强对数据使用和重用,查询优化和数据认证的内部分析。通过捕获,通信和分析存在的数据,存在的位置,使用的上下文,需要的原因,流程与系统之间的流动方式,对此负责的人员,具体含义,将业务使用中的信息内容化它有什么价值。Gartner报告称,要让组织中的关键人员正确识别和访问数据非常重要,不仅要找到“将数据资产从数字业务收益中获利”的方式,还要遵守法规,无论他们是否为行业,具体如健康保险流通与责任法案(HIPAA)或更一般的性质,如通用数据保护法规(GDPR)。

但没有什么是没有缺点的。对于数据目录,问题一直是手动构建它们所需的所有元数据所需的缓慢而繁琐的过程。这是机器学习组件的用武之地。Forrester评估的数据目录称为MLDC,因为它们利用机器学习的能力,这是AI的组成部分之一。正如Podium Data博客所解释的那样,这可以,构建一个持久的元数据存储库,然后应用ML / AI来挖掘和揭示有关底层数据资产的潜在有用见解。

总结:但是,不应仅仅依靠整体排名。该报告确实打破了每个人的特殊优势和劣势。因此,如果一个特定的功能,如研究和开发,对于一个组织来说至关重要,它可能会认为Hortonworks在这方面与IBM和Colilbra相同,因为这三个人在这个方面的得分最高,比Alation和Coloudera好两分,比剑桥语义学好四分。因此,Forrester报告建议那些使用其报告指导的人不要认为排名靠前的公司是每个人的最佳选择。他们应密切关注评估的细分,以找出符合其特定要求的内容。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181119A0XAMB00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券