什么是数据质量?

数据是企业最重要的资源之一。它可以用来帮助你的生意顺利进行,实施新的策略,等等。

了解数据质量

数据一直是组织的核心。它是组织日常业务顺利进行和实施新战略的基石。分析数据和做出数据驱动决策的能力变得越来越重要。

个人也从数据的使用中获益良多。无论是投资股票还是找一个合适的房子来买,数据都为我们做决定提供了丰富的信息。数据是决策的基础,提供信息,帮助得出各种见解,帮助做出有效决策所需的预测。收集数据的来源有多种。

例如:

内部数据库:这些是企业和机构中最相关、最可靠的数据源。它们通常采用结构化格式,通常记录来自各种内部应用程序的数据,比如ERP(企业资源计划)、CRM(客户关系管理)和HCM(人力资本管理)。

平面文件:平面文件(平面文件(flat file)是去除了所有特定应用(程序)格式的电子记录,从而使数据元素可以迁移到其他的应用上进行处理。这种去除电子数据格式的模式可以避免因为硬件和专有软件的过时而导致数据丢失。 平面文件是一种计算机文件,所有信息都在一个信号字符串中。)是组织最常用的数据源之一。平面文件产生于组织外部的来源,或者当没有合适的机制来集成各种内部数据时。例如,供应商可以发送定期的平面文件,这些文件可以上传到组织的内部数据库中。此外,在组织中两个或多个应用程序之间没有集成的情况下,平面文件作为交换数据的媒介。在大多数情况下,平面文件中的数据被认为是不可靠的,并执行一些检查来验证和验证数据。

Web服务和API:Web服务是不同应用程序之间通信和数据交换的首选媒体。它们提供了一种标准化的数据通信和交换方式。它们是可靠的,数据验证很容易嵌入。

其他来源,如来自社交媒体、博客帖子、音频和视频的数据,正逐渐成为需要存储和分析的重要信息来源。

然而,并不是所有的数据都有用或服务于既定的需求。例如,假设我想买一栋房子。然而,我得到的数据提供了与我所考虑的不同领域的购房历史趋势。这不合我的需要。除非信息足够好,否则数据就根本没办法使用。

适合预期使用的数据称为有用数据。不良数据阻碍了分析过程。立即找到一个可靠的数据集是非常困难的。我们必须精心制作和培育良好的数据。在本文中,我们将讨论在组织中管理、监视和改进数据质量的各种技术。对于那些依赖数据进行活动的个人来说,其中的一些内容也很有用。

高质量数据具有以下特性:

1、适合使用-正确和完整。

2、是对现实世界的真实反映。

3、它是可用的、一致的和可访问的。

数据质量可以根据以下维度进行测量:

1、完整性:是否有丢失或无法使用的数据?

2、数据是否符合标准格式?

3、一致性:数据值是提供一致的信息还是提供冲突的信息?

4、准确性:数据是准确的,还是过时的?

5、重复:数据记录或属性在不应该重复的地方是重复的吗?

6、完整性:数据是可引用的还是缺少约束?

定义数据质量的主要特征有两个

1、数据可用性

可用性意味着数据可以提供特定任务所需的相关内容。例如,关于客户年龄或位置的数据可能有助于消费品行业的客户保留计划。但是,关于客户地点的天气或土壤质量的数据可能无法用于这种保留活动。然而,这些天气或土壤质量数据可能对花卉行业的目标客户有用。因此,数据可用性与其驱动特定任务的操作/洞察的能力相关,并且它需要与工作相关的精确表示。当相似的数据出现在多个位置(比如不同的数据库和数据仓库)时,它们需要同步以具有相同的数据表示形式。

2、数据量

数据量定义了分析所需的数据量。在数据质量计划开始时估计和评估数据量对于程序的成功是至关重要的。我们需要的数据是太少还是太多?观察的次数是多少?没有太多数据的缺点是什么?这些问题可以帮助我们决定驱动数据质量计划所需的工具和技术。

手动检查数据以确保适合使用是确保数据质量的最佳方法。当数据量太小时,这是可能的。然而,鉴于我们目前拥有的数据量,仅仅依靠手工处理是太高了。为了消除人为错误和减少数据不准确,我们不得不依赖于各种技术和技术。我们需要遵循数据质量策略来保证数据的高质量。

有不同的阶段可以提供管理、监视和改进数据质量的能力,如下所示:

1、解析和标准化:从数据中提取片段以验证是否遵循特定模式的过程。如果它不符合模式,则对数据进行格式化以提供一致的值。

2、广义清理:消除数据中的错误和不一致的过程。

3、匹配:跨两组或多组数据比较、识别或合并相关实体的过程。

4、概要分析:分析数据集内容以验证数据的准确性、一致性和唯一性的过程。

5、监视:持续访问和评估数据以确保其符合目的的过程。

6、 充实:通过使用来自各种内部和外部来源的数据来提高数据质量的过程。

原文发布于微信公众号 - 程序你好(codinghello)

原文发表时间:2018-08-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

数据工程师必看:分析数据时常见的 7 类统计陷阱

我们会发生各种极有可能出现的混淆,数据抽取之后“迷恋”于数字,脑子里没有分析的目标,自己的局限影响指标选择......当分析数据的时候我们都很容易犯错。不过,用...

9630
来自专栏lx的专栏

一个智能应用程序的剖析

物联网,大数据和机器学习技术正在塑造下一代商业应用。这些智能应用为创新型数字企业提供以下支持:

30140
来自专栏Linyb极客之路

“大话架构”阿里架构师分享的Java程序员需要突破的技术要点

源码分析是一种临界知识,掌握了这种临界知识,能不变应万变,源码分析对于很多人来说很枯燥,生涩难懂。

10910
来自专栏产品成长日志

翻译神器 | 不会外语也可环游全球

3月29日,谷歌翻译在APP Store正式更新了5.8.0版本,中国用户可以直接使用谷歌翻译APP的全部功能。也就是说现在,在中国的用户无须梯子,也能正常使用...

11220
来自专栏北京马哥教育

数据分析≠Hadoop+NoSQL,不妨先看完善现有技术的10条捷径

马哥linux运维 | 最专业的linux培训机构 ---- 让业务搭乘大数据技术确实是件非常有吸引力的事情,而Apache Hadoop让这个诱惑来的更加的...

35350
来自专栏码神联盟

碎片化 | 第五阶段-04-项目人员配备介绍-视频

如清晰度低,可转PC网页观看高清版本: http://v.qq.com/x/page/g0500yo70hg.html 人员搭配 ?

35280
来自专栏JAVA烂猪皮

“大话架构”阿里架构师分享的Java程序员需要突破的技术要点

源码分析是一种临界知识,掌握了这种临界知识,能不变应万变,源码分析对于很多人来说很枯燥,生涩难懂。

12320
来自专栏phodal

全栈的另外一种可能性:写在《全栈应用开发》出版一周年

16220
来自专栏ATYUN订阅号

新型AI助理BAYOU或将成为无代码编程的救星

想象未来有一天,即使不是程序员也将能够指示AI为他们创建软件,这是实现这一目标的一个步骤,它对我们和AI开发有着广泛的影响。

11730
来自专栏IT大咖说

阿里构建实时大数据系统的秘诀——流计算

内容来源:2018 年 6 月 23 日,阿里巴巴云计算平台事业部产品经理郭华在“数据智能实践技术沙龙”进行《基于流计算构建实时大数据处理系统》演讲分享。IT ...

55120

扫码关注云+社区

领取腾讯云代金券