前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何测试数据质量?看完你就知道了!

如何测试数据质量?看完你就知道了!

作者头像
苦叶子
发布2019-05-30 14:52:13
2.3K0
发布2019-05-30 14:52:13
举报
文章被收录于专栏:开源优测开源优测

客观的讲,数据质量是质量保证的基石之一,我想没有哪个企业会不同意这一事实。

但我们如何去评估数据的质量?

如何去辨别什么是好的数据质量呢?

在中国大部分企业客观的讲,基本没有意识到数据质量的重要性,更没有专门的数据质量测试计划、团队、投入等。

下面从几个方面就数据质量的测试做些分享。

数据质量标准

对于特定的业务和功能,我们需要去定义好数据质量的checklist,定义如何处理数据、数据状态及结果等,为评估数据质量提供基准。

所以我们在构建checklist时,除了业务相关还需要考虑一些通用的领域:

  1. 数据获取,如何获取数据?是当前企业所真正拥有的数据吗?还是来源第三方?
  2. 可访问下,数据是否可访问?给谁访问?有多快?
  3. 可用性,当前企业是否可使用这些数据吗?
  4. 结构,数据是否具备良好的结构化,并且以一种易于使用的方式?
  5. 可靠性,数据的可靠性如何?我们是否可以相信它?它是否适合使用?
  6. 一致性和完整性,数据的一致性如何?是否是完整的?其约束关系是否正常?

数据质量测试

一旦确定了目标数据质量标准,那么我们就可以计划进行数据质量测试了,数据质量测试一般有几个步骤:

  1. 定义特定的数据质量指标
  2. 测试实施并标定基准
  3. 尝试一个或多个解决方案
  4. 评估结果

下面我就这四个步骤进行相对详细的说明。

定义特定的数据质量指标

仅仅定制数据质量标准对于实际测试工作还是远远不够的,我们还需要针对特定的指标进行测试。例如:它是什么类型的数据?我们拿这些数据用来干什么?仔细的考量数据的业务用途,将会更利于我们定义影响业务的特定指标,一些简单的业务场景如下:

- 邮件退回量

- 手机号码

- 地址格式

- 个性化服务用户数

所以重要的数据质量指标应该是根据业务领域、技术、用户特征、应用场景等进行变化。

测试实施并标定基准

如果不定义基准状态指标,就无法推动数据质量的改进,而且随着测试的深入基准应该进行一定的修订,以适应数据质量改进带来的变化。

尝试一个或多个解决方案

在测试实施过程中,一旦意识到严重的数据质量问题时,要立即着手解决。可以探索和实践不同的解决方案来解决与团队、人员、流程或技术相关的数据质量问题,甚至是修订测试方案。

评估结果

在一段时间的测试实施后,应该根据初始的度量标准对结果进行一定的评估,从而根据实际的评估结果、问题等情况调整、甚至更改解决方案,以确保每次测试实施后数据质量得到改进。

最后,数据质量对于不同的组织,业务意味着不同的东西,但只要我们依据实际的业务和组织需要定义了有意义的度量标准,并针对这些标准定制了测试方案进行测试,那么我们一定可以找到合适的促进数据质量改进的方法。

另外你可以参考以前的大数据相关的几篇文章,见下面的链接,谢谢

在自动化测试中,重要的不是工具

大数据测试过程、策略及挑战

大数据测试之ETL测试入门

软件测试工程师又一大挑战:大数据测试

jmeter入门系列v1.0电子版

Python3接口测试pdf+源码免费领

快学Python3系列

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-02-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 开源优测 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档