专栏首页开源优测如何测试我们的数据质量?

如何测试我们的数据质量?

观点:测试数据质量与你拥有多少数据无关,而与你如何为其建立数据质量测试有关。

客观的讲,当下有能力、有意愿去构建数据质量测试的企业少之又少,甚至绝大部分企业并未意识到数据质量需要测试。

对测试人员而言,具备数据质量测试意识的亦少之又少,而具备数据质量测试能力的则更少了。

但随着人工智能与产业的进一步结合,数据质量成为了成功的基石,数据测试也将逐步的成为测试人员必须具备的能力之一,可以想象一下,如果数据质量出现问题,你的AI模型训练采用有质量问题的数据进行训练,将会是怎样的后果?

但是我们如何评估数据质量以确定数据可用?我们如何知道数据质量的构成呢?

如果没有数据质量测试,我们可能永远不会知道可能遇到哪些潜在的数据问题或这些问题的严重性,这将会使得我们在寻求正确的解决方案时变得极其的困难。因此在进行数据质量评估之前,我们必须针对我们的业务创建数据质量checklist。

通常来讲,不存在唯一的、一次性的、定义好的数据质量checklist,因为我们必须针对特定的业务和功能来定制checklist,我想数据定义方式和数据的处理方式,都可以为我们定义好的数据质量checklist提供依据。

根据质量ios标准、经典软件测试理论,我们在考虑定制数据质量checklist时,应该至少包括下面的内容:

可利用性:数据的可利用性如何?这些数据是你实际拥有的吗?

可访问性:数据可以访问吗?给谁?多快?

可用性:这些数据你的团队可以直接使用?

结构化:这些数据是否都是结构化的?其结构是否合理?是否易于使用?

可靠性:数据的可靠性如何?我们可以相信它?它合适我们的目的?

一致性和完整性:数据的一致性如何?是否完整?还有空白吗?

一旦我们确定了对业务重要的指标,就可以考虑进行数据质量测试了,一般包含以下关键过程:

1. 定义特定的数据质量指标

拥有上述广泛的、粗矿的数据质量checklist是远远不够的,我们需要针对特定的指标进行测试。例如它是什么样的数据类型?数据长度是什么?数据约束是什么?等等

重要的数据质量指标应该是结合行业需要、特定领域而所有不同,而不是照搬一个模板。

2. 进行初步测试,以确定基准

如果不进行初步的测试,尝试定义基线状态,就无法真正的推动数据质量的提高。

3. 尝试解决方案

一旦确定了数据质量存在问题,就可以进行解决了,我们需要与业务人员、开发人员、产品人员等不同角色的人员进行沟通、交流以探索、尝试更多的不同的解决方案。形成立即解决方案和长期的解决方案,以避免数据质量问题再次出现。

4. 评估解决

在解决方案定义和实施一段时间后,我们需要对其进行评估。结果改变了吗?我们的数据质量标准是否有所改进?根据实际情况调整、甚至修改解决方案。

数据质量对于每个组织、团队、业务都是有差异的,但是只要我们定义了针对我们业务的有意义的标准并进行了实际的测试,就可以确保找到推动改进的方法。

写了一堆,发现好像没提工具之类的,又要被喷太虚了,还是推荐个库吧,python的一个库datatest。

datatest有助于加速和形式化数据争论和数据验证任务。它将软件测试实践用于数据准备和质量保证项目。Datatest可以帮助你:

- 更快、更准确地清理和处理数据。

- 维护有关重要数据集的检查和决策记录。

- 区分理想标准和可接受偏差。

- 测量数据准备任务的进度。

真没藏,好东西都是直接分享的,datatest是我用于企业实践数据质量测试的库,一个字:很好用!!!

本文分享自微信公众号 - 开源优测(DeepTest),作者:苦叶子

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-09-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 如何校验高质量的测试?

    如何鉴定什么是高质量的测试?首先框定一下Scope,本文所说的测试是面向用户业务需求的测试,写的测试是面向真实业务需求的,站在真实用户的视角去看的。如果你的写测...

    袁慎建@ThoughtWorks
  • 如何测试数据质量?看完你就知道了!

    在中国大部分企业客观的讲,基本没有意识到数据质量的重要性,更没有专门的数据质量测试计划、团队、投入等。

    苦叶子
  • 程序员如何保证我们的代码质量

    关于如何保证我们的代码质量,这里面有很多的经验,可以和大家讨论讨论!下面根据我的经验,我总结了一个流程图!

    业余草
  • 如何编写高质量的测试用例?

    rectinajh
  • 我们应该如何编写高质量的前端代码

    这要从很久的事情开始说起,前端最初的发展就像一团浑浊的云团,什么都往一块写,然后东拼西凑,最后竟然能运行。其实每个人前端人都会对页面的混杂感到头疼,谁不想好好优...

    桃翁
  • 【数据】如何获取高质量数据?

    小编邀请您,先思考: 1 如何获取高质量数据? 2 数据质量如何识别? 温馨提示:加入圈子或者商务合作,请加微信:luqin360 长期以来,在机器学习中不合理...

    陆勤_数据人网
  • 如何知道我们的E2E测试覆盖率?

    在单元测试中,很容易知道已经覆盖了哪些代码区域。但是我们能及时知道API调用的动态范围吗?我们一直在思考,既然已经编写了许多 E2E 测试用例,但是我们应该继续...

    ThoughtWorks
  • 如何运用大数据?我们如何利用大数据?

    在互联网时代,依靠大数据是未来的发展趋势。大数据分析现在非常流行,但是我们需要知道的是,大数据的价值体现在有效而正确的分析中。只有通过正确有效的分析工具和分析方...

    数据前沿
  • 大数据测试学习笔记之数据质量

    大数据测试学习笔记之数据质量 数据质量定义 先搜索了一把,发现当前对于数据质量的定义没有一个共识的定义,通过阅读一些资料,做了些总结,可以从以下几个方面来定义数...

    苦叶子

扫码关注云+社区

领取腾讯云代金券