前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >IoTDB-Quality使用笔记:数据质量

IoTDB-Quality使用笔记:数据质量

作者头像
Apache IoTDB
发布2021-05-10 15:44:00
7410
发布2021-05-10 15:44:00
举报
文章被收录于专栏:Apache IoTDBApache IoTDB

Apache IoTDB (Internet of Things Database) 是一个时序数据的数据管理系统,可以为用户提供数据收集、存储和分析等特定的服务。IoTDB-Quality基于IoTDB用户自定义函数(UDF),实现了一系列关于数据质量的函数,包括数据画像、数据质量评估与修复等,有效满足了工业领域对数据质量的需求。

目前,IoTDB-Quality的1.0.0版本已经正式发布,欢迎大家点击阅读原文下载使用。

时序数据的数据质量

对时序数据而言,数据质量至关重要。比如,如果我们的数据分析基于低质量的时间序列,分析得到的结果就有可能存在问题,进一步地可能影响我们做出的决策。因此,我们需要有一套对时间序列的数据质量进行评估的机制,事先识别出低质量的时间序列,避免对后续的数据分析等产生不利影响。

我们整理了常见的数据异常,并将它们归结为下面四个数据质量指标:

完整性Completeness

一致性Consistency

时效性Timeliness

有效性Validity

数据丢失异常

数据过密异常

数据延迟异常

取值范围异常

空值异常

数据重复异常

取值变化范围异常

特殊值异常

速度范围异常

时间戳丢失异常

速度变化范围异常

IoTDB的数据质量分析

根据IoTDB的特性,我们发现,IoTDB中的时序数据不可能发生时间戳丢失异常和数据重复异常。下面,我们将以完整性为例具体介绍我们的数据质量指标:

我们曾对某公司的工程车辆运行数据进行了数据质量分析,下面是某台车辆的速度序列的一部分:

仅从上面的折线图中,利用肉眼对数据的完整性进行评判是一件不可能完成的任务。但我们可以使用Completeness函数对这段数据进行完整性分析。

代码语言:javascript
复制
select completeness(s1,'window'='2000') from root.test.d3 where time >= 2020-11-01 04:48:00

上面的SQL语句的意思是,我们取出root.test.d3.s1这个时间序列,从2020-11-01 04:48:00这个时刻开始,将序列按照每个窗口2000个数据点的标准划分为若干个窗口,并计算每一个窗口的完整性。

SQL语句的输出如上图所示,我们发现序列的完整性基本维持在0.6左右,是一个较低的水平。为了更加直观地体现完整性的意义,我们在下面展示了原始速度序列的一个片段,可以发现,数据中存在大量的缺失点,数据丢失异常非常严重。

结合车辆的工作时间记录,我们推测出这台车辆的速度传感器可能存在运行不稳定的问题,导致数据频繁丢失。

类似地,我们对一系列工程车辆都进行了数据质量评估和分析,向该公司提供了数据质量报告,为公司利用信息化手段发现和解决问题提供了重要技术支持。


本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-04-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Apache IoTDB 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
物联网
腾讯连连是腾讯云物联网全新商业品牌,它涵盖一站式物联网平台 IoT Explorer,连连官方微信小程序和配套的小程序 SDK、插件和开源 App,并整合腾讯云内优势产品能力,如大数据、音视频、AI等。同时,它打通腾讯系 C 端内容资源,如QQ音乐、微信支付、微保、微众银行、医疗健康等生态应用入口。提供覆盖“云-管-边-端”的物联网基础设施,面向“消费物联”和 “产业物联”两大赛道提供全方位的物联网产品和解决方案,助力企业高效实现数字化转型。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档