首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

工业大数据清洗:挑战与思路

根据百度百科的定义,工业大数据是指在工业领域中,围绕典型智能制造模式,从客户需求到销售、订单、计划、研发、设计、工艺、制造、采购、供应、库存、发货和交付、售后服务、运维、报废或回收再制造等整个产品全生命周期各个环节所产生的各类数据及相关技术和应用的总称。工业大数据以产品数据为核心,除传统工业数据外,还包含工业大数据相关技术和应用。工业大数据的主要来源可分为以下三类:第一类是生产经营相关业务数据;第二类是设备物联数据;第三类是外部数据。

除了具有一般的大数据特征外,工业大数据还具有时序性、强关联性、准确性、闭环性等特征。

制造业中的生产线、传感器网络、机器组等工业结构常常会产生大量的时间序列数据。时间序列的一个固有特征是相邻的观测值之间存在着相互的依赖性,这种相互的依赖性往往蕴含着被观测事物或现象在特定环境或特定时刻的大量信息,研究与分析这种相互的依赖性具有极大的实用价值。而这些工业数据上很难避免各类错误的发生,这就使得工业时间序列数据包含各种不同类型的“脏数据”。引起工业数据质量问题的原因包括但不限于:

数据受到新机制的影响而产生异常,如欺诈、入侵、疾病的爆发、不寻常的实验结果等。这些异常点出现是因为有新事物出现或者新情况发生,比如某种经济政策的出台;地质模型中某种可能含有矿藏的地层的发现;由于罢工、广告促销、突发性政治或经济重大事件、物理系统的突变等,这些因素会造成不同于寻常模式的观测结果。这类异常点通常蕴涵着具体的意义,也往往是研究者感兴趣的,异常点诊断旨在识别出这些现象背后的本质起因。

由数据变化固有规律引起的,这是自然发生的,反映了数据的分布特征,如气候变化、基因突变等。

由数据测量收集误差引起,主要包括人为差错、测量仪器故障等。

随着技术的发展,可监测对象的种类越来越多,采集数据的设备数量越来越大。时间序列的多样性与规模化对时间序列异常检测方法提出了新的要求。在传统的时间序列异常和缺失检测基础上,面向工业大数据清洗时,要同时兼顾考虑检测效果以及检测性能的问题。在设计清洗算法时,有如下几个思路

1. 通过降维减小数据维度

通常,时间序列数据是多维的,因为多维时间序列可用于描述被监测事物的多个方面状态与情况。然而,随着维度的增加,多时间序列异常检测的计算时间会快速增加。因此,若时间序列存在与异常发生原因无关的维度时,可进行一些相关性分析,去除无关维度,这不会对异常检测的准确性产生决定性影响。

2. 使用简单的线性判别

在时间序列的研究当中,很多时候“少即是多”。时间序列受随机性、趋势性影响较大,参数越多、模型越复杂意味着很难去长时间、更泛化地拟合真实的数据。而模型的复杂通常也意味着复杂度的提升,因此我们提倡在大数据算法的设计当中,可以适当地为了泛化能力以及时间效率,选择较为简单的线性方法进行粗略的异常判别,后续再使用更精确的算法对子区间进行判别。

3. 设计在线的算法

目前,大多数异常检测方法均为静态方法,即对历史中特定段落的时间序列进行分析并得出结果。静态的时间序列方法不能应用于实时的时间序列异常检测。然而,在许多应用场景中,时间序列是不断增长的,因此我们对于实时获得的时间序列中的异常的需求同样迫切。而且,在线的算法也意味着效率近似于线性,是一件非常让人愉悦的事情。

4. 通过并行的思想改善耗时部分的性能

大数据的异常检测对于检测方法提出了存储能力与计算能力的新要求。单个计算结点的存储能力与计算能力无法满足这些要求时,就需要利用并行计算的方法改善异常检测方法的检测性能。如何设计 Master 和 Slaver 结点的算法,以及它们划分,合并的关系,将哪个部分正确、有效地用于并行计算,是这个方向上的研究重点。

5. 做好时间与检测效果的 Trade Off

针对大数据设计出的算法,应该有相应的调整系数,能够平衡效率和检测效果。对于某些不需要高精度检测,但是实时性较强的环境,可以通过调整参数来满足相应的需求。

以上几点均是工业时间序列清洗中期望达到的目标,一个算法想要很好地兼顾这几点也是极具挑战性的。因此,我们认为或许可以使用框架的方式,将各种手段或者技术进行合理整合,比如异常序列的粗预警和细预警的分离、多维数据和多指标检测的分离等手段,都可以通过框架的方式进行有机的整合,最终形成一个良好可用的算法。

“大数据与数据科学家”公众号

主编:王宏志

特邀副主编:朱劼

副主编:丁小欧

责任编辑:齐志鑫,宋扬,万晓珑、魏龑,张荣恩

编辑: 陶颖安

-精彩内容,记得分享到朋友圈-

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180324G1EQW600?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券