首页
学习
活动
专区
工具
TVP
发布

数据监控分析模型研究

数据监控分析模型研究

统计中心

小伙伴们,还记得当年的挑灯夜战吗?

团员:2人

党员: 7人

35周岁以下青年8人

青年比例80%

目前,计量器具动态巡检小组利用实施数据库、PHD趋势软件、Excel取数软件等,推行了以线上巡检为主,现场巡检为辅的计量器具动态管理,为计量器具故障的及时发现提供了有效的手段。但在计量数据分析领域,其只能实时反映一个计量点的量是否正常,以及对于该点历史趋势的追溯,但不能判断数据是否准确。

选取研究对象

1

正态分布模型的应用

正态分布3σ原则为

数值分布在(μ-σ,μ+σ)中的概率为0.6827

数值分布在(μ-2σ,μ+2σ)中的概率为0.9545

数值分布在(μ-3σ,μ+3σ)中的概率为0.9973

可以认为,Y 的取值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%。

现有的进出厂数据以单批次流量计、商检量、罐发量为基础,我们尽可能利用这些单批次数据来估计总体的数据分布。

柴油

航煤

从两者的正态分布数据可以看出两个数据的在(μ-3σ,μ+3σ)的概率比较高,集中度比较大。但是化工出厂数据与机械标准不同,测量数据的准确度受温度、压力、物料特性等情况影响比较多,也有数据超出了范围外,但是总体来说,大部分数据还是在范围内的,后续将3σ作为置信区间。出口柴油共108船,在(μ-3σ,μ+3σ)区间内共105船,占比97.22%;在(μ-2σ,μ+2σ) 区间内共103船,占比95.37%;在(μ-σ,μ+σ) 区间内共81船,占比75%。出口航煤共155船,在(μ-3σ,μ+3σ) 区间内共154船,占比99.35%;在(μ-2σ,μ+2σ) 区间内共145船,占比93.54%;在(μ-σ,μ+σ)共113船,占比73.38%。从数据上看,是满足正态分布的。

为了控制数据的准确性,同时用历史数据预测未来数据,常以3σ作为上、下警戒值,即控制值。这样做的依据是:正常情况下测量(或实验)误差服从正态分布。所以在之前正态分布的基础上,我们以2015-2017年的差率数据作为正态分布置信区间的基础,用2018年的数据作为验证,发现数据走向是符合预测范围的。

2

多元回归的应用

利用统计软件建立回归模型,全年通过对每日的天然气组分的分析,发现问题,解决问题,节约成本约248万元。

通过课题研究我们发现:正态分布模型可以用来预测数据走向,且不同物料的实际置信范围各不相同,随着数据库的增加,准确性将不断提高;多元回归模型则从影响因素的角度对计量数据的可信区间进行预测,为数据准确性判断提供了另一种手段。

后续工作

发散思维,继续

未来将引入置信区间的概念,对每天的计量数据进行自动判断,用判断结果来协助我们找到准确性较差的数据,为异常分析指明方向。

在路上

2019

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190115B0N4KX00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券