前方高能–解析轮胎工艺大数据分析DELMIA OI思路

到底大数据分析是怎么回事儿?有多高端?有多大气?有多上档次?

我们今天就以轮胎工艺流程为例,来看看DELMIA OI大数据分析的原理是什么。

1.背景介绍

世界上最伟大的发明是什么?轮子。没有轮子,你的汽车能跑起来?你的自行车都跑不起来。我们今天来聊聊轮胎工艺大数据。

汽车装了轮胎,你的身家性命可都是在上面跑的。而且不是一天,而是几年!轮胎出了质量问题是这样的:

结果可能是这样的:

在轮胎传统工艺生产过程中,制造商通常会遇到三个挑战:无法解释的缺陷、如何更有效地制造复杂的产品、过程控制困难导致产品质量不稳定和返工。

针对以上三种挑战,DELMIA OI提供了一套数据分析解决流程方案:

从收集材料、工艺和质量数据→

通过数据分析快速识别失败的根本原因→

与制造商工艺专家共同审查新规则→

发布与共享新生产参数规则→

不断的评估和改善

你一定好奇DELMIA OI里面的大数据分析、机器学习是怎么做到的。今天我们就管窥一豹,用R语言来再现DELMIA OI的分析思路。真正的DELMIA OI要复杂先进很多,这里只谈BASIC的思路。

2. 数据分析流程原理介绍(基于R语言)

2.1 数据获取

以上数据集涉及31个原材料与加工流程中的自变量和最终的因变量轮胎质量,可以由DELMIAOI收集。

变量简介说明如下:

如表所示,此数据集中共有32个变量,其中Quality为因变量,即“Rework”和“OK”,所以因变量为类别型变量。在31个自变量中,数值型、类别型变量同时存在,所以在回归模型的选择上,Logistic Regression(逻辑回归)是最适合本数据集的回归模型。在使用回归模型前,首先要对自变量进行清洗和建模,因为数据的缺失值、变量间的相关性都会对结果产生很大影响。

2.2 数据清洗

首先在R语言装入要使用的扩展包,并导入原数据集。

通过代码对原始csv进行了读取,打开数据集我们发现Time Exposure1 和Time Exposure 2存在大量的缺失值,所以先将此两个变量删除。

然后将变量中是类别型变量的进行编码,对此数据集,类别型变量编码如下:

编码之后,因为自变量数目较多,所以首先要确定变量间是否存在相关性,对存在相关性的变量要进行建模来合并。

通过以上代码,可以得到如下图片:

如上图所示,右下角Quality为因变量,在和其他自变量组成的方格由不同的颜色进行标注。蓝色代表呈正相关,红色代表负相关,颜色深度代表了相关性的强弱。可以看出,Quality与其他自变量存在或强或弱的正负相关性,说明这些采集到的工艺流程上的数据确实会对质量的好坏产生影响。另外还可以看出,很多自变量之间也存在着极强的相关性。比如ResinViscosity T0、T1、T2三个变量之间存在很强的正相关性。如果将存在共线性的变量不加清洗的全部带入回归模型进行分析,会导致结果不准确。

TargetWinding Tension变量呈白色,表明和所有自变量和因变量没有相关性,检查数据集发现TargetWinding Tension是一个固定值,所以将此变量删除。

附上更清晰的变量相关性统计图:

为找出哪些相关性变量可以进行整合,接下来必须要进行的是变量降维处理,本文采用Principle Component Analysis主成分分析法,它是一种数据降维技巧,能将大量的相关变量转化为一组很少的不相关变量,这些无关变量成为主成分。

因为本文只涉及数据分析流程讲解,所以只采用不旋转的主成分分析,代码如上,结果如下所示:

此图表示,由主成分分析内部算法推荐,此32个变量建议分为5大类,具体分类如下所示:

从图中可以看出,31个自变量可以被划分为五大类,其中:

Resin Viscosity T0、T1、T2;

Min Winding Tension与Max Winding Tension;

Vacuum Level 1与VacuumLevel 2;

MinResin Content与Max Resin Content;

因为此数据集中数据量只有57条,所以无法进行更复杂合理的建模处理,本文以求平均值来生成新模型变量。

2.3 建模分析

数据清洗过后,进入建模分析步骤,如果要确定哪些工艺流程上的变量对轮胎质量结果有显著性的影响,回归模型分析是不可或缺的一步,因为本数据集涉及了类别型自变量与因变量,选取逻辑回归模型。并且变量数目过多,数据集小,采取逐步回归模型,代码如下:

最终此模型得出的显著变量如下表所示:

我们选取其中Fiber Expiration Time和 TransitionTemperature两个变量来看一下,好轮胎和坏轮胎的分布图:

蓝色线代表“OK”质量轮胎,红色线代表“REWORK”质量轮胎。由图可以看出在两种结果的轮胎中,此两个变量的分布区间有一定的重合和区分,也就是说参数的设定会对轮胎质量结果有所影响。因此在下一步,我们给出以上显著变量的参数区间。

3. 结果与建议

通过将质量按OK与REWORK分类,用t检验求出以上显著变量的95%置信参数区间如下表:

根据此表,可以看出一些变量区间存在交叉,一些变量的区间差别很明显比如Curing ramp up duration变量,好轮胎和坏轮胎的参数设置区间完全不一样;再比如AutoclaveCycle在处于A模式时全部失败,处于B模式时由73.33%的概率生产出来好轮胎。

根据本文数据和结果,如果此轮胎制造企业想减少轮胎次品率,建议如下:

1.Fiber Expiration Time:建议选择纤维过期时间参数在17.97到20.21之间的原材料;

2.Resin Storage Time:建议选择树脂储存时间在1.83-2.96之间的原材料;

3.Fiber Extension:建议选择纤维延展性在1.24-1.26之间的原材料;

4.Transition Temperature:建议生产过程中的转变温度设置在5.11-6.69之间;

5.Curing Ramp up time:建议固化升温时间设置在70.51-79.67之间;

6.Average Resin Content:建议选择平均树脂含量在35.92-36.69之间的原材料;

7.Bonding Strength:建议黏合强度参数在0.73-0.78之间;

8.Curing ramp up duration:建议生产过程中固化升温持续时间设置在83.03-98.54之间;

9.Autoclave Cycle:建议高压蒸汽循环模式选择B模式

因为数据集过少、缺失值、没法充分建模等原因,本文根据数据分析流程用R语言还原了DELMIA OI中的分析原理,基于本数据集分析出来的区间仅作参考。

可以毫不谦虚地说,之上的分析,已经讲清楚了DELMIA OI的九牛之一毛。

如果在你阅读本文的过程中,对我有一丝的膜拜,你就真的体会到了我是多么膜拜DELMIA OI了!

(本文作者:许靖晖,英国利兹大学商业数据分析专业,达索系统大中华区渠道大数据分析专家)

欢迎订阅《升华洞察》公众号!

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20181029G1WWF000?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券