前方高能–解析轮胎工艺大数据分析DELMIA OI思路

文章来源：企鹅号 - 升华洞察

到底大数据分析是怎么回事儿？有多高端？有多大气？有多上档次？

我们今天就以轮胎工艺流程为例，来看看DELMIA OI大数据分析的原理是什么。

1．背景介绍

世界上最伟大的发明是什么？轮子。没有轮子，你的汽车能跑起来？你的自行车都跑不起来。我们今天来聊聊轮胎工艺大数据。

汽车装了轮胎，你的身家性命可都是在上面跑的。而且不是一天，而是几年！轮胎出了质量问题是这样的：

结果可能是这样的：

在轮胎传统工艺生产过程中，制造商通常会遇到三个挑战：无法解释的缺陷、如何更有效地制造复杂的产品、过程控制困难导致产品质量不稳定和返工。

针对以上三种挑战，DELMIA OI提供了一套数据分析解决流程方案：

从收集材料、工艺和质量数据→

通过数据分析快速识别失败的根本原因→

与制造商工艺专家共同审查新规则→

发布与共享新生产参数规则→

不断的评估和改善

你一定好奇DELMIA OI里面的大数据分析、机器学习是怎么做到的。今天我们就管窥一豹，用R语言来再现DELMIA OI的分析思路。真正的DELMIA OI要复杂先进很多，这里只谈BASIC的思路。

2. 数据分析流程原理介绍（基于R语言）

2.1 数据获取

以上数据集涉及31个原材料与加工流程中的自变量和最终的因变量轮胎质量，可以由DELMIAOI收集。

变量简介说明如下：

如表所示，此数据集中共有32个变量，其中Quality为因变量，即“Rework”和“OK”,所以因变量为类别型变量。在31个自变量中，数值型、类别型变量同时存在，所以在回归模型的选择上，Logistic Regression（逻辑回归）是最适合本数据集的回归模型。在使用回归模型前，首先要对自变量进行清洗和建模，因为数据的缺失值、变量间的相关性都会对结果产生很大影响。

2.2 数据清洗

首先在R语言装入要使用的扩展包，并导入原数据集。

通过代码对原始csv进行了读取，打开数据集我们发现Time Exposure1 和Time Exposure 2存在大量的缺失值，所以先将此两个变量删除。

然后将变量中是类别型变量的进行编码，对此数据集，类别型变量编码如下：

编码之后，因为自变量数目较多，所以首先要确定变量间是否存在相关性，对存在相关性的变量要进行建模来合并。

通过以上代码，可以得到如下图片：

如上图所示，右下角Quality为因变量，在和其他自变量组成的方格由不同的颜色进行标注。蓝色代表呈正相关，红色代表负相关，颜色深度代表了相关性的强弱。可以看出，Quality与其他自变量存在或强或弱的正负相关性，说明这些采集到的工艺流程上的数据确实会对质量的好坏产生影响。另外还可以看出，很多自变量之间也存在着极强的相关性。比如ResinViscosity T0、T1、T2三个变量之间存在很强的正相关性。如果将存在共线性的变量不加清洗的全部带入回归模型进行分析，会导致结果不准确。

TargetWinding Tension变量呈白色，表明和所有自变量和因变量没有相关性，检查数据集发现TargetWinding Tension是一个固定值，所以将此变量删除。

附上更清晰的变量相关性统计图：

为找出哪些相关性变量可以进行整合，接下来必须要进行的是变量降维处理，本文采用Principle Component Analysis主成分分析法，它是一种数据降维技巧，能将大量的相关变量转化为一组很少的不相关变量，这些无关变量成为主成分。

因为本文只涉及数据分析流程讲解，所以只采用不旋转的主成分分析，代码如上，结果如下所示：

此图表示，由主成分分析内部算法推荐，此32个变量建议分为5大类，具体分类如下所示：

从图中可以看出，31个自变量可以被划分为五大类，其中：

Resin Viscosity T0、T1、T2；

Min Winding Tension与Max Winding Tension；

Vacuum Level 1与VacuumLevel 2；

MinResin Content与Max Resin Content；

因为此数据集中数据量只有57条，所以无法进行更复杂合理的建模处理，本文以求平均值来生成新模型变量。

2.3 建模分析

数据清洗过后，进入建模分析步骤，如果要确定哪些工艺流程上的变量对轮胎质量结果有显著性的影响，回归模型分析是不可或缺的一步，因为本数据集涉及了类别型自变量与因变量，选取逻辑回归模型。并且变量数目过多，数据集小，采取逐步回归模型，代码如下：

最终此模型得出的显著变量如下表所示：

我们选取其中Fiber Expiration Time和 TransitionTemperature两个变量来看一下，好轮胎和坏轮胎的分布图：

蓝色线代表“OK”质量轮胎，红色线代表“REWORK”质量轮胎。由图可以看出在两种结果的轮胎中，此两个变量的分布区间有一定的重合和区分，也就是说参数的设定会对轮胎质量结果有所影响。因此在下一步，我们给出以上显著变量的参数区间。

3. 结果与建议

通过将质量按OK与REWORK分类，用t检验求出以上显著变量的95%置信参数区间如下表：

根据此表，可以看出一些变量区间存在交叉，一些变量的区间差别很明显比如Curing ramp up duration变量，好轮胎和坏轮胎的参数设置区间完全不一样；再比如AutoclaveCycle在处于A模式时全部失败，处于B模式时由73.33%的概率生产出来好轮胎。

根据本文数据和结果，如果此轮胎制造企业想减少轮胎次品率，建议如下：

1.Fiber Expiration Time：建议选择纤维过期时间参数在17.97到20.21之间的原材料；

2.Resin Storage Time：建议选择树脂储存时间在1.83-2.96之间的原材料；

3.Fiber Extension：建议选择纤维延展性在1.24-1.26之间的原材料；

4.Transition Temperature：建议生产过程中的转变温度设置在5.11-6.69之间；

5.Curing Ramp up time：建议固化升温时间设置在70.51-79.67之间；

6.Average Resin Content：建议选择平均树脂含量在35.92-36.69之间的原材料；

7.Bonding Strength：建议黏合强度参数在0.73-0.78之间；

8.Curing ramp up duration：建议生产过程中固化升温持续时间设置在83.03-98.54之间；

9.Autoclave Cycle：建议高压蒸汽循环模式选择B模式

因为数据集过少、缺失值、没法充分建模等原因，本文根据数据分析流程用R语言还原了DELMIA OI中的分析原理，基于本数据集分析出来的区间仅作参考。

可以毫不谦虚地说，之上的分析，已经讲清楚了DELMIA OI的九牛之一毛。

如果在你阅读本文的过程中，对我有一丝的膜拜，你就真的体会到了我是多么膜拜DELMIA OI了！

（本文作者：许靖晖，英国利兹大学商业数据分析专业，达索系统大中华区渠道大数据分析专家）

欢迎订阅《升华洞察》公众号！

发表于: 2018-10-292018-10-29 21:49:26
原文链接：https://kuaibao.qq.com/s/20181029G1WWF000?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

前方高能–解析轮胎工艺大数据分析DELMIA OI思路

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐