1. 背景
随着云计算、物联网等技术的兴起,工业4.0被越来越多的制造工厂所接受和实现。随之而来的,则是海量的数据。制造工厂的产品在生产阶段会产生极为庞大的数据,对这些数据进行挖掘分析,制造厂商能够获得其所未掌握的信息,进而通过改进生产工艺或改进产品设计等手段来提高自身的市场竞争力。
图 1 SAP为九江酒厂搭建信息化平台
现如今,大中型制造企业会支付巨额费用,由提供专业数据分析服务的公司如SAP、IBM等派遣专业团队来搭建其数据传输、存储、管理、分析这一整套流程的数据分析平台。而这些制造企业也从中获益匪浅。中小型企业没有大中型企业那么多的数据分析场景,也无力支付搭建、维护上述专业数据分析平台所需的巨额资金。
因此,一个针对中小型制造企业的高度自主且通用的制造业大数据分析系统(下称GMDA)应运而生。
2. 系统特点
为了使广大的中小型制造企业能够通过GMDA完成数据分析任务,GMDA需要有以下两个特点:
高度自主化:中小型制造企业一般没有员工具有数据分析经验,因此GMDA在进行数据分析操作的时候,不能够指望用户来引导进行数据挖掘,而是要高度自主化。在实际操作中,GMDA只需要用户提供基本的数据分析任务的描述,其余需要数据分析经验的操作都可以由GMDA自主选择并执行。GMDA的高度自主化使得其对普通用户友好,中小型制造企业中的普通员工也能够通过GMDA完成数据分析任务。
通用:不同的中小型制造企业会有不同的数据分析任务。GMDA覆盖了制造业中常用的数据分析任务,因此各中小型制造企业都能通过其进行数据分析,从而获益。
属性离散化,数据归一化,决策树、随机森林、回归、多层感知机等各种算法的取舍,各算法的参数最优值的确定。这些需要专业数据分析知识的步骤使得普通用户不可能完成数据分析任务。而GMDA,作为实际中数据分析任务和实际数据分析操作的中间层,在整个数据挖掘流程中都不需要用户来控制引导。
如图2所示,在用户眼里,用户只需要将实际数据分析任务的描述输入到GMDA,GMDA就能自主执行一系列数据分析流程,并将该分析任务的结果展示给用户。而得到该结果所需要的数据预处理、算法选择、参数调优等需要专业数据分析经验的部分,用户都不需要操心。整个数据分析流程对于用户来说相当于一个黑盒。这也说明,GMDA最大限度地降低了数据分析对于普通用户的难度。
图 2 用户眼中的GMDA
3. 系统流程及应用
图 3 GMDA流程
GMDA完整的一次数据分析任务执行流程如图3所示。其以接收用户输入的任务描述开始,对训练数据进行第一次处理,然后根据任务的描述确定要选择的数据分析算法,并根据算法的要求对训练数据做第二次处理。接着GMDA会自动进行参数调优,最后将结果展示给用户。
GMDA能够覆盖制造业中各种类型的常见数据分析任务,下述为三个GMDA在制造业数据分析中的具体应用场景。
1)高速铣削刀具磨损状态的预测
模具制造中最为重要的工序之一就是高速铣削,该工序能够以高于常规切削10倍左右的切削速度对模具进行切削,完成型面的粗、精加工,并得到很高的模具表面质量。该技术中的一个难点就是刀具的磨损状态检测,一个破损的刀具在高速铣削时会不可逆地损坏模具。图4为高速铣削中所用的刀具。
图 4 高速铣削所用刀具
该数据分析任务是:根据历史数据中记录的各监测数据以及对应的刀具磨损状态来预测当前监测数据所对应的刀具磨损状态。因此,根据GMDL规范,该任务的描述语言应该是训练数据=“历史数据集”任务类型=“预测”目标属性=“刀具磨损状态”预测数据=“当前数据”。GMDA在接收到该任务描述,确认该任务类型是预测后,会提取当前训练数据集的特征,选取知识库中数据及特征与其最相近的三项记录,并根据这三项记录确定预测当前训练数据集应该用的算法,本例中GMDA选择随机森林来进行预测,对训练数据集进行处理,确定算法参数后,GMDA最后将模型的训练结果,以及对预测数据集的预测结果展示给用户。
2)原料库存预测
制造厂商每天会消耗大量的原料进行生产,因此也会每天买进若干的原料堆放到仓库。买过多的原料会额外产生不必要的库存费用,而买进的原料不足就会影响到当天工厂的生产效率。精确的原料库存预测能够极大概率地防止上述两种问题的出现。很多工厂的原料消耗是有时序性的,例如季节性的冰淇凌制造工厂,又例如制衣厂,季节不同,不同原料的消耗也不同。
因此,该数据分析任务是:根据历史数据中原料的库存与时间的记录,来预测未来一段时间原料的库存。因此,根据GMDL规范,该任务的描述语言应该是训练数据=“历史数据集”任务类型=“预测”目标属性=“原料库存”时序列=“是”。GMDA在接收到该任务描述,确认该任务类型是时序型预测后,会选择建立ARIMA模型来进行预测,确定参数的最优值后,GMDA最后将对预测数据集的预测结果展示给用户,图4是R语言中自动确定参数的ARIMA模型的预测结果,图5是由GMDA自动确定参数的ARIMA模型的预测结果。由图可看出,GMDA自动建立的ARIMA模型的预测结果比其他自动建立的ARIMA模型的预测结果更接近历史数据规律。
图 5 其他自动确定参数的ARIMA模型预测结果
图 6 GMDA建立的ARIMA模型预测结果
3)车辆设计评估
在制造业中,找到生产期间各监控数据与目标数据之间隐藏的规则能使制造企业据其来优化产品设计、改进生产流程、改进生产参数设置。车辆制造厂商会关心市场对其生产的各种车型的反馈,并根据这些反馈来设计出更受欢迎的车型。
该数据分析任务是:根据历史数据中用户对各种车型的接受程度,得到车型与市场接受度之间隐藏的规则。根据GMDL规范,该任务的描述语言应该是训练数据=“历史数据集”任务类型=“预测”目标属性=“市场接受程度”得到规则=“是”。GMDA在接收到该任务描述,确认该任务类型是提取相关规则后,会选择建立决策树来进行预测,确定决策树的参数的最优值后,GMDA会将提取出的规则以树状形式展示给用户,如图7所示。
由图7我们可以知道,车辆等级最重要的属性是安全性和乘客数,另外购买和维修的价格也有较大的影响。通过这些规则,车辆生产商能够改进其车型的设计,进而生产出更受市场欢迎的车型。
图 7 GMDA提取出的规则
“大数据与数据科学家”公众号
主编:王宏志
特邀副主编: 朱劼
副主编: 丁小欧
责任编辑: 齐志鑫,宋扬
编辑: 陶颖安
-精彩内容,记得分享到朋友圈-
领取专属 10元无门槛券
私享最新 技术干货