前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >刘汨春:AI大数据在企业全链业务中的应用和价值(上)

刘汨春:AI大数据在企业全链业务中的应用和价值(上)

作者头像
Fayson
发布2018-08-17 17:24:59
1.1K0
发布2018-08-17 17:24:59
举报
文章被收录于专栏:Hadoop实操Hadoop实操
视频内容

AI和数据科学

AI和数据科学就像硬币的两面,AI是从背面去看,数据科学是从正面去看。只要从数据中能得到智慧的科学,就是数据科学。AI理论有两条主线,第一条主线是浅层学习,或者叫统计学模型,主要通过经验去积累,受后天学习和外部环境的影响。第二条主线是深度学习,这一理论更偏向于强调本体,而不是客观,本体认识世界是从世界的特征开始的。因此,人的学习有两个角度,这两个角度都有中间的学习方法,机器学习可以认为是一种方法,而不是理论,可以用浅层学习理论,也可以用深度学习理论。机器学习是一种常用的方法,这种方法会将各种技术手段融入进去,形成一个闭环,这个闭环会将企业的数据、流程、业务经验的整合过程全部自动化,这是强调自动化的一个学习方法过程。

AI的简史

早期的AI有三大学派,第一大学派是符号主义;第二大学派是感知学派,以神经网络作为代表的演进;第三大学派是行为学派。

1940年代,几位心理学博士提出了人工神经元模型,这是人工智能的孕育期。1956年,人工智能之父——约翰·麦卡锡在达特矛斯会议上提出了“人工智能”,“人工智能”概念由此诞生。1974年,感知器概念出现,强调人的意识来自于两个神经元之间的突触,无论是记忆还是学习,两个神经元之间的活性以及对外界刺激的活性,活性越高,记忆能力或学习能力就越强。感知器是单层的人工神经网络,美国数学家及人工算法先驱Minsky在其著作中证明了感知器本质上是一种线性模型,只能处理线性分类问题,不能处理线性不可分问题。1989年,Robert-Hecht-Nielsen证明了MLP的万能逼近定理,即对于任何闭区间内的一个连续函数f,都可以用含有一个隐含层的BP网络来逼近该定理的发现。

深度学习演进的过程分为三个阶段,从1969年到1986、1989年这一阶段的发展基本都是停滞的。导致发展停滞不前的原因有两个,一是理论知识没有得到突破;二是计算力不够,比如在提出神经元模型时,通过多层感知器的方式可以解决线性模型、非线性模型中的问题,但同时也存在一个梯度消失的问题。梯度消失相当于婴儿的大脑还未发育完全,没有很复杂的脑细胞结构,神经元不够、层次也不够,只有基层或者单层,只能学习和理解简单的事物,对于稍微复杂的多元素、多维度的问题则无法理解。

统计学方法的春天就是在深度学习发展历程停滞不前的那个阶段。1986年,决策树方法被提出;1995年,线性SVM被统计学家Vapnik提出,该方法由非常完美的数学理论推导而来,符合人的直观感受,并且在线性分类问题上取得了当时最好的成绩;1997 年,AdaBoost被提出;2000年,KernelSVM被提出。

2006年,Hinton提出了深度置信网络;2012年,Hinton课题组为了证明深度学习的潜力,首次参加ImageNet图像识别比赛,其通过构建的CNN网络AlexNet一举夺得冠军。Hinton团队采用了激活函数和反向传播的算法,通过逐层无监督的学习去抽象提取这些特征,同时又能够反向传播,通过有监督的学习反向去指导低层特征提取时的对错。这样在逐层学习的过程中,神经元会自动判断并提醒特征提取的对错。

2006年以后,随着大数据和云计算的兴起,深度学习方法真正发挥了威力。2013年至2015年,通过ImageNet图像识别比赛,DL的网络结构、训练方法、GPU硬件的不断进步,促使其在其他领域也在不断地征服战场。2015年,Hinton、LeCun、Bengio论证了局部极值问题对于DL的影响,结果Loss的局部极值问题对于深层网络来说影响可以忽略。至此之后,深度学习已经获得业界主流的广泛认可。

智能来自感知和经验

深度学习目前已经改变了机器的信息感知能力,所有的智能,首先需要学习的前提就是能感知,因此,拥有感知能力非常重要。

物体识别和增强

物体识别,包括画像主体检测、植物识别、菜品识别、语音触发、视频交互、AR/VR渲染等等,全部依赖图像识别的能力,只是分为不同条件下,不同精度下的图像识别。

语义理解

语义的识别包括听和说,比如,股票贴吧的文章有20%都是机器自动生成,还有时效新闻的自动抓取和自动剪裁等等,都是通过语义识别完成的。

知识图谱

每一个应用都可以建立知识图谱。

人机智能

感知在学习中的价值

如同婴儿认识事物一样,首先需要通过眼睛去看,耳朵去听,然后再去跟大人互动,尝试在两者关系中获得一种平衡。在这个过程中,首先是识别,然后是发现,最后再去梳理清楚相互之间的关系,这个过程与机器学习是一样的。“谷歌大脑”、“百度大脑”等概念就类似于培养一个婴儿拥有学习能力,有足够的数据和行业经验、计算力,然后再去做开放平台。

凡是有某一种感知能力的物品都可以做成智能设备。比如汽车,既然可以感知就可以自动驾驶。感知的过程会让物品智能化,因此,感知的产品会带来巨大的市场。

传感器经济:实时个性化体验-新零售

从零售的角度来看,既然物体可以感知,那么零售网点也就可以感知,比如可以有摄像头、wifi、移动端应用、线上线下结合等等,这样就可以加强感知和交互的能力。线上就是感知能力的增强,线下就是实际的交互。

麻省理工学院的一份报告曾指出,每年的零售市场大概有30%的销售额会因为感知能力不足而丢失。结合金融行业新零售尝试失败的案例可以知道,其失败的主要原因在于重于“形”而没有“神”。“神”就是后台的感知能力,没有建立从产品、研发到消费者整个闭环的感知能力。没有感知能力就没办法给客户提供实时的个性化体验。

工业大数据场景

关于工业大数据场景,麦肯锡的报告指出,到2025年,工厂实施中通过物联网应用可以释放的潜在数据价值可能高达3.7亿美元。比如预测性维护,每年能降低成本40%;运行优化每年能提高生产效率25%;供应链优化每年能节约成本50%。

案例1:航空航天—宇宙飞船遥测

宇宙飞船遥测,通过对对流数据进行高级分析,以降低人类航天飞行任务的风险。这当中面临的挑战主要是在测试环境中,超过1200只传感器上流过的遥测测试数据大约为2TB/小时。针对这一挑战,采用的解决方案是通过Cloudera集群支持高速率的数据撷取,高达300MB/秒;对对流数据执行高级分析,以检查是否存在问题或确定模式和降低风险。

案例2:上海电气风机实时状态分析

上海电气集团股份有限公司的项目诉求是要实现风机实时状态分析、故障预测和主动维护。要解决这一诉求,首先需要从实时数据中提炼特征值建模,包括风机风功率模型、风机舱外环境模型、风机齿轮箱模型、风机测风仪模型等,然后进行风机健康画像,如功率比、风机健康值、无告警时间比例、风速健康评分、温度健康评分和振动健康评分。

案例3:车联网

在汽车行业,车联网已经成为一种单独的颠覆汽车的技术,从传统汽车到车联网,再到智能汽车,在实现电动发动机的技术以后,剩下的汽车更多的是交互的设备。特斯拉的汽车电池组管理和动态电池性能的监控及优化就是汽车行业最经典的案例。

案例4:上海通用后服务市场

上海通用汽车有限公司的其中一个项目是基于使用量的保险UBI,保险公司利用为客户量身定制汽车保险。该项目实施面临的挑战主要是采集、存储和分析数百万台车辆的远程信息处理传感器数据,从而分析客户的驾驶习惯和风险。针对这一挑战,采用的解决方案是可以使保险公司为客户提供基于使用量的保险新产品,提高竞争优势;降低不合理的理赔申请;提高客户满意度,并帮助推出新的定价模式。

从战略到技术

顶层规划

顶层规划,首先是调研。针对企业进行战略、业务、数据和技术层面的调研,梳理数据资源,获取企业业务对大数据的要求。其次是设计。系统分析需求的优先级以及可行性,完成业务需求分析报告,并设计企业的大数据蓝图架构以及实施路径。最后是实施规划。切实推进企业大数据规划的落地,设计企业大数据技术实施方案和实施计划,支撑企业大数据示范性应用。

顶层规划中的战略思维

从Michael Porter描述核心竞争力优势的钻石模型简图可以看出,核心竞争优势的建立要考虑资源优势、市场需求、生产力方式、战略和组织等等。从数据的角度分析,有生产要素,企业战略、企业结构和同业竞争,数据场景,数据产能和生态,数据资源等等。从科技的角度分析,要从成本中心转变为利润中心,数据是可以充分利用的资源。

基于数据建立竞争力的钻石模型

以数据为基础,践行数据驱动运营流程的商业模式变革,寻求新的业务和服务创新。

制造业的典型数据分类

制造业的典型数据分为五大类:一是设备和传感器,如设备读数、设备性能、设备诊断、研发等;二是工厂和运营,如MES数据、传感器、设备日志等;三是供应链和库存,如ERP、供应商/制造商、订单/应收款项等;四是市场开发及客户关系管理,如交易、帐号、客户服务日志等;五是市场与贸易,如市场情报、政策/规定、心理学、天然气价格等。

资源优势需要数据生态链

以某企业的数据生态链为例,该企业除了有内部的数据、上下游的数据,可能还存在物流的数据、汽车金融的数据。如果将这些数据再进一步细分,那么就要有数据资源规划。数据资源规划可能会与ERP、MRP一样,也可能会成为DRP。数据本身是一种资源,因此一定会涉及到资源规划的问题。

企业流程中的数据闭环

企业流程中的数据闭环分为五个阶段:一是产品设计与优化。基于互联网舆情分析、客户反馈、竞争对手分析、客户使用习惯、维修记录、售后历史等指导新产品的设计与开发,提升产品竞争力。二是供应链优化。通过分析产品生产上下游企业信息,为制造企业选择更好的供货商提供指导意见,提升产品整体质量,降低成本。三是生产优化。在产品生产环节基于工业数据的大数据分析,实现生产参数的优化,潜在故障的提前预测以及故障的诊断,降低维修成本,提升生产力。四是营销优化。基于客户特征数据分析,精准把握客户需求,将产品推送给合适的客户。五是服务优化和后服务延伸。分析客户的反馈数据及互联网公开渠道的舆情数据,分析产品的质量、优劣势等,获取客户需求,为产品设计、公司公关提供依据。

两个角度提升业务价值-实时和智能

数据闭环的五个阶段,实际上是从两个角度去看业务的价值,第一个角度是实时。同样的数据,反应越快,数据价值越高。第二个角度是复杂度和数据量。当数据量达到一定程度时就会形成质变,也就是数据科学。

产品设计优化

产品设计优化包括大数据市场调研、大数据竞品分析、客户产品使用数据分析、产品缺陷分析等。在产品设计和研发阶段,及时将消费者的意见反馈至研发团队,让研发团队有针对性地进行产品的研发,这是进行定制化生产的基础。

供应链优化

供应链优化包括供应商评级、供应商活性分析、仓储需求预测、仓储效率提升等。

场景和业务战略的关系

钻石模型分析的是场景和业务战略的关系,这只是一种理论,细化后会有很多场景,而这些场景在很多阶段都会存在,具体从哪个阶段开始应用,需要考虑企业整体的战略。从战略的角度看,比如产品,可以用区分性价比的方式去赢得竞争优势,也可以做小众产品、走高端产品路线的优势,最重要的是要具体分析产品设计优化是怎样的一种战略。然后再从战略驱动的角度去分析,现有的产品是不是针对该战略目标去进行优化的,如果不是,那就要进一步分析缺少的要素,包括数据补充,以及数据补充后如何找到相应的场景去达到目的等等。规模和成本也一样,就是在生产和供应链上节省成本,比如预测性维护、能耗优化、供应链、库存等等。品牌战略就是在市场和渠道的优化过程中,注重口碑、客服、预防客户流失等等。

潜在业务价值的财务指标量化-示例

潜在业务价值的财务指标量化,最简单的方法是将财务报表和场景中的每个节点对应起来,比如财务成本中有销售通用的支出,那么就可以分析在市场营销成本中能降低多少费用,如果能降低一个最小值和一个最大值,那么就可以在每个环节中算出整个投入大概需要花费的经费,从而可以量化出业务价值的大概范围,然后再去看成本,成本就是产能。

IT能力建设优先级分析与路线图设定

IT能力建设优先级分析与路线图设定可以从六个方面入手:一是产品设计优化,包括大数据市场调研、大数据竞品分析、客户产品使用数据分析、产品缺陷分析等;二是市场营销与推荐,包括客户标签画像、客户个性化营销推荐、线下客户画像、竞品舆情等;三是供应链优化类应用场景,包括供应商360度立体画像、供应商活性分析、仓储需求预测、仓储效率提升;四是售后运营与服务,包括产品预测性维护、产品售后舆情分析、产品口碑分析、运维管理自动化等;五是生产过程优化,包括生产过程参数优化、生产设备健康管理、易损易耗件寿命预测、自动化产品缺陷检测与分类等;六是基础设施整合与优化,包括基础平台搭建、数据实验室、云化部署、多租户管理、历史数据自动归档等。将这六大要素放进线路图中就可以分析出业务价值和代价,从而再去指导战术步骤。业务价值包括提升客户服务、创造新收入、降低各类成本、优化使用体验等;代价包括实施时间、业务技术复杂度、工作量、可能风险、对其他能力的依赖等。

战术步骤

项目实施步骤分为五步:一是生产物联网构建。执行物联网规划与设计,在生产环境部署传感器,以采集生产过程中的各种工业类数据。二是数据接入与整合。实现CRM、ERP、传感器等内部统一接入;实现对门户网站、论坛贴吧、电商平台等不同渠道的网络公开数据采集功能;实现多源异构数据跨域关联,对现有数据资源进行整合与管理。三是大数据和机器学习基础。基于Hadoop生态体系框架和开源算法库实现大数据和分布式模型训练、投产的基础平台相应组织架构调整,数据岗位设立、招聘和人员培训。四是大数据智能分析。构建大数据价值发现与应用创新平台,通过可视化操作的方式实现对工业大数据的分析与挖掘,发现工业大数据中潜在的规律以及可提升业务能力的价值,为工业大数据应用提供便捷分析平台。五是算法模型应用开发。进行工业大数据应用的算法模型的设计与实现、应用业务逻辑的实现以及应用的可视化开发。包括故障预测模型、故障诊断模型、生产优化模型、精准营销模型、客户需求预测模型等。

组织架构:企业内的相关岗位及协作

企业内的相关岗位包括业务部门的数据分析师、IT的数据开发人员、数据科学家等。

企业的技术布局-制造业为例

以制造业为例,企业的技术布局有两个选择,一是很多的图像识别、语音、视频等等;二是自身产能与数据和继续学习能力的结合。这两大能力,有些是可以解决的,有些是不能解决的,比如计算能力,对企业而言,在没有很大盈利的前提下是不可能有很大的计算能力的。

产能提升:全量数据+机器学习

产能提升的四个要素

产能提升的四个要素包括数据、算法、技能和计算资源的组合。

业务相关的数据科学能力需要自建

从计算资源的角度来看,与公有云的合作商合作,将通用的感知能力和基于自有数据的技术栈相结合,打造属于自有的竞争优势。

白盒平台还是黑盒解决方案

从白盒平台的角度来看,如果拥有自己的业务专家和能力基础,那么就可以得到一个能力输出的结果,将成本中心变成利润中心。选择白盒平台还是黑盒解决方案,基于五大关键考虑,一是创建持久性的资产;二是更高的敏捷性;三是能力可随机应变;四是仍然具有可控性;五是获取更大的价值。

主流机器学习开源框架

部署:跨云是必然

闲话:从BATJ的布局看云(平台)公司需要的资源和能力

平台类的企业如果没有传统企业的参与,很难颠覆整个行业。因为这是一种生态的结合,如果平台类的企业不做终端,比如新零售,那么,只要传统企业积极利用这些资源,平台类的企业就很难去颠覆传统行业。

数据治理体系需要相应演进

对挑战的思考

讲师简介

刘汨春,原甲骨文解决方案总经理、Cloudera技术总监。拥有20年的IT行业经验,曾先后在BEA、ORACLE等著名企业担任技术高级管理职位,多年来对金融、制造和服务行业的信息化特点和管理方法有丰富的实践经历,也是国内在SOA、云计算和大数据技术等方面的企业信息化和数字化转型的实践者。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-08-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Hadoop实操 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档