首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

第71期CIO时代信息化大讲堂:大数据下半场的四个核心技术

大数据产业发展正在进入下半场,大数据已成为重构智能商业时代的核心经济引擎。那么,进入下半场之后,大数据的发展将面临哪些关键问题?大数据下半场的又有哪些核心技术?

2018年10月10日,由CIO时代主办,CIO时代APP承办的"第71期CIO时代信息化大讲堂"活动在北京CIO时代学院报告厅顺利举行,埃睿迪首席大数据架构师高振宇作为本次活动的特邀讲师,发表了题为 《大数据下半场的四个核心技术》的主题演讲。企业技术人员、业界CIO们在此围绕大数据技术发展等相关内容展开了深入的探讨与交流,活动现场气氛活跃,精彩不断。

埃睿迪首席大数据架构师 高振宇

他主要分享了大数据行业领域中一些成功的经验和相关技术,主要围绕大数据时代在数据建设中遇到的误区和难点、大数据下半场对新技术的认识和新理念、大数据平台建设的核心技术、案例分析等方面进行了阐述。

一、大数据时代

从大数据发展来看,最初从小数据,通过传统的数据库查询、报表、CRUD等数据库技术处理传统数据业务层的应用;到大数据,利用一些数据仓库技术和工具对数据库进行分析;再到大数据基础平台,利用Hadoop、MPP、列存、海量数据存储和云技术等解决结构化、非结构化数据的存储和管理问题;过去更多关注技术存储的基础应用,如今下一代大数据平台面临的最重要的问题是如何实现数据的价值,包括利用数据湖、行业深度融合、知识图谱和新一代人工智能技术理念和技术架构挖掘大数据的价值。

在二战幸存者偏差统计中,只是利用样本数据而不是对全量数据进行分析,在相应的数据分析时会造成一定的影响,结果会存在偏差,所以有时数据是会说谎的。对数据理解的偏差会造成对数据无法全面的理解,会存在一些误解,应尽量获取全量数据,以此提升数据平台整体建设的维度。样本数据和全量数据分析效果是不对等的,数据降维不能很好地体现数据的价值。

在行业或企业内应用大数据技术时,在数据分析的过程中,面临着数据量的增长带来存储费用的激增、存储更多的数据不等于带来更多的价值和员工对企业的数据策略熟视无睹等问题,储存的数据不能快速为企业带来价值。

二、大数据的下半场

在做大数据项目时,“输入响应,优化调控”是贯穿整个大数据平台建设、应用的环节,例如金融行业的风控,输入响应是指通过用户实时数据可以进行实时评级,对业务进行实时响应,优化调控是根据全量数据制定优质的策略实现更好的服务。工业平台的大数据项目更加体现了输入响应和优化调控,例如工业领域的探测环节,不只包含数据库的数据输入,还包括互联网、边缘计算等技术探测机械状况的数据。然后对传感器、物联网等采集的数据进行存储,基于数据模型、算法进行优化调控、生产工艺优化、设备效率提升,达到执行机构关联,对执行端的能力进行优化。

大数据技术的演进

Hadoop、MPP等技术解决了数据全量存储、管理和计算的问题,最终是对数据进行分析和应用,下一代大数据平台建设更多体现大数据知识化能力,通过数据湖的方式进行存储,进行知识化管理和关联并提升能力。将现有的数据和原始的资源相比较和关联,通过数据处理,提炼信息联系,建立智慧大脑,把数据智能化,对未来、未知的判断、预测,提供相应的价值。

以知识创造角度认识大数据

通过知识创造的角度认识大数据,据麦肯锡预测,未来大数据将带来3.5-5.2万亿美元的业务价值,通过知识创造产生业务价值需要三个能力:一是知识创造能力,物联网数据采集和云端互动,对暗默知识显示化、云端化,让数据真正承载知识;二是知识整合能力,跨领域、行业的打破知识边界,横向、纵向的对暗默知识表出化、集成化;三是自主学习能力,利用虚拟模型和离散模型进行系统化、知识化,提升创造预知未知领域的能力。大数据的本质特性包括三个方面:不是随机数据,而是全量数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。

让大数据成为雪中送炭的技术

在大数据实时化应用中,一直贯穿的是价值驱动思维的理念,不再是只关注大数据存储能力,更多是通过价值驱动思维实现大数据的实时化应用。很多工业领域利用物联网实现连接和工艺提升,通过大数据秒级实时化的方式采集、分析和处置,达到行业应用的要求。过去很多技术的作用是锦上添花,而现在进入新的经济时代,很多技术变成了雪中送炭的技术。在竞争的状态下,大数据变成了一个雪中送炭的技术,真正为企业应用和行业场景提供实际的作用,通过自主响应去感知业务数据、设备和业务状态,通过工具优化调控。与互联网技术结合,通过协同、共享把实时资源共享,解决企业间和企业内的能力优化问题。在数据认识的过程中,强调持续的安全、稳定和可靠,不仅仅要看的见,更要看的清;不仅要看到现象,更要看到本质。

三、大数据下半场的四个核心技术

数据湖

数据湖的核心思想是把不同结构的数据统一存储,使不同数据有一致的存储方式,在使用时方便连接,真正解决数据集成和分析挖掘问题,发挥大数据的价值。通过这种方式进行全量、多结构数据的存储,实现数据分析的高效使用。数据湖和数据仓库的模式是不同的。业务价值体现在数据湖是将全量数据集中后,湖中积蓄的数据可随时取用全量数据进行分析;处理后的数据可以更好的支持业务洞察;结合行业模型,结构化数据结果,实现数据显化;数据湖为数据科学家、分析师进行跨领域的预测,进行交叉分析。关于数据湖基础平台,通过统一访问层对数据进行分析,数据存储后按照应用和能力进行分层,分为热数据、温数据、冷数据,按照应用场景提供在线分析能力,提供高性能的管理,通过数据的标准化、模式化建立模型可以对未知领域通过低成本的方式解决数据的管理、储存和分析等问题,还可以解决数据库的安全、存储的弹性扩展等问题。

行业融合

数字化、模型化的知识是关键所在,及时准确的信息+简单推理和模糊信息+复杂推理两种方式收益是相同的。如果简单的规则和变化不能满足要求,这种情况下需要通过智能感知采集、分析解决问题。建立行业大脑,让行业深度融合,通过行业融合把行业知识、数据相结合,进行提炼、读懂大数据中的信息和含义。在这个过程中产生了优化行业大脑的方式--分析沙箱,解决新问题产生时解决问题的能力。关键点是要对问题进行理解,找到关联参数,然后通过数据湖得到模拟数据,结合行业知识做分析建模,形成对业务价值的提升。目的是解决未知领域的问题,形成优化后的行业大脑。

知识图谱

解决了数据存储和汇聚问题后,知识图谱是认知领域的技术,例如百度、谷歌利用知识图谱做一些应用,对深层领域的知识进行理解、推理。知识图谱是认知智能的一项技术,更多是知识的一种表现方式,体现在实体、概念、属性、关系等信息,形成复杂的知识网络,图谱化的内容是一个大规模的知识网络。知识图谱使小知识向网络化的大知识的方向转变,在不同领域、行业的能力建设知识库,结合大数据技术形成关联。知识图谱的创建主要包括:首先要有数据湖,然后根据算力、深度神经网络、语义知识图谱等,通过全局统一模型定义,基于模型创建分支,通过一些标注推理技术识别、补全,最终模型会进行反馈形成知识图谱。根据实际的应用场景,利用关系数据库进行分析。数据库的选型要考虑操作复杂和知识库规模,通过三元组存储信息关联事实。通过这样的方式使得机器理解与解释成为可能,并通过知识图谱构建大规模的知识库,进行数据价值的萃取。

新一代人工智能

人工智能的基础是机器学习,通过重复训练模型进行预测,与人的思考方式相似,如今正在通过智能技术让机器自己学习,利用数据进行自动建模和模型发布,利用不同的技术进行数据和性能的优化,通过AI的方式使人工智能更加聪明。

随后,他对工业大数据平台实施和环境大数据平台的架构、案例进行了详细的分析。大数据推动企业数字化和智能化,在工业领域通过大数据技术将企业间互联,从物理层、边缘处理层、平台、应用等过程,解决设备端的控制和工艺优化,最后落地到生产环节,通过闭环的方式实现知识的落地,将好的工艺模型和方法共享,同时利用数据、算法对设备进行管理和修护,实现动态执行。为用户提供参考,为企业带来效益。环境领域通过大数据技术将数据湖、知识图谱、AI等技术结合,形成环境大脑,为环保企业进行知识成果复制,进行场外赋能。

在最后的提问环节中,埃睿迪首席大数据架构师高振宇耐心地回答了嘉宾们的问题,大家对相关问题进行了热烈的交流与讨论,纷纷表示收获颇丰,不虚此行。

至此,"第71期CIO时代信息化大讲堂"圆满落下帷幕,关于下期活动内容预告,敬请关注CIO时代APP,精彩资讯以及最新分享不容错过。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181012B1JP6U00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券