专栏首页PaddlePaddleOpenKS知识计算引擎发布,飞桨持续助力产学研智能化加速

OpenKS知识计算引擎发布,飞桨持续助力产学研智能化加速

4月24日,浙江大学召开OpenKS(知目)知识计算引擎开源项目发布会,宣布浙大与合作单位研发的OpenKS知识计算引擎取得重大进展。中国工程院院士、国家新一代人工智能战略咨询委员会组长、浙江大学计算机学院教授潘云鹤说,本次发布的OpenKS,作为知识计算引擎项目中的基础软件架构,定义并丰富了知识计算的内涵,是我国在大数据人工智能方向的又一次有益尝试。

“可泛化的领域知识学习与计算引擎”是以庄越挺教授作为首席科学家的科技创新2030“新一代人工智能”首批重大项目,该项目由浙江大学牵头,联合北京大学、北京航空航天大学、哈尔滨工业大学、西北工业大学、之江实验室等顶尖学术机构、百度等行业领军企业联合建设,旨在建立一整套可服务于知识密集型行业共性需求的知识计算工具、算法与系统,帮助这些行业快速地构建行业知识图谱,提供行业相关的智能规划与决策支持。经过各课题组的深入研究和课题间的紧密协作,共同研发了可用于支撑各行业知识服务系统构建的OpenKS知识计算引擎算法库。

OpenKS基于百度飞桨,可实现模型的大规模分布式训练与图计算,解决了从数据到知识,从知识到决策中的三大问题。OpenKS集成大量算法和解决方案,提供了一系列知识学习与计算的多层级接口标准,可供各机构研发人员以统一的形式进行算法模型研究成果的封装、集成与服务,并通过开源机制支持企业和社区开发者根据不同的场景需求对接口服务进行调用和进一步开发。各行各业可以选择引擎中的算法,快速地搭建行业系统应用,以应对多变的决策需求。当行业与需求发生变化,系统能够及时地提供算力、算法支撑,以缩短行业智能化改造的时间。

以工程科技教育行业为例,目前我国存在很大的工程人才缺口,然而工程科技门类众多、知识体系繁复、知识点之间关联复杂、教材层次各异导致自学门槛较高。不仅如此,学生背景各异、学习目的各异,也导致统一培训效率较低。OpenKS知识计算引擎包含的知识抽取算法API、知识表征学习API、分布式知识计算API、知识图谱应用API等可为工程科教行业构建知识图谱,并基于图谱为不同学生设计个性化教育路线,满足差异化学习的需要。

深度学习框架助力

OpenKS智能化加速

知识图谱技术的研发应用需要海量数据、庞大算力以及复杂的模型算法,而构建知识图谱底层平台所需的技术要求高、周期长、投入大、收益慢。基于深度学习框架开展人工智能科学实验或产品研发,则可以避免在知识图谱系统搭建中重复造轮子。

百度飞桨自2016年开源,是我国首个自主研发、功能完备、开源开放的产业级深度学习平台。基于百度飞桨平台,OpenKS可实现模型的大规模分布式训练与图计算,解决了从数据到知识,从知识到决策中的三大问题。

飞桨助力OpenKS实现

模型大规模分布式训练

面对超大规模知识图谱训练,随着图谱规模增大,数据量增多,对训练框架要求越来越高。针对分布式知识计算,OpenKS系统采用飞桨超大规模深度学习模型训练技术,支持百亿图谱分布式存储和检索,还支持百节点数据并行训练万亿稀疏参数,进而学习大规模的知识图谱。

针对知识图谱应用,如知识问答,模型比较复杂,OpenKS采用飞桨集合通信多机多卡训练;知识推荐任务,训练数据比较大,稀疏特征比较多,OpenKS除了采用飞桨万亿稀疏参数服务器外,随着模型越来越复杂,还引入纯GPU参数服务器来提升稀疏模型的计算性能,把100台CPU机器才能训练的模型只用1台多卡GPU设备即可完成训练,不仅节约了成本,还保障了集群的稳定性和扩展性。同时,在知识图谱应用场景里,如知识图谱问答和推荐,飞桨不仅提供了相应的算法,还针对推荐场景提供了工业级数据处理和万亿稀疏模型训练能力。

考虑到在纯GPU的参数服务器下,当模型网络层比较复杂时,GPU利用率很难被打满,飞桨框架2.0版又创新性地推出了业内首个通用异构参数服务器功能,可以同时使用不同的硬件进行混合异构训练,兼容了多款CPU、AI专用芯片(如百度昆仑XPU)、GPU(如V100、P40、K40),让用户可以在硬件异构集群中部署分布式训练任务,实现对不同算力芯片高效利用,为用户提供更高吞吐、更低资源消耗的训练能力。

对于大规模稠密参数模型,飞桨分布式训练技术同样与业务紧密结合,通过模型并行策略、分组参数切片组合、流水线并行策略和数据并行策略的多层叠加,发挥合力作用,诞生了业内第一个4D混合并行策略。通过测试验证,如此创新性提出的4D混合并行策略的训练速度的确高于3D混合并行策略,进一步优化训练性能和显存占比,再次走到了技术的前沿。

飞桨PGL助力

OpenKS实现图计算

针对图学习算法通用性与性能兼顾的挑战,OpenKS以飞桨图学习PGL作为知识表示学习以及知识存储的重要模块之一。在知识图谱表征学习中,需要在线高性能图引擎查询,因此会面对大规模异构关系存储以及在线高性能查询问题,OpenKS采用PGL的大规模分布式异构图引擎来进行知识表征学习的在线服务,来支撑日益增长的知识关系。

此外,高效的图神经网络算法,也是知识图谱先进性的保证,PGL是业界首个提出通用消息并行传递机制的图神经网络框架,原生支持异构图消息传递聚合等多种功能,并内置多种高效图神经网络模型。因此,OpenKS项目中集成了PGL的GCN、TransE、TransR等多种图表征学习算法,并且同时采用了PGL的高效消息传递接口作为图神经网络的编程接口之一。

百度飞桨深度学习平台于2019年开源的分布式图学习框架PGL,是业界首个提出通用消息并行传递机制,支持百亿规模巨图的工业级图学习框架。原生支持图学习中较为独特的分布式图存储(Distributed Graph Storage)和分布式采样(Distributed Sampling),可以方便地通过上层Python接口,将图的特征(如Side Feature等)存储在不同的Server上,也支持通用的分布式采样接口,将不同子图的采样分布式处理,并基于PaddlePaddle Fleet API来完成分布式训练(Distributed Training),实现在大规模图学习分布式的上加速计算。

PGL基于飞桨动态图全新升级,极大提升了易用性,原生支持异构图,覆盖30+图学习模型,包括图语义理解模型ERNIESage等,历经大量真实工业应用验证,可全流程服务产业应用项目,为开发者提供充分的实践案例投射进行技术选型。另外,基于飞桨深度学习框架的分布式Fleet API,建立分布式图存储及分布式学习算法,可实现灵活、高效地搭建前沿的大规模图学习算法。

展望

未来,在充满了机遇与挑战的大时代背景中,飞桨将持续在技术上不断创新进步,探索分布式训练技术等的边界,扩展AI赋能的领域,与开发者共同成长进步,为产学研智能化进程贡献着自己的力量。

参考链接

OpenKS项目地址:

https://github.com/ZJU-OpenKS/OpenKS

如果您想详细了解更多飞桨的相关内容,请参阅以下文档。

·飞桨官网地址·

https://www.paddlepaddle.org.cn/

·飞桨开源框架项目地址·

GitHub: https://github.com/PaddlePaddle/Paddle

Gitee: https://gitee.com/paddlepaddle/Paddle

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,是中国首个开源开放、技术领先、功能完备的产业级深度学习平台,包括飞桨开源平台和飞桨企业版。飞桨开源平台包含核心框架、基础模型库、端到端开发套件与工具组件,持续开源核心能力,为产业、学术、科研创新提供基础底座。飞桨企业版基于飞桨开源平台,针对企业级需求增强了相应特性,包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业,提供零门槛、预置丰富网络和模型、便捷高效的开发平台;BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。

END

本文分享自微信公众号 - PaddlePaddle(PaddleOpenSource)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-04-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 飞桨轻量化推理引擎再升級,新增适配国产AI芯片寒武纪思元

    近日,百度飞桨旗下高性能的轻量化推理引擎Paddle Lite,与国内AI芯片独角兽寒武纪旗下云端人工智能处理器芯片思元270正式完成兼容性适配,而思元220边...

    用户1386409
  • 国内首个支持量子机器学习,520的「飞桨」再次全新升级!

    5月20日,在这个空气中弥漫中浓浓爱意的日子,又迎来了百度一年一度的“Wave Summit 2020”深度学习开发者峰会。本次大会由深度学习技术及应用国家工程...

    AI科技评论
  • AI开源的硬核战场:领军者百度如何亮剑?

    《西部世界》中的 AI 机器人引发了人们对于 AI 技术的惶恐——因为它描绘出了一个机器人拥有意识和意志的世界。埃隆·马斯克不止一次在公开场合重申了他对超级 A...

    用户1386409
  • 一文看尽飞桨PaddlePaddle最新升级:5大优势,更低门槛使用深度学习

    从Paddle Fluid v1.0以来,飞桨致力于打造更好的用户体验,趁着百度开发者大会,也为用户精心准备了一份大礼,在开发、训练及部署全流程上进行了全新升级...

    量子位
  • 王海峰携国内唯一开源开放的深度学习平台飞桨亮相2019软博会

    “深度学习框架是智能时代的操作系统。百度飞桨深度学习平台正在推动人工智能的快速发展,加快中国的产业智能化进程。”6月28日,百度首席技术官王海峰应邀参加2019...

    用户1386409
  • AI技术领跑、23个国际冠军、产业智能化全面落地,2019百度AI如何彰显核心竞争力

    截至 2019 年 10 月,中国人工智能专利申请量累计 44 万余件,已超越美国成为 AI 领域专利申请量最高的国家。

    机器之心
  • ​小度巡检机器人上岗记:飞桨PaddleX助力实现室内精准巡检

    百度大厦的一名安保人员手机里弹出这样一条信息。发信息的是他的“新同事”,一位近期上岗百度深研大厦的智能助手——小度巡检机器人。

    用户1386409
  • 飞桨TOP案例集锦 | AI可以改变更多

    深度学习技术已经具备了很强的通用性,正在推动人工智能进入工业大生产阶段,人们也逐渐的感受到了AI对生活的改变。下面,小编就带领大家了解一下飞桨怎么在现实生活中发...

    用户1386409
  • 史上最全解读 | 飞桨模型库重大升级,主流算法模型全覆盖

    11 月 5 日,在 Wave Summit+2019 深度学习开发者峰会上,飞桨全新发布和重要升级了最新的 21 项进展,在深度学习开发者社区引起了巨大的反响...

    用户1386409

扫码关注云+社区

领取腾讯云代金券