首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >百度和PCL团队推出ERNIE 3.0 Titan:2600亿参数的预训练语言模型

百度和PCL团队推出ERNIE 3.0 Titan:2600亿参数的预训练语言模型

作者头像
代码医生工作室
发布2022-01-08 08:53:52
发布2022-01-08 08:53:52
2.6K0
举报
文章被收录于专栏:相约机器人相约机器人

随着最近人工智能的突破,人类越来越依赖人工智能来解决现实世界的问题。这使得人类学习和运用知识的能力与计算机一样重要。人类通过学习和经验来学习和收集信息,以了解周围环境中的一切。随着知识库的增长,理解和解决问题以及区分事实与荒谬的能力也会增加。然而,人工智能系统缺乏这样的知识,限制了它们适应非典型问题数据的能力。

先前的研究表明,预训练的语言模型可以提高各种自然语言解释和生成任务的性能。

百度研究人员最近与鹏程实验室 (PCL) 合作发布了 PCL-BAIDU Wenxin(或“ERNIE 3.0 Titan”),这是一种具有 2600 亿个参数的预训练语言模型。它是世界上第一个知识增强的千亿参数模型,也是中国最大的单例模型。

Titan 具有不同于稀疏专家混合 (MoE) 系统的密集模型结构。该模型在海量知识图谱和海量非结构化数据上进行训练,在自然语言理解 (NLU) 和生成 (NLG) 方面表现出色。Titan 在 60 多个 NLP 任务中取得了 SOTA 成果,包括机器阅读理解、文本分类和语义相似性等。该模型在 30 个少样本和零样本基准测试中也表现良好。这表明它可以用少量标记数据泛化各种下游任务,并降低识别阈值。

可控可信的学习算法

自我监督的预训练允许 AI 增加参数的数量并利用更大的未标记数据集。由于该技术的日益普及,特别是在自然语言处理 (NLP) 中,最近取得了突破。为确保模型能够生成公平、有凝聚力的消息,团队提出了可控学习算法和可信学习算法。有了这个,模型可以有针对性地、可控地组合提供的流派、情感、持续时间、主题和关键字。这种方法使用自我监督的对抗学习框架来训练模型,以从现实世界的人类语言中识别虚假的合成语言。

环境友好型 AI 模型的在线蒸馏

大规模模型需要大量资源进行训练和推理。为此,该团队采用了师生压缩 (TSC) 策略来构建 ERNIE 3.0 Titan,这是一种模仿教师模型的廉价学生模型。该技术定期将来自教师模型的知识信号发送到多个不同大小的学生模型。与传统的蒸馏不同,这种方法由于导师模型额外的蒸馏计算和几个学生模型的重复信息传递,可以节省大量的能量。

研究人员还发现,ERNIE 3.0 Titan 和学生模型的直径相差千分之一。这使得模型蒸馏极其困难。为了弥合这一知识差距,他们使用了所谓的教师助理范式。ERNIE 3.0 Titan 的学生版与 BERT Base 模型相比,将 5 个任务的准确率提高了 2.5%,后者的参数数量是学生模型的两倍。与相同规模的 RoBERTa Base 相比,准确度提高了 3.4%。

端到端自适应分布式训练

由于大规模语言模型 (LLM) 的性能可能会随着模型规模的增加而不断增强,因此参数数量呈指数增长。然而训练和推理一个具有超过千亿个参数的模型是极其困难的,并且会给基础设施带来很大压力。

在 PaddlePaddle 上,创建了端到端的分布式训练架构,以满足灵活和自适应的需求。它包括资源分配、模型分区、任务放置和分布式执行。有了这一切,该框架面向工业应用和生产情况。

实验表明,ERNIE 3.0 Titan 可以使用该框架在数千个 AI 处理器上并行有效地进行训练。此外通过采用资源感知分配,模型的训练性能提高了 2.1 倍。

论文:

https://arxiv.org/pdf/2112.12731.pdf

来源:

http://research.baidu.com/Blog/index-view?id= 165

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档