专栏首页机器之心预训练语言模型关系图+必读论文列表,清华荣誉出品

预训练语言模型关系图+必读论文列表,清华荣誉出品

预训练语言模型(PLM)是 NLP 领域的一大热门话题。从 BERT 到 GPT2 再到 XLNet,各种预训练模型层出不穷,不少同学感叹,「大佬慢点,跟不上了……」那么,这么多预训练模型要怎么学?它们之间有什么关联?为了理清这些问题,来自清华大学的两位本科同学整理了一份预训练语言模型必读论文列表,还用图的形式整理出了这些模型之间的复杂关系。

Github 项目:https://github.com/thunlp/PLMpapers

项目的两位作者——王晓智和张正彦都是清华大学的在读本科生。其中,王晓智师从清华大学计算机系教授李涓子和副教授刘知远,研究方向为 NLP 和知识图谱中的深度学习技术,于今年 4 月份入选 2019 年清华大学「未来学者」计划第二批名单;张正彦则参与过孙茂松教授指导的很多工作,如之前发布的「图神经网络必读论文列表」。此外,他还是增强版语言表征模型 ERNIE 的第一作者,并参与了多领域中文预训练模型仓库 OpenCLaP 的创建。

在这个预训练模型论文列表项目中,两位同学首先给出了一份预训练语言模型的关系图:

图中列出了 BERT、GPT、XLNet、ERNIE 等大家熟知的模型以及它们之间的关系。以 BERT 和清华大学提出的 ERNIE 为例,张正彦等人曾在论文中指出,BERT 等预训练语言模型只能学习语言相关的信息,学习不到「知识」相关的信息。因此他们提出用知识图谱增强 BERT 的预训练效果,让预训练语言模型也能变得「有文化」。在这张图中我们可以清楚地看到论文中阐述的这种关系,即 BERT+知识图谱→ERNIE(清华版)。这种简化版的展示对于初学者理清思路非常有帮助。

除了这张关系图,两位同学还给出了一份预训练语言模型必读论文列表。列表分为三个部分:模型、知识蒸馏与模型压缩以及相关分析论文。机器之心曾经介绍过其中的一些论文,读者可以根据链接找到相关论文中文介绍。

本文分享自微信公众号 - 机器之心(almosthuman2014)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-10-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 从想法到实干,2018年13项NLP绝美新研究

    前一段时间,Sebastian Ruder 介绍了他心中 10 个最有影响力的想法,并且每一个都提供了具体论文与核心思想。正如 Ruder 所说,他的清单必然是...

    机器之心
  • 跨语言版BERT:Facebook提出跨语言预训练模型XLM

    项目地址:https://github.com/facebookresearch/XLM

    机器之心
  • 从Pix2Code到CycleGAN:2017年深度学习重大研究进展全解读

    机器之心
  • 单语言表征如何迁移到多语言去?

    论文:On the Cross-lingualTransferability of Monolingual Representations

    AI科技评论
  • 29 篇选 6,微软亚研院AAAI 2020论文精选,必看!

    AAAI 2020 已经在纽约开幕,然而这次的情况有些许不同,许多国内的小伙伴因疫情影响无法到现场参加会议。各位小伙伴在家中做好日常防护的同时,是时候开启“云参...

    AI科技评论
  • 【AAAI 2020】微软亚洲研究院6篇精选论文在家必看!

    编者按:AAAI 2020 明天将在纽约开幕,然而这次的情况有些许不同,许多国内的小伙伴因疫情影响无法到现场参加会议。各位小伙伴在家中做好日常防护的同时,是时候...

    zenRRan
  • AAAI 2020 | 微软亚洲研究院6篇精选论文在家看

    编者按:AAAI 2020 明天将在纽约开幕,然而这次的情况有些许不同,许多国内的小伙伴因疫情影响无法到现场参加会议。各位小伙伴在家中做好日常防护的同时,是时候...

    CV君
  • 直击AAAI 2020,一文读完微软亚研6篇精选论文

    编者按:AAAI 2020中微软亚洲研究院有29篇论文入选,本文为大家介绍的6篇精选论文涵盖多维数据普适分析、文本风格迁移、句子改写、集成学习、实体链接任务等多...

    AI科技大本营
  • 谷歌最强NLP模型BERT官方中文版来了!多语言模型支持100种语言

    上周,谷歌AI团队开源了备受关注的“最强NLP模型”BERT的TensorFlow代码和预训练模型,不到一天时间,收获3000多星!

    新智元
  • 干货 | 只有100个标记数据,如何精确分类400万用户评论?

    迁移学习模型的思路是这样的:既然中间层可以用来学习图像的一般知识,我们可以将其作为一个大的特征化工具使用。下载一个预先训练好的模型(模型已针对ImageNet任...

    数据派THU

扫码关注云+社区

领取腾讯云代金券