可以和同是双向的ELMo对比一下:
和
作为目标函数,独立训练处两个representation然后拼接。
以此训练LM。
-
作者在文中主要提到的就是MLM预训练时的mask问题:
本文分享自 作者个人站点/博客 前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!