前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【The boundaries of AI | AI 边界系列】关于BERT的一个一致性定理

【The boundaries of AI | AI 边界系列】关于BERT的一个一致性定理

作者头像
用户1107453
发布2019-07-30 11:48:08
4510
发布2019-07-30 11:48:08
举报
文章被收录于专栏:UAI人工智能UAI人工智能

原文: https://machinethoughts.wordpress.com/2019/07/14/a-consistency-theorem-for-bert/

BERT[1] 看起来和伪-似然函数有关。这其实可以导出关于 BERT 的一个一致性定理。查阅论文[2],发现 Wang 和 Cho 也指出了 BERT 和 伪-似然函数之间的联系。Wang 和 Cho 将 BERT 看成是 Markov 随机场 (MRF) 并使用了 Gibbs 采样来采样句子。但他们没有提及一致性。本文将探讨 BERT 作为一个语言模型——作为在完整语句上的一个概率分布——是一致的。

Bert

对伪-似然函数的经典证明假设了实际的人群分布由 MRF 权重的某个设定定义的。对于 BERT 我们将这个假设替换成深度模型具备准确地建模不同条件分布的能力。因为深度模型直觉上比通过手工设计的特征的线性 MRF 更具有表达能力,这个深度表达性假设看起来比经典假设更弱。

除了假设普遍表达能力,我会假设训练找到了一个全局最优点。对于完全优化的假设目前是很多有关深度学习的直觉理解的基础支撑。考虑 GAN 的一致性定理,这个定理假设了生成器和判别器的普遍表达能力和完全优化。尽管这些假设看起来比较暴力,GAN 一致性定理已经成为了 GAN 架构的设计思路的源头。因此,这样暴力的假设的价值不应该被低估。

  1. BERT, or Bidirectional Encoder Representations from Transformers, is a new method of pre-training language representations which obtains state-of-the-art results on a wide array of Natural Language Processing (NLP) tasks. google-research bert ↩
  2. Alex Wang, Kyunghyun Cho. BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model 1902.04904 ↩
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-07-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 UAI人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档