话题 | 如何看待谷歌最近开源的“最强NLP模型”BERT?

话不多说,直接上题

@ 酱番梨 问:

上周,谷歌AI团队开源了备受关注的“最强NLP模型”BERT的TensorFlow代码和预训练模型,不到一天时间,收获3000多星!

有没有了解的社友来简单介绍一下,为什么它这么厉害?

来自社友的讨论

▼▼▼

@杨 晓凡

BERT 的预训练:大型语料库(维基百科 + BookCorpus ),4-16 个 TPU,4 天 BERT 的微调:单个 TPU,1 小时(GPU 则是数小时) 谷歌再次证明了有资源就是不一样,不用革命性的方法也可以有革命性的提升。做应用的人起立鼓掌,谷歌搭好了台子大家可以直接上去唱戏;做研究的人脸一黑,能发三四篇论文的架构微创新还不如多训练几天的效果好 —— 要是我们也有那个资源,我们也能再刷刷成绩

@付腾

目前最新的,比较前排的模型包括如下 Facebook的InferSent: 基于词嵌入的双向lstm OpenAI的mLSTM (本质上是字母级别的单向lstm),GPT(本质上是基于词嵌入的单向attention模型) Google的USE(在tensorflow hub里面,基于单向attention模型的层级模型),最新的BERT(双向attention模型) BERT的具体性能是否如论文所说还没验证,暂时不表(BERT的模型还没有跑通,有colab调通的同学指点一下),但是其他的模型经过跑的经验,确实效果都不错。 原因嘛,我想大概有如下: 1. 数据量够大。 这个就能足够说明问题了,大力出奇迹。比如OpenAI的mLSTM,虽然结构简单,但是训练量足够,导致其文本分类(text classification)性能很优秀,但是对于文本理解问题(NLU)基本就是智障。。。 其他的模型都是在巨大训练集数据量的支持下才有较好的表现。 甚至InferSent模型本身,使用了ALLNLI(NLI数据的总集)的版本比单一的SNLI数据训练的版本,各项性能都要优秀一些, 虽然不多。 2. 计算资源足够。 这个就更是无语了,大公司的体量优势展现无遗。 就目前公开的数据来说,OpenAI的mLSTM使用了4×K80(目前各大云服务商可以提供的最大单机GPU虚拟机),一个月的训练量,从公开的价格(各个云略有不同)来说,基本就是三千多英镑,折合人名币两万多RMB。晓凡说的BERT的价格更是高出天际,单个模型的训练价格,通过Goolge的TPU公开价格,约合23万多RMB。。。。。。 18年下半年Nvdia发表了一篇论文复现了OpenAI的mLSTM,动用了128块GPU,时间压缩到一周内,价格大约压缩了50%。。。。 这些还都是单个模型,不要说其内部的调参的大坑。。。 连BERT的作者自己都说了,建议直接用训练好的模型,因为大量的内部调参问题。自己训练估计能让人跳崖,算你运气好,训练好三个BERT来对比,那花去的成本就足够在北上广深买个首付了。。。(手动狗头) 其实这一点就直接把巨头和其他中小公司以及学界做了切割,任你孙悟空再厉害,也跳不出五指山。 3. 双向总是比单向效果更佳(同等训练数据下)这个看条件以及模型应对的任务,一般来说,如果是训练模型来做分类,单向的lstm结果就不错。如果要应对复杂的NLU类任务,基本上都要考虑双向lstm。这次的BERT引入的双向attention好像在我印象里也是首次,"BERT represents "bank" using both its left and right context — I made a ... deposit — starting from the very bottom of a deep neural network, so it is deeply bidirectional." 从该模型对飙的模型(OpenAI的GPT)对比来看,双向在文本理解方面确实是有优势的,不过嘛。。。计算复杂度也是翻倍的,本身transformer的计算就够吃计算量了,加入双向。。。 其实在BERT之前,Google就有了改进transformer的尝试,比如它的USE,就是attention和其他模型结构(比如CNN)的组合,性能略有提高,但是复杂度也是高居不下,导致其还要推出大中小三个版本的USE。 一些浅见,望大家指正,轻喷

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2018-11-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

资源 | AI Challenger 2018 即将进入决赛,八大数据集抢先看

AI 研习社消息,由创新工场、搜狗、美团点评、美图联合主办的 AI Challenger 2018 即将进入第二阶段比赛。今年的大赛主题是「用 AI 挑战真实...

2092
来自专栏AI研习社

Facebook 的数据预测工具 Prophet 有何优势?用贝叶斯推理一探究竟

编者按:2月23日,Facebook开源了一款基于 Python 和 R 语言的数据预测工具——“Prophet”(详细报道请看 AI 研习社此前文章 :支持P...

4696
来自专栏CSDN技术头条

WSDM 2017精选论文解读

人工智能和机器学习领域的学术论文汗牛充栋。每年的各大顶级会议、研讨班录用好几千篇论文,即便是亲临现场也很难追踪到所有的前沿信息。在时间精力有限的情况下,选择精读...

2906
来自专栏磐创AI技术团队的专栏

热点 | github近期热点项目汇总

【磐创AI导读】:我们总结了过去一年近8000个开源机器学习项目,从中选择了前30个最热点的项目推荐给大家。想要获取更多的机器学习、深度学习资源。欢迎大家点击上...

1351
来自专栏灯塔大数据

每周学点大数据 | No.6算法的分析之易解问题和难解问题

No.6期 算法的分析之易解问题和难解问题 小可:嗯,我懂了。可是您前面说现在的计算机在模型上都可以称作图灵机,这个要如何理解呢? Mr. 王:你能思考这个问...

2837
来自专栏数据科学与人工智能

GitHub 上 57 款最流行的开源深度学习项目

本文整理了 GitHub 上最流行的 57 款深度学习项目(按 stars 排名)。最后更新:2016.08.09 1.TensorFlow 使用数据流图计算可...

3685
来自专栏人工智能头条

上海联通大数据与机器学习驱动的离网预测模型

1704
来自专栏网络

Arxiv网络科学论文摘要14篇

祝大家新年快乐! 意见动态中的交叉问题团结与真相收敛; 普查与第二定律:美国众议院最优分摊的熵权法; 基于主体的模型的特征; Power Plexus:基于网络...

2078
来自专栏AI研习社

AI Challenger 2018 即将进入决赛,八大数据集抢先看

雷锋网(公众号:雷锋网) AI 研习社消息,由创新工场、搜狗、美团点评、美图联合主办的 AI Challenger 2018 即将进入第二阶段比赛。今年的大赛主...

1384
来自专栏智能算法

蚁群算法(独辟蹊径的进化算法)

1. 算法背景——蚁群的自组织行为特征 高度结构化的组织——虽然蚂蚁的个体行为极其简单,但由个体组成的蚁群却构成高度结构化的社会组织,蚂蚁社会的成员有分...

5248

扫码关注云+社区

领取腾讯云代金券