重磅 | 谷歌开源大规模语言建模库,10亿+数据,探索 RNN 极限

【新智元导读】谷歌今天宣布开源大规模语言建模模型库,这项名为“探索RNN极限”的研究今年 2 月发表时就引发激论,如今姗姗来迟的开源更加引人瞩目。研究测试取得了极好的成绩,另外开源的数据库含有大约 10 亿英语单词,词汇有 80 万,大部分是新闻数据。这是典型的产业研究,只有在谷歌这样的大公司才做得出来。这次开源也应该会像作者希望的那样,在机器翻译、语音识别等领域起到推进作用。

开源说明

根据谷歌大脑团队在 Github 发布的消息,他们这次发布开源了一个在英语语料库 One Billion Word Benchmark(http://arxiv.org/abs/1312.3005)预先训练过的模型。这个数据库含有大约 10 亿个单词,词汇有 80 万单词,大部分都是新闻数据。由于训练中句子是被打乱了的,模型可以不理会文本,集中句子层面的语言建模。

在此基础上,作者在论文描述了一个模型,混合了字符CNN(character CNN)、大规模深度 LSTM,以及一个专门的 Softmanx 架构,最终得到的结果可以说是迄今最好的。

代码发布

开源部分包括:

  • TensorFlow GraphDef proto buffer 文本文件
  • TensorFlow 预训练 checkpoint shards
  • 评估预训练模型的代码
  • 词汇表
  • LM-1B 评估测试

代码支持 4 种评估模式:

  • 提供数据库,计算模型的 perplexity
  • 提供前缀,预测后面一个单词
  • softmax 嵌入项,字符级别的 CNN 单词嵌入项
  • 输入句子,将转存 LSTM 状态的嵌入项

结果

更多信息请访问:https://github.com/tensorflow/models/tree/master/lm_1b

研究论文:探索语言建模的极限

作者:Rafal Jozefowicz, Oriol Vinyals, Mike Schuster, Noam Shazeer, Yonghui Wu

摘要

本文中,作者探讨了近年来递归神经网络(RNN)在语言理解的核心——大规模语言建模(LM)方面的发展。为了解决语言建模中的两大挑战:语料库和词汇量,以及复杂的、长期的语言结构,作者拓展了现有模型,在 One Billion Word Benchmark 上对 CNN 或 LSTM 做了彻底研究。单一模型最好成绩将结果从 51.3 提高到 30.0(同时将参数数量减少了 20 倍),模型融合的结果创下了历史记录,将混淆度(perplexity)从 41.0 下降到 23.7。我们将这些模型开源,供所有 NLP 和 ML 研究者研究和提高。

论文呈现的模型中一个高层的图表。a指的是一个标志的LSTM 语言建模;b代表一个LM,其中输入和Softmax嵌入被一个字符CNN取代。c中,我们用一下一个单词预测LSTM网络替代Softmax。

语言建模(LM)是自然语言处理和自然理解模型任务的一个核心任务,能对句子结构分步进行展示,它展示的不仅是语言的复杂内容,比如语法结构,还能提取语料库可能包含的一定数量信息。确实,模型能够把较低的概率指派到那些语法上正确的句子上,但是却不太可能帮助完成其他基础的语言理解任务,比如,回答问题、机器翻译或者文本摘要。

LM在传统的NLP任务中扮演着关键的角色,例如,语音识别、机器翻译、文本摘要。通常(但不是一直),训练语言模型会提升下游任务的潜在价值,比如语音识别中的词语错误率,或者翻译中的BLEU 分数),这会让训练更好的LM自身具有更高价值。

进一步说,在大量的数据上进行训练,语言模型会从训练数据中简练地提取解码后的知识。比如,当用电影字幕进行训练时,这些语言模型能够生成关于物体颜色、人物身份等信息的大难。最近提出的序列到序列模型,使用了有条件的语言模型,作为解决多任务难题的一个关键,包括机器翻译和视频生成等 。

深度学习和递归神经网络(RNN)在过去的几年中极大地推动了语言建模研究的发展,让研究者可以在更多的任务上进行探索,在这些任务中,强限制性的独立假设都是不实际的。

虽然事实上,简单的模型,比如N-grams,只使用极少的前词(privious words)来预测接下里会出现的词,它们对于高质量、低混淆的语言建模来说一谈是一个非常关键的组成部分。

确实,最近绝大部分对大型语言建模的研究已经证明了RNN配合N-grams使用效果非常好,因为它们可能有一些不同的优势,能对N-gram模型进行补充。但是,如果单独使用RNN的话,效果就会很差。

我们相信,虽然很多工作都在小型的数据集,比如Penn Tree Bank (PTB)上展开,但是,更大型的任也是很重要的,因为过拟合并不是目前语言建模中的一个主要限制,而只是PTB 任务中的一个主要特点。

大型语料库上的结果通常会更好,这很重要,因为许多在小型数据库上运行得很好的想法在大型数据库上做进一步提升时都失败了。进一步来看,考虑到当下的硬件趋势和网页大量可用的文本数据,进行大型的建模将会比过去更加简单。所以,我们希望我们的工作能给研究者带来启发和帮助,让他们在PTB之外可以使用传统的语言模型。

出于这一目的,我们把自己的模型和训练内容进行开源。

我们聚焦在一个著名的大型LM 基准:One Billion Word Benchmark 数据集。这一数据集比PTB要大很多,同时挑战也多很多。与计算机视觉领域的Imagenet类似,我们认为,在大型数据集上研究,并且在清晰的基准上进行建模将能提上语言建模。

我们工作的贡献主要有以下几个:

  • 我们探索、扩展并尝试在大规模LM上整合当下的一些研究;
  • 具体地,我们设计了一个Softmax loss,基于特性水平的CNN,在训练上效率很高,在准确度上与完整的Softmax一致,而完整版的要求更多维的参数;
  • 我们的研究提升了当下最著名的大规模LM任务:单一模型的 从51.3降到了30.0,同时,参数的系数减少了20;
  • 我们证明了,几个不同模型的组合能把这一任务的 perplexity 降到23.7,这是一个显著的提升。

在论文的第二部分,我们将会对语言建模中的重要概念和前人研究进行综述。第三部分,我们会提出对神经语言建模这一领域的贡献,重点在大规模递归神经网络的训练。第4和第5部分的目的是尽可能地描述我们的经验和对项目的理解,同时把我们的工作与其他相关的研究方法进行对比。

评价及讨论

Reddit、HN 和 Twitter 上的反响都挺好,不过也有人指出了这项研究的一些缺点。根据 shortscience.org 上的留言;

正如我在上文提到的那样,perplexity 从某处程度上来是一个让人困惑的指标,大的混淆(perplexity)并不反映真正的提升,而是带来楼主“夸大”效应。

这篇论文只提供了语言建模的提升,但是,LM 一般都会被嵌入到复杂的使用场景中,比如语音识别或者机器翻译。如果本论文中提供的 LM 可以分享一下与一些端到端的产品融合的结果,那会更有见解性。鉴于论文的作者在谷歌大脑团队工作,这一要求并不过分。

据我所知,本论文使用的数据库来自新闻报道,这种类型的数据比起口语数据更加规范。在实际的应用中,我们面对的通常是非正式化的数据(比如搜索引擎和语音识别)。论文中提到的最好的模型,能否适应更加实际的应用,目前依然是一个问题。再次的,对于谷歌大脑团队来说,把这一模型融合到既有的系统中进行测试,并不是什么难事。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-09-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | Yoshua Bengio等人提出MILABOT:强化学习聊天机器人

选自arXiv 作者:Iulian V. Serban等 机器之心编译 参与:路雪、李泽南 The Alexa Prize 是亚马逊在对话人工智能领域中发起的一...

30190
来自专栏机器之心

学界 | CoRL 2018最佳系统论文:如此鸡贼的机器手,确定不是人在控制?

与物体进行交互的操作是机器人技术中最大的开放问题之一:在开放的世界环境中智能地与以前没有见过的物体进行交互需要可以泛化的感知、基于视觉的闭环控制和灵巧的操作。强...

10320
来自专栏新智元

【PyTorch 挑战 TensorFlow】28303 篇 arXiv 论文看深度学习 6 大趋势

【新智元导读】本文由 Andrej Karpathy撰写,他前不久加入了特斯拉,担任AI 负责人。本文是他在 OpenAI 担任研究员期间所写,陈述了他通过分析...

38260
来自专栏企鹅号快讯

深度学习的核心工作流程之一:如何训练数据!

-免费加入AI技术专家社群>> 今天我们将讨论深度学习中最核心的问题之一:训练数据。深度学习已经在现实世界得到了广泛运用,例如:无人驾驶汽车,收据识别,道路缺陷...

28150
来自专栏新智元

【干货】微软童欣:黑科技!机器学习打造全新3D图形技术

【新智元导读】微软亚洲研究院AI大咖童欣在中国科技大学进行题为《数据驱动方法在图形学中的应用》的前沿演讲,解释了如何通过数据驱动的方法来处理图形学问题,以及最新...

38150
来自专栏机器人网

AI科学家李飞飞告诉我们:超越 ImageNet 的视觉智能

说起人工智能,孕育了卷积神经网络和深度学习算法的 ImageNet 挑战赛恐怕是世界上最著名的 AI 数据集。8 年来,在 ImageNet 数据集的训练下,人...

14840
来自专栏机器之心

学界 | FAIR等机构联合提出IntPhys:你的智能系统的物理知识,比得上婴儿吗?

选自arXiv 机器之心编译 参与:Nurhachu Null、刘晓坤 婴儿和许多动物对物体的相互作用有直观理解,并能逐步掌握物体恒常性、因果关系、重力、形状不...

28240
来自专栏人工智能头条

Yann LeCun:CNN已解决CIFAR-10,目标 ImageNet

24260
来自专栏新智元

一文读懂量子机器学习:量子算法基石已经奠定

【新智元导读】在计算能力增加和算法进步的推动下,机器学习技术已成为从数据中寻找模式的强大工具。量子系统能生产出一些非典型(atypical)模式,而一般认为经典...

34060
来自专栏深度学习自然语言处理

计算机视觉如何入门

目前,人工智能,机器学习,深度学习,计算机视觉等已经成为新时代的风向标。这篇文章主要介绍了下面几点: 第一点,如果说你要入门计算机视觉,需要了解哪一些基础知识...

20320

扫码关注云+社区

领取腾讯云代金券