业界 | 解密谷歌Gmail新功能:结合BoW模型和RNN-LM,帮助用户快速写邮件

选自Google AI

作者:Yonghui Wu

机器之心编译

谷歌在上周的 I/O 大会上,推出了 Gmail 新功能 Smart Compose,其结合了 BoW 模型和 RNN-LM,在用户打字时提出建议,帮助完成句子,提高电子邮件的写作速度。

在上周的 I/O 大会上,谷歌推出了 Gmail 新功能——Smart Compose,该功能使用机器学习在用户打字时提出建议,帮助用户完成句子,从而提高电子邮件的写作速度。Smart Compose 基于为 Smart Reply 开发的技术,为电子邮件写作提供了一种新的方式——无论是回复收到的电子邮件还是从头写作新邮件。

开发 Smart Compose 过程中面临的主要挑战包括:

  • 延迟:Smart Compose 基于每次击键提供预测,因此它必须在 100 毫秒内做出理想响应,用户才不会注意到任何延迟。如何平衡模型复杂度和推断速度是一个关键问题。
  • 规模:Gmail 有超过 14 亿用户。要为所有用户提供有效的自动填充建议,模型必须具备足够的建模能力,才能够在不同的语境中提出恰当的建议。
  • 公平性和隐私性:在开发 Smart Compose 时,谷歌需要解决训练过程中潜在偏见的源头,还必须遵守与 Smart Reply 相同的严格用户隐私标准,确保模型不会泄露用户的隐私信息。此外,研究人员无法访问电子邮件,这意味着他们必须开发、训练一个机器学习系统来处理他们无法读取的数据集。

找到合适的模型

典型的语言生成模型,如 n-gram、神经词袋模型(BoW)和 RNN 语言模型(RNN-LM),基于前面的单词序列学习预测下一个单词。但是,用户在当前电子邮件中正在打出的单词只是模型可用于预测下一个单词的「信号」。为了整合用户想表达内容的更多语境,谷歌的模型还基于电子邮件主题和之前的电子邮件主体内容(如果用户正在回复收到的电邮的话)。

包含这一额外语境的一种方法是将该问题看作序列到序列(seq2seq)机器翻译任务,其中源句子是主题和之前电子邮件主体的结合,目标序列是用户正在写的当前邮件。尽管该方法在预测质量方面表现良好,但它远远无法满足谷歌严格的延迟约束。

为了改善这种情况,谷歌研究者将 BoW 模型与 RNN-LM 结合起来,其速度快于 seq2seq 模型,且仅出现轻微的模型预测质量损失。在这种混合方法中,谷歌研究者通过把每个字段中的词嵌入取平均,对主题和之前的电子邮件进行编码。然后在每个解码步中,将这些平均词嵌入输入到目标序列 RNN-LM。模型架构如下图所示。

Smart Compose RNN-LM 模型架构。通过对每个字段中的词嵌入取平均,对主题和之前的电子邮件信息进行编码。然后在每个解码步将平均词嵌入输入到 RNN-LM。

加速模型训练 & 服务

当然,确定使用该建模方法后,谷歌仍然需要调整不同的模型超参数,并在数十亿样本上训练模型,这些样本需要消耗大量时间。为了加速,谷歌使用完整的 TPUv2 Pod 进行实验,能够在不到一天的时间中训练模型至收敛。

即使在训练较快的混合模型之后,在标准 CPU 上运行的 Smart Compose 最初版本仍然具备数百毫秒的平均服务延迟,这对于一个试图节约用户时间的功能来说是不可接受的。幸运的是,TPU 在推断时间可以使用,从而极大地加速用户体验。通过将大量计算卸载到 TPU 上,谷歌将平均延迟减少到几十毫秒,同时极大地提高了单个机器可服务的请求数量。

公平性和隐私

机器学习中的公平性非常重要,因为理解语言的模型可以反映出人类的认知偏见,从而导致惹人厌的词关联和句子。正如 Caliskan 等人在其近期论文《Semantics derived automatically from language corpora contain human-like biases》中所指出的,这些关联与自然语言数据有很深的纠缠,这是构建语言模型的挑战。谷歌正在积极探索继续减少训练步骤中的潜在偏见的方式。同时,由于 Smart Compose 在数十亿词组和句子上训练而成,类似于垃圾邮件机器学习模型的训练方式,因此谷歌已经进行大量测试,以确保只有多个用户使用的共同词组才会被模型记住,此举使用了论文《The Secret Sharer: Measuring Unintended Neural Network Memorization & Extracting Secrets》的研究成果。

未来工作

谷歌一贯致力于通过先进架构(如 Transformer、RNMT+等)提高语言生成模型的建议质量,并使用最近、最先进的训练技术进行实验。一旦这些模型满足谷歌严格的延迟约束,谷歌将把它们部署到生产。谷歌还研究整合人类语言模型,旨在更准确地在其系统中模仿人类的写作风格。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-05-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

监督学习越来越准,我为什么要写bandit问题

监督学习的典型场景 在涉猎bandit问题之前,监督学习是很好概括的: 步骤 1 刻画原始需求: 给用户推荐一道菜,结果只有两个:用户喜欢或者不喜欢 步骤 2 ...

1978
来自专栏新智元

【DeepMind最新Nature论文】探索人类行为中的强化学习机制

【新智元导读】DeepMind与来自普林斯顿、NYU、达特茅斯学院、UCL和哈佛大学的研究人员合作,探索了人类行为中的强化学习,为开发智能体强化学习提供了新的策...

2604
来自专栏奇点大数据

最前沿:从虚拟到现实,DRL 让小狗机器人跑起来了

深度增强学习 DRL 在仿真机器人已经取得了很大的成功,同时,也在真实的机器人抓取(Robotic Manipulation)问题上有了很大的进展。然而依然会有...

543
来自专栏机器之心

业界 | OpenAI举办迁移学习竞赛:评估强化学习算法表现

选自OpenAI 作者: CHRISTOPHER HESSE等 机器之心编译 参与:李亚洲、刘晓坤 近日,OpenAI 发布了一个迁移学习竞赛,来评判强化学习算...

2705
来自专栏ATYUN订阅号

滑铁卢大学与DarwinAI开发离线语音模型,准确率可达97%

通常,语音识别的深度学习方法依靠强大的远程服务器进行大量处理。但是,滑铁卢大学和创业公司DarwinAI的研究人员声称已经开创了一种设计语音识别网络的策略,该策...

661
来自专栏新智元

微软视觉智能技术突破: 首次 bot 生成视频标题,将开源大型数据库

【新智元导读】台湾国立清华大学与微软合作,首次实现了让机器自动生成视频标题。他们创建了一个系统,可以由机器人观看视频、找出视频中的亮点,然后生成简洁、吸引眼球的...

39513
来自专栏大数据文摘

顶尖人工智能无法识别这些简单图像

1774
来自专栏量子位

微软发布SynNet:两步打造可迁移学习的机器阅读理解系统

李根 编译整理 量子位 出品 | 公众号 QbitAI 我们先把“机器灭绝人类”的探讨放一放,因为还有很多“看起来简单做起来难”的问题未得到解决,比如阅读理解。...

3525
来自专栏大数据文摘

​AI大事件 | 人工智能检测自杀倾向,三星收购AI公司

1743
来自专栏新智元

再见AI黑匣子:研究人员教会AI进行自我解释

---- 新智元编译 来源:thenextweb 作者:艾霄葆 【新智元导读】AI决策过程的黑匣子问题一直是AI领域最大的担忧之一,但近期黑匣子决策问...

35811

扫码关注云+社区