前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >回邮件省脑子大法 → 谷歌邮箱智能句子填写

回邮件省脑子大法 → 谷歌邮箱智能句子填写

作者头像
量子位
发布2018-07-24 11:47:13
3490
发布2018-07-24 11:47:13
举报
文章被收录于专栏:量子位量子位
Root 编译自 谷歌博客 量子位 出品 | 公众号 QbitAI

上周谷歌开发者大会I/O上,Gmail刷了下存在感。出场时间大概有1分多钟。

视频内容

谷歌掌门人劈柴哥当时介绍了Gmail的一个和AI有关的新功能,Smart Compose,智能句子填写。

这个功能,可以根据用户输入一到两个单词就能主动预测出用户要写的句子,算是基于之前Smart Reply技术做的更新。

简单来讲,这两个功能的不同之处在于,前者提供的是长句子,适合一句话搞不定的邮件回复;后者猜测的回复更短,适用于简单的邀约场景。

这个看似简单的预测功能,背后要克服的挑战并不少。为了给用户一个良好的使用体验,不再骂AI是人工智障,研发团队要解决以下三大问题。

保证低延迟

句子的预测需要做到实时,这样用户边码字,才能边看到预测。而且,预测必须要比用户自己把话打完要快,理想的话最好低于100毫秒,不然就等机器预测完,天都亮了。

除了时间上要快,预测还得尽可能准确。如何平衡好这两点,是Smart Compose模型面临最难的问题。

句子风格要多样化

现在Gmail的用户超过14亿,每个人回复的需求都不同。如果给老板回复和给老妈回复口气都一个样,预测没有针对性,那大家就会果断弃用“智障”的功能。

用词的分寸感把握很重要

因为模型训练的来源是人的语言,就难免会有个人偏好或者歧视。所以模型的训练来源得格外小心,要筛掉那些带歧视字眼或语气的用词。

研发团队在寻找减少带颜色的用词训练源,尽力确保只让模型学会那些被大部分人使用的话语,而忽略有个人歧视的用词。

用户隐私高于一切

根据谷歌严格的用户隐私规定,保护用户个人信息必须放在第一位。

因此,邮件句子预测模型的训练过程中,研发团队不能接触用户的邮件内容。在训练集看不见摸不着的情况下,怎么凭“感觉”造出一个好用的模型?

确认过眼神,你是那个模型

经典的语言生成模型,有ngram,词袋模型,以及基于RNN的语言模型。这些模型可以依照前面的词语序列,猜出下一个词应该是什么。

不过在邮件中,语言生成模型能参照的依据就只有用户敲出来的单词。

为了get到邮件整体的背景作出合适的回复语句,谷歌智能句子模型还得消化之前邮件的主题内容。

其中一个吃透之前邮件内容的办法是,把这个问题转化成一个序列到序列(seq2seq)的机器翻译任务。源序列是一系列邮件主题和之前邮件的内容(如果有的话),然后靶序列是现在用户正在写的邮件。

尽管这个方法的句子预测效果很优秀,但是响应速度太慢,时间上没达到要求。

所以,为了改善这一点,研发团队就把词袋模型和基于RNN的语言模型结合起来了。出来效果还不错,虽然牺牲了少许的预测质量,但延迟降低了,比seq2seq方法还快。

这种混和法,研发团队编码好邮件主题和之前的邮件内容,平均了每个领域的词嵌入(word embeddings)。然后在每一次解码时,给靶序列RNN语言模型喂这些添加完的平均嵌入(averaged embeddings),如下图所示。

模型训练:快一点,再快一点

选定了这个办法之后,研发团队就开始微调模型的超参数。为了加快训练速度,他们采用了2代TPU板,最后模型聚合用时不超过一天。

不过,最初的智能句子填写版本预测时间还是不够快,在CPU跑的话用时大概要几百毫秒。后来把计算任务扔给TPU之后,延时就降到了几百微秒,增加了单台电脑处理请求的数量。

模型还在“成长”

研发团队将会采用最尖端的架构,比如Transformer,RNMT+等,持续提升语言模型预测句子的质量。后期还会开发针对个人风格的语言模型,为用户提供更具个人特点的回复内容。

最后,附谷歌原文:

https://ai.googleblog.com/2018/05/smart-compose-using-neural-networks-to.html

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-05-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 确认过眼神,你是那个模型
  • 模型还在“成长”
相关产品与服务
机器翻译
机器翻译(Tencent Machine Translation,TMT)结合了神经机器翻译和统计机器翻译的优点,从大规模双语语料库自动学习翻译知识,实现从源语言文本到目标语言文本的自动翻译,目前可支持十余种语言的互译。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档