绝悟之后再超神，腾讯30篇论文入选AI顶会ACL

AI科技大本营

发布于 2020-05-29 15:04:56

4650

文章被收录于专栏：AI科技大本营的专栏AI科技大本营的专栏

作者 | 马超

责编 | Carol

出品| AI科技大本营（ID：rgznai100）

封图 | CSDN 付费下载于东方 IC

近日，国际计算语言学协会年会ACL在官网(https://www.aclweb.org)公布了2020年度的论文收录名单，其中腾讯共有30篇论文入选，入选论文数刷新国内企业记录，领跑国内业界AI研究第一梯队。

国际计算语言学协会(The Association for Computational Linguistics)，于1962年成立，在AI领域已经发展成为影响力最大、最具活力的国际学术组织之一，其会员遍布世界各地。而且尤其值得一提的是，随着国内企业在AI领域不断取得突破，百度基础技术首席科学家王海峰曾经担任在2013年-2018年担任ACL的主席，也成为该组织历史上第一位华人主席。

而且腾讯最近在AI领域突破不断，先是王者荣耀的“绝悟”吊打了一众玩家，而本次又在自然语言处理方面取得突破，充分展示了其全栈AI的实力。与“绝悟”的强化学习不同，自然语言处理方面主要的AI模型还是神经网络。从目前腾讯ACL入选论文清单来看，有20篇来自腾讯AI Lab团队，7篇来自微信AI团队，CSIG智能平台部和QQ研究团队也分别有论文入选，研究方向涵盖对话及文本生成、机器翻译及对话、多模信息抽取多个自然语言处理的重点领域。

如果将数据比作这个数字时代的石油，那么腾讯丰富的业务场景与庞大的用户基数，就为其AI团队提供了世界上最大的原油储存基地，这些都为前沿的AI研究成果提供了令整个业界都非常羡慕的绝佳“训练场”，而拥有了这样高的训练水平，腾讯在AI方面能够取得顶级成果也就不足为奇了。下面笔者就带大家来深度解读一下这30篇论文背后丰富的技术内涵。

多模与对话-腾讯的主战场

正如前文所述腾讯本次的论文主要集中文本生成、机器翻译及对话、多模信息等领域，先带大家来解读一下这个几领域的基本情况：

文本生成：这个领域之所以会抱得大名，主要还是因为《权力的游戏》第八季崩盘，在一片“烂尾结局”的评价声中落下帷幕。而随后，便有极客便用 OpenAI 提出的 GPT-2 文本生成模型进行了实践。模型学习的是《冰与火之歌》原著，最终输出了一个大结局，结果得到很多网友的好评，这也让人们不禁惊呼，原来AI还能写小说。

多模态特征提取与翻译：目前尤其是90后，在对话当中经常使用表情图、动态图等方式来表达情感，而将这些非语言信息的语义提取并翻译出来，就是多模态提取的任务了。

对话系统：其实笔者在经历异地恋的时候也曾经做过一款基于Windows Mobile MSN的对话机器人（https://blog.csdn.net/BEYONDMA/article/details/99690305），不过现在微信基于海量对话信息制作的聊天机器人，已经真假难辩了。而对话系统与文本生成最大的不同之处在于，对话系统一般只生成短句，语义群较少，而文本生成系统则恰恰相反。

腾讯在自然语言处理领域有天量数据的加持，比如微信智聆每天处理超过 4 亿条语音，识别准确率为 97%，服务于腾讯内外超过 100 项业务。而且微信AI团队，还提供语音输入转文字、扫一扫的扫码 / 封面和翻译、聊天机器人、摇一摇 - 音乐 / 电视、声纹锁等功能，每项业务的日均使用次数都近十亿的量级，这也造就了腾讯在多模态和对话系统等方面的领先地位。

自回归与自编码-自然语言处理的少林与武当

自然语言处理分为两大门派一个是以OpenAI的GPT为代表自回归（AR)另一个是以谷歌BERT为代表的自编码（AD)，在我们正式解读代表论文之前，我们先对这两大流派进行一下介绍。

自回归模型：通俗的讲自回归就是使用自身做回归变量的过程，一般说来记为以下的形式。

也就是说自回归模型假定t时刻的序列（Xt）可以利用前期若干时刻的随机变量的线性组合来描述。

因式分解：我们来说一下什么是自然语言处理中的因式分解，先复习一下贝叶斯公式，它描述随机事件 A 和 B 的条件概率,其中P(A|B)是在 B 发生的情况下 A 发生的可能性。

假设我们I、love、you三个单词分别对应向量：X_1、X_2、X_3，那么如果我们要建模”I love you”这句话，其实就要通过贝叶斯公式解出，在自然数据这个序列出现的联合概率分布 P(X_1,X_2,X_3)。

根据词语之间的相互联系，我们除需要统计P(X_1)、P(X_2)、P(X_3)三个概率是不够的。因为X_1还依赖于其它变量存在条件分布 P(X_2|X_1) 和 P(X_3|X_1)。对于X_2和X_3也是一样，我们可以将这三个模型组合起来获得期望联合分布 P(X_1,X_2,X_3)=P(X_1)P(X_2|X_1)P(X_3|X_1,X_2)

一般来说，变量的每个可能的排序都存在自回归因式分解。在有N个变量的问题中，就存在 N! 个因式分解。在上面提到的三个变量的例子中，我们可以列举出六个自回归因式分解，当然在AR模型中都考虑了顺序信息，不会计算所有的因式分解，读到这里可能读者也就明白了，AR模型其实就是通过贝叶斯因式分解的方式来计算输入序列的概率密度。那么其劣势也就比较明显了，由于输入序列有方向性，所以AR模式只能拉收正向或者反向单向信息。而后面我们后面解读到的论文中也会提到，对这方面的改进，也是腾讯的一个创新点。

自编码模型：自编码思想是利用被人为损坏的输入序列重建原始数据。比如BERT，它利用一个特殊符号[MASK]替换特定部分，并训练模型从损坏的版本中恢复原始的信息，如果以图像处理类比，自编码就是先用计算机为图像打上马赛克，然后再通过训练使计算机掌握去掉马赛克的算法。那么自编码的优势就是他完全可以利用双向的信息，来建构模型，不过劣势也非常明显，就是在真实环境下是不存在MASK部分的，这让自编码模型的训练集与预测数据集存在差异，而且自编码模型也无法计算概率密度。

比如在腾讯微信AI团队的《Learning to Recover from Multi-Modality Errors for Non-Autoregressive Neural Machine Translation》论文中，就提出了非自回归神经机器翻译的模型，不但能预测目标句子中的所有词，还能够显著加速预测过程。

正如我们上文介绍的那样，非自回归神经机器翻译模型往往会忽略输出结果中词与词之间的依赖信息，以致存在多峰问题，经常表现出重复词和缺词的情况。

因此腾讯微信AI团队提出一种半自回归模型，该模型将目标句子分成多个段，在进行预测测时，同时生成这些段，而每个段则是逐词生成。通过动态控制每个段的长度和删除重复段，该模型能够从重复词和缺词错误中恢复。实验结果表明，这种方法在取得至少4倍加速效果，为进一步缩小非自回归/半自回归模型与自回归模型的效果差异提供了一种有益的解决方法。

到底是聊天机器人还是男友本尊

大概是今天这篇文章写作时间正值“521”期间，而且是有关聊天机器人的，因此我家领导强烈要求，我在文章结尾，加上如何分辨男友是否正在使用机器人的攻略。

这个问题无独有偶，其实随着多模态和对话系统的发展，互联网上由AI创造的虚拟人物越来越多，比如一位在顶级智库工作的女政治家Katie Jones，她拥有由一批专家和权威人士组成的关系网。她与一名助理国务卿、一名参议员的高级助理以及经济学家 Paul Winfree 都有联系，而且搜索引擎上也能查到相应的新闻报道，不过这位女士其实并不存在，对此美联社已经作出确认，其面部信息是合成的，其相关新闻都是AI捉刀写的，而令人恐怖的是，这样的人造人在脸书上还有几万个。

不过与上述静态的虚拟人物不同，聊天机器人是需要实时互动的，那么在互动中就必然会露出一定的破绽，而且聊天机器人学习了那么多的聊天套路，肯定会比绝大多数男性的嘴更甜，更会照顾他人的情绪，所以当妹子们感觉到程序员老公的话突然不那么直男，变得顺耳了，可能反而要提高警觉了，下面把一些原则分享给大家。

一、求生题：在求生题中比较经典的如“妈妈和女友都跳河里了，先救谁”等等类似的题目，可是根本就难不倒机器人的，或者说机器人长期接受这种求生题的训练，所以这种题就是机器人最擅长的，所以如果男友对于这种题都特别轻松的给出答案，那么其使用机器人的概率恐怕不低于80%。

二、话外音：一般男性的思维方式比较直接，而女性相对比较含蓄，所以绝大多数的男人都不太听得出女友的话外音，不过正如我们前文所述，聊天机器人对于多模信息的提取是吊打绝大多数男性的，可以轻松得从表情图、动态图中提取到说话者的意思，因此如果男友能接得住你的话外音，那么其使用机器人的概念就不低于90%了。

三、事实题：机器人毕竟是机器人，对于一些事实的问题，还是不在机器训练集中的，比如生日、纪念日、工作地点等信息问题，机器还是无法直接告诉你正确答案的，因此在谈到这些有准确答案的事实问题时，如果男友都是回避掉事实答案，转而维护你的情绪，那么基本上可以肯定他是使用了机器人了。

在AI领域，腾讯已开源Angel、NCNN等数十个优质项目。针对业界现有的中文词向量公开数据的稀缺和不足，腾讯也开源了大规模、高质量的中文词向量数据，也期待腾讯未来开源更多的AI项目，为整个行业的发展做出更大的贡献！