从研究到应用：腾讯AI Lab的自然语言理解和生成

腾讯技术工程官方号

发布于 2018-04-23 14:38:51

7.4K14

发布于 2018-04-23 14:38:51

3月16日在腾讯AILab第二届学术论坛上，腾讯AI Lab高级研究员李菁博士介绍了实验室目前在NLP方面重点关注的两大方向——如何理解和生成自然语言，并介绍了实验室的相关研究和应用成果。

自然语言的理解

自然语言理解的目标是使得机器能够像人一样进行阅读。机器不能像人一样通过直觉和感知来理解文本，只能通过计算和逻辑。因此，自然语言的理解需要通过表征学习(Representation Learning)的手段把文本信号转化为比如向量、矩阵等等可计算的形式。然后通过信息抽取（Information Extraction）从文本信息中找到有用的信息，摒弃无用的噪音。但这两个研究方向仅仅是在字面意思上的理解，想要深入了解文字背后的含义还需要用到更复杂的语义分析技术，比如在语文考试中经常出现的题目：“这句话表达了作者怎样的思想感情”，而回答这个问题就需要用到语义分析技术的一个子方向——情感分析技术。李菁详细阐述了表征学习和信息抽取这两种技术。

表征学习：腾讯AI Lab在各个颗粒度都有研究

李菁表示，从词、词组、到句子、到篇章，腾讯AI Lab在各个颗粒度的表征学习都有研究，并重点介绍了词级别的表征，也就是词嵌入（wordembedding）。词嵌入的目标是把词映射到一个高维的空间当中，使得意义相近的词在空间上的距离比较近。词嵌入目前很多深度学习模型所依赖的语料，直接作为用作输入层的特征表示。在英语上，词嵌入有很多很好的语料，比如 word2vec，但在中文上这个方面的语料目前还比较欠缺。因此腾讯AI Lab训练了一个非常大规模的中文的词嵌入，这个语料不管从覆盖度、准确率还是对于新词的衡量方面，都达到了行业领先的水平。并且无论是词的相似度还是它应用到词性标注上的性能，这个语料都表现出其优越性。

信息抽取：关键词抽取被赋予了新的生命

说到信息抽取，李菁通过关键词抽取的例子介绍了他们的研究成果。关键词抽取是从文本当中抽取一些重要的成分，一般是词或者词组的形式。关键词抽取是一个非常古老的问题，如今各种各样的AI技术应用场景却赋予它新的生命。比如在时下非常流行的自动问答系统当中，当用户输入这样一个问题：“刚开始玩王者荣耀，花木兰这个英雄怎么样”，如果能正确定位到花木兰这个关键词，就可以搜索到相关信息，比如“王者荣耀推出花木兰，输出给力”、“新英雄花木兰让女性英雄不再脆皮”以及“不是很喜欢花木兰，技能太复杂。”，通过融合这些返回的结果就可以得到用户想要的答案，比如“输出给力，不脆皮，但是技能复杂”。

图1考虑上下文的关键词抽取模型

现在学术界在关键词抽取上的研究进展并不是完美的，它也有欠缺考虑的地方，表现为目前针对关键词抽取的研究点只考虑了待抽取的文本，而忽略了它的上下文信息，比如在抽取新闻的关键词的时候，往往只关注新闻本身，而忽略了和新闻有关的评论。因为目标文本中的重要信息往往在上下文中会被多次提及，如果能很好地编码上下文中的重要信息，将对定位目标文本的关键词位置起到重要的作用。李菁在当天还介绍了AI Lab在关键词抽取上的提出的模型，如图 1所示，模型的左侧的上下文编码器用于抽象上下文中的表示，右侧用于学习目标文本的特征，结合二者来共同发现目标文本中的关键词位置。

自然语言的生成：让AI写春联

自然语言的生成技术关注的是如何让机器能够像人一样进行写作，这就赋予了机器的创作能力。自动聊天是腾讯AI Lab在自然语言生成方面的主要研究方向，AI Lab可以做到让机器生成诸如古风、浪漫风格等等各种各样的回复。AI Lab生成应用亦在金融方面有所涉猎，比如针对股票的自动问答系统，针对财报生成摘要，让大众能够很快地理解财报中的重要信息。另外还有针对中文古典文化的生成成果，比如诗歌和对联的生成。接下来李菁以对联生成为例，介绍了AI Lab在自然语言生成方面的应用。

图 2 腾讯AI春联生成以“腾讯”为藏头的春联

图 2是AI Lab在2018年春节期间推出的腾讯AI 春联产品，由腾讯AI Lab和腾讯新闻联手出品。用户只需输入2-4个汉字，系统就会取后面2个汉字，第一个汉字生成上联，第二个汉字生成下联，比如输入“腾讯”就会生成如图 2中所示的对联。李菁谈到，这个产品自问世以来就受到了大众的广泛欢迎，数据显示有超过380万的用户使用了该产品，页面访问量达到了760万，春联生成次数超过4千万次，人均生成10次春联。另外，由于腾讯AI春联带来的巨大影响力，各大媒体也争相报道这个产品，除了中国大陆的媒体之外，还有来自中国台湾和中国香港的媒体也争相报道这个产品。

李菁还展示了腾讯AI春联产品的工作原理。首先要根据用户给定的第一个字生成上联，在生成上联的每个字的时候需要根据之前所挥洒出的意境，因此产品采用了语言模型的方法。在从上联生成下联的时候，采用了稍微不一样的模型，因为考虑到对仗，系统使用了带有注意机制的序列到序列模型，生成下联每一个字的时候都找到上联和它对应的字去落笔。通过这两个模型，一副对仗工整、意境深远的春联就生成了。

最后，李菁表示相信随着AI技术的发展，在不远的将来，机器能够被赋予像人一样阅读和写作的能力。未来也一定会共同见证图灵梦想成真的那一天！

题图引用地址：https://naacl2018.wordpress.com/2018/03/03/naacl-paper-titles-over-time/

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-04-04，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能