从研究到应用:腾讯AI Lab的自然语言理解和生成

3月16日在腾讯AILab第二届学术论坛上,腾讯AI Lab高级研究员李菁博士介绍了实验室目前在NLP方面重点关注的两大方向——如何理解和生成自然语言,并介绍了实验室的相关研究和应用成果。

自然语言的理解

自然语言理解的目标是使得机器能够像人一样进行阅读。机器不能像人一样通过直觉和感知来理解文本,只能通过计算和逻辑。因此,自然语言的理解需要通过表征学习(Representation Learning)的手段把文本信号转化为比如向量、矩阵等等可计算的形式。然后通过信息抽取(Information Extraction)从文本信息中找到有用的信息,摒弃无用的噪音。但这两个研究方向仅仅是在字面意思上的理解,想要深入了解文字背后的含义还需要用到更复杂的语义分析技术,比如在语文考试中经常出现的题目:“这句话表达了作者怎样的思想感情”,而回答这个问题就需要用到语义分析技术的一个子方向——情感分析技术。李菁详细阐述了表征学习和信息抽取这两种技术。

表征学习:腾讯AI Lab在各个颗粒度都有研究

李菁表示,从词、词组、到句子、到篇章,腾讯AI Lab在各个颗粒度的表征学习都有研究,并重点介绍了词级别的表征,也就是词嵌入(wordembedding)。词嵌入的目标是把词映射到一个高维的空间当中,使得意义相近的词在空间上的距离比较近。词嵌入目前很多深度学习模型所依赖的语料,直接作为用作输入层的特征表示。在英语上,词嵌入有很多很好的语料,比如 word2vec,但在中文上这个方面的语料目前还比较欠缺。因此腾讯AI Lab训练了一个非常大规模的中文的词嵌入,这个语料不管从覆盖度、准确率还是对于新词的衡量方面,都达到了行业领先的水平。并且无论是词的相似度还是它应用到词性标注上的性能,这个语料都表现出其优越性。

信息抽取:关键词抽取被赋予了新的生命

说到信息抽取,李菁通过关键词抽取的例子介绍了他们的研究成果。关键词抽取是从文本当中抽取一些重要的成分,一般是词或者词组的形式。关键词抽取是一个非常古老的问题,如今各种各样的AI技术应用场景却赋予它新的生命。比如在时下非常流行的自动问答系统当中,当用户输入这样一个问题:“刚开始玩王者荣耀,花木兰这个英雄怎么样”,如果能正确定位到花木兰这个关键词,就可以搜索到相关信息,比如“王者荣耀推出花木兰,输出给力”、“新英雄花木兰让女性英雄不再脆皮”以及“不是很喜欢花木兰,技能太复杂。”,通过融合这些返回的结果就可以得到用户想要的答案,比如“输出给力,不脆皮,但是技能复杂”。

图1考虑上下文的关键词抽取模型

现在学术界在关键词抽取上的研究进展并不是完美的,它也有欠缺考虑的地方,表现为目前针对关键词抽取的研究点只考虑了待抽取的文本,而忽略了它的上下文信息,比如在抽取新闻的关键词的时候,往往只关注新闻本身,而忽略了和新闻有关的评论。因为目标文本中的重要信息往往在上下文中会被多次提及,如果能很好地编码上下文中的重要信息,将对定位目标文本的关键词位置起到重要的作用。李菁在当天还介绍了AI Lab在关键词抽取上的提出的模型,如图 1所示,模型的左侧的上下文编码器用于抽象上下文中的表示,右侧用于学习目标文本的特征,结合二者来共同发现目标文本中的关键词位置。

自然语言的生成:让AI写春联

自然语言的生成技术关注的是如何让机器能够像人一样进行写作,这就赋予了机器的创作能力。自动聊天是腾讯AI Lab在自然语言生成方面的主要研究方向,AI Lab可以做到让机器生成诸如古风、浪漫风格等等各种各样的回复。AI Lab生成应用亦在金融方面有所涉猎,比如针对股票的自动问答系统,针对财报生成摘要,让大众能够很快地理解财报中的重要信息。另外还有针对中文古典文化的生成成果,比如诗歌和对联的生成。接下来李菁以对联生成为例,介绍了AI Lab在自然语言生成方面的应用。

图 2 腾讯AI春联生成以“腾讯”为藏头的春联

图 2是AI Lab在2018年春节期间推出的腾讯AI 春联产品,由腾讯AI Lab和腾讯新闻联手出品。用户只需输入2-4个汉字,系统就会取后面2个汉字,第一个汉字生成上联,第二个汉字生成下联,比如输入“腾讯”就会生成如图 2中所示的对联。李菁谈到,这个产品自问世以来就受到了大众的广泛欢迎,数据显示有超过380万的用户使用了该产品,页面访问量达到了760万,春联生成次数超过4千万次,人均生成10次春联。另外,由于腾讯AI春联带来的巨大影响力,各大媒体也争相报道这个产品,除了中国大陆的媒体之外,还有来自中国台湾和中国香港的媒体也争相报道这个产品。

李菁还展示了腾讯AI春联产品的工作原理。首先要根据用户给定的第一个字生成上联,在生成上联的每个字的时候需要根据之前所挥洒出的意境,因此产品采用了语言模型的方法。在从上联生成下联的时候,采用了稍微不一样的模型,因为考虑到对仗,系统使用了带有注意机制的序列到序列模型,生成下联每一个字的时候都找到上联和它对应的字去落笔。通过这两个模型,一副对仗工整、意境深远的春联就生成了。

最后,李菁表示相信随着AI技术的发展,在不远的将来,机器能够被赋予像人一样阅读和写作的能力。未来也一定会共同见证图灵梦想成真的那一天!

题图引用地址:https://naacl2018.wordpress.com/2018/03/03/naacl-paper-titles-over-time/

原文发布于微信公众号 - 腾讯技术工程官方号(Tencent_TEG)

原文发表时间:2018-04-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

【深入浅出】一篇超棒的机器学习入门文章

【链接】http://www.cnblogs.com/subconscious/p/4107357.html 在本篇文章中,我将对机器学习做个概要的介绍。本文的...

37390
来自专栏AI研习社

用两万篇论文告诉你:机器学习在过去五年中发生了什么

arXiv.org 很多人都知道,是一个专门收集物理学、数学、计算机科学与生物学论文预印本的网站。数据显示,截至 2014 年底的时候,arXiv 已经达到了一...

421160
来自专栏人工智能头条

Yann LeCun:CNN已解决CIFAR-10,目标 ImageNet

24460
来自专栏人工智能头条

一篇文章读懂机器学习

22640
来自专栏华章科技

一文读懂机器学习,大数据/自然语言处理/算法全有了……

机器学习是什么,为什么它能有这么大的魔力,这些问题正是本文要回答的。同时,本文叫做“从机器学习谈起”,因此会以漫谈的形式介绍跟机器学习相关的所有内容,包括学科(...

13710
来自专栏新智元

【干货】机器学习概览+模型可视化呈现

2016年10月18日, 世界人工智能大会技术论坛,特设“新智元智库院长圆桌会议”,重量级研究院院长 7 剑下天山,汇集了中国人工智能产学研三界最豪华院长阵容:...

44460
来自专栏新智元

【AI学会“以牙还牙”】OpenAI发布多智能体深度强化学习新算法LOLA

【新智元导读】OpenAI和牛津大学等研究人员合作,提出了一种新的算法LOLA,让深度强化学习智能体在更新自己策略的同时,考虑到他人的学习过程,甚至实现双赢。每...

41860
来自专栏机器人网

AI科学家李飞飞告诉我们:超越 ImageNet 的视觉智能

说起人工智能,孕育了卷积神经网络和深度学习算法的 ImageNet 挑战赛恐怕是世界上最著名的 AI 数据集。8 年来,在 ImageNet 数据集的训练下,人...

14840
来自专栏人称T客

人工智能、机器学习、深度学习的区别在哪?|编译

编者:T 客汇 杨丽 张苏月 关键词:人工智能,机器学习,深度学习 网址:www.tikehui.com 有人说,人工智能(Artificial Intell...

33650
来自专栏大数据文摘

由深度神经网络想到的人生意义和哲理

15230

扫码关注云+社区

领取腾讯云代金券