前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >从研究到应用:腾讯AI Lab的自然语言理解和生成

从研究到应用:腾讯AI Lab的自然语言理解和生成

作者头像
腾讯技术工程官方号
发布2018-04-23 14:38:51
7.3K14
发布2018-04-23 14:38:51
举报

3月16日在腾讯AILab第二届学术论坛上,腾讯AI Lab高级研究员李菁博士介绍了实验室目前在NLP方面重点关注的两大方向——如何理解和生成自然语言,并介绍了实验室的相关研究和应用成果。

自然语言的理解

自然语言理解的目标是使得机器能够像人一样进行阅读。机器不能像人一样通过直觉和感知来理解文本,只能通过计算和逻辑。因此,自然语言的理解需要通过表征学习(Representation Learning)的手段把文本信号转化为比如向量、矩阵等等可计算的形式。然后通过信息抽取(Information Extraction)从文本信息中找到有用的信息,摒弃无用的噪音。但这两个研究方向仅仅是在字面意思上的理解,想要深入了解文字背后的含义还需要用到更复杂的语义分析技术,比如在语文考试中经常出现的题目:“这句话表达了作者怎样的思想感情”,而回答这个问题就需要用到语义分析技术的一个子方向——情感分析技术。李菁详细阐述了表征学习和信息抽取这两种技术。

表征学习:腾讯AI Lab在各个颗粒度都有研究

李菁表示,从词、词组、到句子、到篇章,腾讯AI Lab在各个颗粒度的表征学习都有研究,并重点介绍了词级别的表征,也就是词嵌入(wordembedding)。词嵌入的目标是把词映射到一个高维的空间当中,使得意义相近的词在空间上的距离比较近。词嵌入目前很多深度学习模型所依赖的语料,直接作为用作输入层的特征表示。在英语上,词嵌入有很多很好的语料,比如 word2vec,但在中文上这个方面的语料目前还比较欠缺。因此腾讯AI Lab训练了一个非常大规模的中文的词嵌入,这个语料不管从覆盖度、准确率还是对于新词的衡量方面,都达到了行业领先的水平。并且无论是词的相似度还是它应用到词性标注上的性能,这个语料都表现出其优越性。

信息抽取:关键词抽取被赋予了新的生命

说到信息抽取,李菁通过关键词抽取的例子介绍了他们的研究成果。关键词抽取是从文本当中抽取一些重要的成分,一般是词或者词组的形式。关键词抽取是一个非常古老的问题,如今各种各样的AI技术应用场景却赋予它新的生命。比如在时下非常流行的自动问答系统当中,当用户输入这样一个问题:“刚开始玩王者荣耀,花木兰这个英雄怎么样”,如果能正确定位到花木兰这个关键词,就可以搜索到相关信息,比如“王者荣耀推出花木兰,输出给力”、“新英雄花木兰让女性英雄不再脆皮”以及“不是很喜欢花木兰,技能太复杂。”,通过融合这些返回的结果就可以得到用户想要的答案,比如“输出给力,不脆皮,但是技能复杂”。

图1考虑上下文的关键词抽取模型

现在学术界在关键词抽取上的研究进展并不是完美的,它也有欠缺考虑的地方,表现为目前针对关键词抽取的研究点只考虑了待抽取的文本,而忽略了它的上下文信息,比如在抽取新闻的关键词的时候,往往只关注新闻本身,而忽略了和新闻有关的评论。因为目标文本中的重要信息往往在上下文中会被多次提及,如果能很好地编码上下文中的重要信息,将对定位目标文本的关键词位置起到重要的作用。李菁在当天还介绍了AI Lab在关键词抽取上的提出的模型,如图 1所示,模型的左侧的上下文编码器用于抽象上下文中的表示,右侧用于学习目标文本的特征,结合二者来共同发现目标文本中的关键词位置。

自然语言的生成:让AI写春联

自然语言的生成技术关注的是如何让机器能够像人一样进行写作,这就赋予了机器的创作能力。自动聊天是腾讯AI Lab在自然语言生成方面的主要研究方向,AI Lab可以做到让机器生成诸如古风、浪漫风格等等各种各样的回复。AI Lab生成应用亦在金融方面有所涉猎,比如针对股票的自动问答系统,针对财报生成摘要,让大众能够很快地理解财报中的重要信息。另外还有针对中文古典文化的生成成果,比如诗歌和对联的生成。接下来李菁以对联生成为例,介绍了AI Lab在自然语言生成方面的应用。

图 2 腾讯AI春联生成以“腾讯”为藏头的春联

图 2是AI Lab在2018年春节期间推出的腾讯AI 春联产品,由腾讯AI Lab和腾讯新闻联手出品。用户只需输入2-4个汉字,系统就会取后面2个汉字,第一个汉字生成上联,第二个汉字生成下联,比如输入“腾讯”就会生成如图 2中所示的对联。李菁谈到,这个产品自问世以来就受到了大众的广泛欢迎,数据显示有超过380万的用户使用了该产品,页面访问量达到了760万,春联生成次数超过4千万次,人均生成10次春联。另外,由于腾讯AI春联带来的巨大影响力,各大媒体也争相报道这个产品,除了中国大陆的媒体之外,还有来自中国台湾和中国香港的媒体也争相报道这个产品。

李菁还展示了腾讯AI春联产品的工作原理。首先要根据用户给定的第一个字生成上联,在生成上联的每个字的时候需要根据之前所挥洒出的意境,因此产品采用了语言模型的方法。在从上联生成下联的时候,采用了稍微不一样的模型,因为考虑到对仗,系统使用了带有注意机制的序列到序列模型,生成下联每一个字的时候都找到上联和它对应的字去落笔。通过这两个模型,一副对仗工整、意境深远的春联就生成了。

最后,李菁表示相信随着AI技术的发展,在不远的将来,机器能够被赋予像人一样阅读和写作的能力。未来也一定会共同见证图灵梦想成真的那一天!

题图引用地址:https://naacl2018.wordpress.com/2018/03/03/naacl-paper-titles-over-time/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-04-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯技术工程官方号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档