诺亚神经响应机NRM模型:深度学习改变自然语言对话

图灵测试是人工智能的梦想,它所要完成的任务是机器智能判定实验,即让机器和人能够通过自然语言对话(Natural Language Dialogue,NLD)来沟通。这项长期困扰研究人员的工作,因为深度学习的引入,有了新的进展。

最新的NLD工作,在基于检索的对话中引入深度学习,华为诺亚方舟实验室(简称诺亚)是最早开始此项工作的玩家之一。从2013年开始,诺亚在短文本对话领域有一系列的工作【1】【2】【3】。今年3月初,诺亚的研究人员在arXiv上公布的一篇论文(这篇文章也将在今年7月的ACL会议上发表【4】),第一次提出了完全基于神经网络的对话模型“神经响应机”(Neural Responding Machine,NRM),用于人机之间的单轮对话(single-turn dialog)。

诺亚研究人员介绍,对用户说的话,NRM用一种混合机制来进行表示,从而既对文本有整体的把握,又充分保留了句子的细节信息。在对输入问题的表示的基础上,NRM采用了递归神经网络(Recurrent Neural Network)来逐字的生成自然语言的句子作为回复。NRM从五百万个(微博,回复)对中学习人的回复,这些学到的模式存于系统的近四百万参数中。因为NRM中部分采用了attention的机制,可以相对容易掌握比较复杂的模式,如:

人:你好,我是利锋。 NRM:利锋你好!

当然,NRM以及随后出现的类似模型,如Google的Neural Conversational Model(NCM)【5】,还停留在对复杂语言模式记忆和组合上,尚无法在对话中使用外界的知识。例如,在对“看了昨晚恒大的比赛了吗?”这样的句子,无法给出真实的状况(例如昨晚恒大比赛的结果)相关的回复。

但依旧不能否认NRM的意义。此前的近几十年,研究人员不懈努力而生成的对话系统(dialogue model),大都是基于规则和模板,或者是在一个较大的对话数据库中进行搜索。这种两种方式并非真正的产生对话,又缺乏对语言的有效理解和表示。囿于模板/例子的数量和表示的局限性,这些方式在准确性和灵活性上都存在一定的不足,很难兼顾语言的自然通顺和内容的适当切题,效果与引入深度学习的模型不可同日而语。

所以说,NRM模型的提出,更多的可能性和想象空间才刚刚开始。事实上,诺亚已经以此为基础展开深度学习在对话方面的深入研究,包括多轮对话(multi-turn dialog),与强化学习(reinforcement learning)结合的对话管理,以及在对话中引入知识(knowledge)等。

参考文献

【1】H. Wang, Z. Lu, H. Li, E. Chen. A Dataset for Research on Short-text Conversations. In Proceedings of EMNLP, 2013

【2】Z. Ji, Z. Lu, H. Li. An information Retrieval Approach to Short-text Conversation. arXiv: 1408.6988, 2014.

【3】B. Hu, Z. Lu, H. Li, Q. Chen. Convolutional Neural Network Architectures for Matching Natural Language Sentences. In Advances of NIPS, 2014

【4】L. Shang, Z. Lu, and H. Li. Neural Responding Machine for Short-text Conversation. In Proceedings of ACL,2015.

【5】O. Vinyals, and Q. V. Le. A Neural Conversational Model. arXiv: 1506.05869,2015

原文发布于微信公众号 - CSDN技术头条(CSDN_Tech)

原文发表时间:2015-07-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

动态 | 「词嵌入」和「注意力」的新发现获得CoNLL 2018最佳论文奖

AI 科技评论按:国际语言学会(ACL)下属的 SIGDAT 小组主办的自然语言处理顶级会议 EMNLP 2018 即将于 10 月 31 日到 11 月 4 ...

1023
来自专栏新智元

【ICCV 13大不可错过的有趣项目】实时任意风格迁移、手机照片背景模糊……

来源:techcrunch 作者:Devin Coldewey 编译:马文 【新智元导读】计算机视觉领域顶会之一的 ICCV 结束不久,图像质量提升、从头创建...

4067
来自专栏人工智能头条

Google第二届YouTube-8M视频理解挑战赛开启,模型大小不得超过1GB

3852
来自专栏新智元

【重磅】机器阅读理解终于超越人类水平!权威竞赛排名中国霸榜,MSRA、阿里、腾讯前二

新智元报道 编辑:刘小芹 弗朗西斯 【新智元导读】2018年1月3日,微软亚洲研究院的r-net率先第一个在SQuAD machine reading ...

3776
来自专栏企鹅号快讯

计算机视觉:让冰冷的机器看懂多彩的世界

作者:微软亚洲研究院 链接:https://www.guokr.com/article/439945/ 2010年,来自斯坦福大学、普林斯顿大学及哥伦比亚大学的...

4619
来自专栏专知

Top 50!2017年机器学习热门文章精选

【导读】1月26日,Mybridge发布一篇看2017年热门网文入门机器学习应用开发。作者总结了2017年1月到12月近2万篇文章,从中选取前50名分享给大家。...

3815
来自专栏CDA数据分析师

数据挖掘过程中绝不能犯这11大错误

【摘要】当小孩子手拿一把锤子时,整个世界看起来就是一枚钉子。 1. 缺乏数据(Lack Data)   对于分类问题或预估问题来说,常常缺乏准确标注的案例。  ...

2116
来自专栏机器之心

打响新年第一炮,Gary Marcus提出对深度学习的系统性批判

37712
来自专栏数据科学与人工智能

【数据挖掘】数据挖掘中应该避免的弊端

1. 缺乏数据(Lack Data) 对于分类问题或预估问题来说,常常缺乏准确标注的案例。 例如:欺诈侦测(Fraud Detection):在上百万的交易中...

2908
来自专栏灯塔大数据

数据挖掘 | 避免弊端方法汇总大全,实用!

导语:数据挖掘最重要的要素是分析人员的相关业务知识和思维模式。我们在掌握丰富的业务知识同时,如果能够按照正确的思维模式去思考问题,将会发现解决问题并不是很困难...

3576

扫码关注云+社区

领取腾讯云代金券