动态 | 着眼两大核心应用问题,SMP 2018 第二届中文人机对话技术评测顺利落幕

AI 科技评论按:由中国中文信息学会社会媒体处理专委会主办、哈尔滨工业大学承办的第七届全国社会媒体处理大会(SMP 2018)于 2018 年 8 月 2 日- 4 日在哈尔滨召开。雷锋网作为独家战略媒体带来专题报道。

对话是人机交互最为流畅且自然的一种形式,因此人机对话成为自然语言处理的一个重要研究方向。以微软小冰、Siri 为代表的人机对话产品也作为产业界的代表应用迅速发展。与之相应地,人机对话的技术评测也成为了高校及企业技术的「练兵场」。

图片来源:哈工大 SCIR 李家琦

8 月 4 日下午,SMP 2018 第二届中文人机对话技术评测(The Second Evaluation of Chinese Human-Computer Dialogue Technology,SMP-ECDT) 的颁奖仪式及技术报告论坛顺利召开。

本届 SMP-ECDT 由中国中文信息学会社会媒体处理专委会主办,承办方包括哈尔滨工业大学和提供数据支持的科大讯飞股份有限公司,此外华为公司提供奖金支持。SMP 2018 技术评测委员会组织架构包括主席张伟男(哈尔滨工业大学),委员陈志刚(科大讯飞股份有限公司)、车万翔(哈尔滨工业大学)及张轶博(华为公司)。

本届 SMP-ECDT 技术评测沿袭上一年的赛制,分为用户意图领域分类及任务型人机对话在线评测两个任务。

用户意图领域分类(任务一)针对闲聊类和任务类两大类领域(domain),要求系统将用户在单轮对话的输入分类对应到相应的领域中;其中,任务类又细分为 30 个垂直领域。

在人机对话的应用过程中,只有正确判断用户的意图,并正确进行划分,才能进一步返回正确的回复结果。在本任务中,参赛者可以开放地获取除主办方提供的数据之外的训练及开发数据;主办方提供给定测试集,并运行参赛系统,在测试集上面得出评测结果。评价标准包括准确率(P)、召回率(R)及 F 值。

任务型人机对话在线评测(任务二)则涵盖机票类、火车票类、酒店类 3 个垂直领域,系统通过与测试人员实时在线对话完成相应的预定或查询任务。

整个评测过程对不同的参赛系统均给定相同的首轮对话输入,评测员根据给定的完整意图描述与参赛系统进行交互直至对话结束;系统返回所有任务(单任务或多任务)的执行结果,此外,如果单个任务在 30 个对话轮数之后仍未返回测试员所需的结果,则对话测试结束。评价指标包括任务完成率、对话轮数、用户满意度、回复语言的自然度及资源未覆盖情况的引导能力等五大领域。

SMP-ECDT 技术评测从 2018 年 4 月 1 日启动,历经近五个月的赛程,最终吸引了 80 支队伍共 248 位参赛者报名,相较去年第一届技术评测有了一定程度的提升。值得一提的是,来自工业界的队伍比重相比去年有所增加,SMP 2018 技术评测委员会主席、哈尔滨工业大学张伟男博士表示,这从一个侧面上反映了工业界对人机对话技术的关注度在不断提高,技术水平也在不断进步。

SMP-ECDT 技术评测于 7 月 23 日公布评测结果,详情如下:

图片来源:哈工大 张伟男

尽管评测主题相比去年并没有明显变化,但张伟男博士向雷锋网 AI 科技评论介绍,两个任务都采用了新的数据集,且任务一的测试集规模更大,提升了技术评测的任务难度。

与之相应地,任务一参赛队伍的整体指标相比去年有所下降。不过,技术评测委员会也从中看到了参赛团队的进步。

「我们看到了最近比较火的基于 T2T 的 Transformer 模型应用在了任务一的参赛系统中,并且取得了第一名的成绩,相比于 LSTM,Transformer 仅利用 multihead 的 attention 技术,模型整体更加简单高效,同时我们还看到了 FastText 在数据预训练及获取词汇 embedding 上的应用及取得的成绩。」

而任务二除了采用全新数据集外,也参考去年所遇到的一些测试问题做出了修正。令评测委员会感到欣喜的是,今年任务二的任务完成率和平均话轮数两个主要指标有了明显的提升,张伟男博士表示,「这无疑标志着人机对话技术在过去的一年中,起码在我们这个任务中,有了较大的进步,让我们对后续的进展充满了信心和期待。」

图片来源:哈工大 张伟男

从去年开始,SMP 技术评测委员会在刘挺老师和蒋盛益老师的支持下,于 SMP 大会上连续举办两届中文人机对话技术评测,开创先河。张伟男博士介绍道,在制定评测内容的过程中,委员会认为不仅要考虑人机对话研究上的热点,更应该考虑人机对话在实际应用中的关键核心问题。「经过多次讨论我们确定了两个评测任务,即用户意图分类和在线人机对话实时评测。经过两届的评测,我们欣喜地看到了人机对话技术在这两个任务上的进步,同时也发现了一些问题,如模型的领域迁移问题。」

结合各个团队在比赛过程中暴露的共同问题,评测委员会在未来调整评测重点及后续方案的制定。张伟男博士也表示,在未来,他们也将规划与真实应用场景的结合,如手机助手、智能音箱等,让参赛队伍能在实践中及时获得反馈并做出调整,这也有益于推动人机对话技术的进步与落地。

SMP2018中文人机对话技术评测(ECDT):http://smp2018.cips-smp.org/ecdt_index.html

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-08-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

果断收藏!机器学习人才发展全面指导手册(含学习路径和职业规划)

机器学习的学习路径 一、为什么是列出一堆可以探索的书,而不是要去寻找一条路 机器学习的研究和应用已经有很长的时间了。随着人类的发展,数据和计算能力都在不断的增加...

20960
来自专栏AI科技大本营的专栏

突发 | Yann LeCun卸任!Facebook变天,做AI不能落地是不成了

作者 | 波波 编辑 | 谷磊 1月24日早间重磅消息,Facebook 人工智能研究部门(FAIR)的负责人Yann LeCun 宣布卸任,之后将担任Face...

360120
来自专栏AI科技评论

KDD 2017最佳论文得主叶艳芳专访:AI时代的互联网安全 – 攻与防的黑白博弈

AI科技评论了解到,叶艳芳博士一直以来的主要研究领域有互联网安全、机器学习和数据挖掘,而且她先在业界公司工作了6年,然后离开业界来到学校开展安全研究。作为安全领...

444100
来自专栏量子位

谷歌用AI融合1000种乐器创造新声音,将现身艺术节

李杉 编译自 Wired 量子位 报道 | 公众号 QbitAI Jesse Engel正在演奏一种介于古钢琴和哈蒙德电风琴之间的乐器——融合了18世纪的古典乐...

367100
来自专栏BestSDK

黄仁勋再抛“核弹头”,新型GPU深度学习专属 SDK引爆Nvidia股价

在英伟达主办的GTC大会上,这位 AI 教父像是摇滚明星一样,再一次面向现场的数千名观众,扔下了“核弹头”,把这个行业炸开了锅。 ? 在这个 T恤和套头衫为主的...

40150
来自专栏数据科学与人工智能

【机器学习】机器学习人才发展全面指导手册(含学习路径和职业规划)

文 | 王俊宏 机器学习的学习路径 一、为什么是列出一堆可以探索的书,而不是要去寻找一条路 机器学习的研究和应用已经有很长的时间了。随着人类的发展,数据和计算能...

33080
来自专栏程序员笔记

设计玩家的兴趣曲线

23330
来自专栏灯塔大数据

《黑镜》中的读心术可能比你想象的来得快

导读:上一期了解了聊天机器人的相关介绍,今天我们来了解一下关于读心术人工智能的相关内容(文末更多往期译文推荐) ? 我们的思想可能不再是秘密的避风港。科学家们...

36470
来自专栏腾讯高校合作

以“犀牛鸟的名义”,助力青年学者

2016年度CCF-腾讯犀牛鸟基金共计支持18项科研基金,22项创意基金。在过去的一年中,基金获奖者与腾讯研发团队在前沿科技领域的开展深入合作。 双方根据共同关...

40390
来自专栏人工智能头条

CCAI 讲师专访 | 机器学习奠基人Thomas Dietterich:人类将如何受到AI威胁

11010

扫码关注云+社区

领取腾讯云代金券