专栏首页AI科技评论动态 | 着眼两大核心应用问题,SMP 2018 第二届中文人机对话技术评测顺利落幕

动态 | 着眼两大核心应用问题,SMP 2018 第二届中文人机对话技术评测顺利落幕

AI 科技评论按:由中国中文信息学会社会媒体处理专委会主办、哈尔滨工业大学承办的第七届全国社会媒体处理大会(SMP 2018)于 2018 年 8 月 2 日- 4 日在哈尔滨召开。雷锋网作为独家战略媒体带来专题报道。

对话是人机交互最为流畅且自然的一种形式,因此人机对话成为自然语言处理的一个重要研究方向。以微软小冰、Siri 为代表的人机对话产品也作为产业界的代表应用迅速发展。与之相应地,人机对话的技术评测也成为了高校及企业技术的「练兵场」。

图片来源:哈工大 SCIR 李家琦

8 月 4 日下午,SMP 2018 第二届中文人机对话技术评测(The Second Evaluation of Chinese Human-Computer Dialogue Technology,SMP-ECDT) 的颁奖仪式及技术报告论坛顺利召开。

本届 SMP-ECDT 由中国中文信息学会社会媒体处理专委会主办,承办方包括哈尔滨工业大学和提供数据支持的科大讯飞股份有限公司,此外华为公司提供奖金支持。SMP 2018 技术评测委员会组织架构包括主席张伟男(哈尔滨工业大学),委员陈志刚(科大讯飞股份有限公司)、车万翔(哈尔滨工业大学)及张轶博(华为公司)。

本届 SMP-ECDT 技术评测沿袭上一年的赛制,分为用户意图领域分类及任务型人机对话在线评测两个任务。

用户意图领域分类(任务一)针对闲聊类和任务类两大类领域(domain),要求系统将用户在单轮对话的输入分类对应到相应的领域中;其中,任务类又细分为 30 个垂直领域。

在人机对话的应用过程中,只有正确判断用户的意图,并正确进行划分,才能进一步返回正确的回复结果。在本任务中,参赛者可以开放地获取除主办方提供的数据之外的训练及开发数据;主办方提供给定测试集,并运行参赛系统,在测试集上面得出评测结果。评价标准包括准确率(P)、召回率(R)及 F 值。

任务型人机对话在线评测(任务二)则涵盖机票类、火车票类、酒店类 3 个垂直领域,系统通过与测试人员实时在线对话完成相应的预定或查询任务。

整个评测过程对不同的参赛系统均给定相同的首轮对话输入,评测员根据给定的完整意图描述与参赛系统进行交互直至对话结束;系统返回所有任务(单任务或多任务)的执行结果,此外,如果单个任务在 30 个对话轮数之后仍未返回测试员所需的结果,则对话测试结束。评价指标包括任务完成率、对话轮数、用户满意度、回复语言的自然度及资源未覆盖情况的引导能力等五大领域。

SMP-ECDT 技术评测从 2018 年 4 月 1 日启动,历经近五个月的赛程,最终吸引了 80 支队伍共 248 位参赛者报名,相较去年第一届技术评测有了一定程度的提升。值得一提的是,来自工业界的队伍比重相比去年有所增加,SMP 2018 技术评测委员会主席、哈尔滨工业大学张伟男博士表示,这从一个侧面上反映了工业界对人机对话技术的关注度在不断提高,技术水平也在不断进步。

SMP-ECDT 技术评测于 7 月 23 日公布评测结果,详情如下:

图片来源:哈工大 张伟男

尽管评测主题相比去年并没有明显变化,但张伟男博士向雷锋网 AI 科技评论介绍,两个任务都采用了新的数据集,且任务一的测试集规模更大,提升了技术评测的任务难度。

与之相应地,任务一参赛队伍的整体指标相比去年有所下降。不过,技术评测委员会也从中看到了参赛团队的进步。

「我们看到了最近比较火的基于 T2T 的 Transformer 模型应用在了任务一的参赛系统中,并且取得了第一名的成绩,相比于 LSTM,Transformer 仅利用 multihead 的 attention 技术,模型整体更加简单高效,同时我们还看到了 FastText 在数据预训练及获取词汇 embedding 上的应用及取得的成绩。」

而任务二除了采用全新数据集外,也参考去年所遇到的一些测试问题做出了修正。令评测委员会感到欣喜的是,今年任务二的任务完成率和平均话轮数两个主要指标有了明显的提升,张伟男博士表示,「这无疑标志着人机对话技术在过去的一年中,起码在我们这个任务中,有了较大的进步,让我们对后续的进展充满了信心和期待。」

图片来源:哈工大 张伟男

从去年开始,SMP 技术评测委员会在刘挺老师和蒋盛益老师的支持下,于 SMP 大会上连续举办两届中文人机对话技术评测,开创先河。张伟男博士介绍道,在制定评测内容的过程中,委员会认为不仅要考虑人机对话研究上的热点,更应该考虑人机对话在实际应用中的关键核心问题。「经过多次讨论我们确定了两个评测任务,即用户意图分类和在线人机对话实时评测。经过两届的评测,我们欣喜地看到了人机对话技术在这两个任务上的进步,同时也发现了一些问题,如模型的领域迁移问题。」

结合各个团队在比赛过程中暴露的共同问题,评测委员会在未来调整评测重点及后续方案的制定。张伟男博士也表示,在未来,他们也将规划与真实应用场景的结合,如手机助手、智能音箱等,让参赛队伍能在实践中及时获得反馈并做出调整,这也有益于推动人机对话技术的进步与落地。

SMP2018中文人机对话技术评测(ECDT):http://smp2018.cips-smp.org/ecdt_index.html

本文分享自微信公众号 - AI科技评论(aitechtalk)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-08-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 学界 | 李飞飞最新论文:结合深度学习和谷歌街景来估算美国人口结构

    AI科技评论按:最近,一篇名为《Using Deep Learning and Google Street View to Estimate the Demog...

    AI科技评论
  • 开发 | 谷歌加码机器学习,据报将收购数据科学社区 Kaggle

    kaggle.com主页 AI科技评论3月8日消息,科技博客 TechCrunch 援引消息人士报道称,谷歌正在收购 Kaggle —— 一个举办数据科学和机器...

    AI科技评论
  • 哈尔滨工业大学刘挺:独家解读人机对话技术的进展 | CCF-GAIR

    AI 科技评论按:2017 年 7 月 8 日,由中国计算机学会(CCF)主办,雷锋网与香港中文大学(深圳)承办的全球人工智能与机器人峰会(CCF-GAIR)进...

    AI科技评论
  • 【专业技术第九讲】java Applet工作原理及使用方法

    存在问题: 有群友疑惑HTML中的<applet>标签是干什么的? 解决方案: Applet是采用Java编程语言编写的小应用程序,该程序可以包含在 HTML(...

    程序员互动联盟
  • [答疑]为什么要对术语"吹毛求疵"

    潘老师,我发现您的好些竞赛题都在考察术语,也很认同您那篇关于术语的文章中对"用户需求"、"功能模块"等术语的剖析。我也想像您那样把严格使用术语重视起来,但又怕其...

    用户6288414
  • 图神经网络让预估到达准确率提升50%,谷歌地图实现新突破

    很多人使用谷歌地图(Google Maps)获取精确的交通预测和预估到达时间(Estimated Time of Arrival,ETA)。这是很重要的工具,尤...

    机器之心
  • ubiome类似数据dada2处理探索2

    首先把usearch申请下载到工作目录,然后docker挂载到home,当然如果linux就直接省了这一步了,可以下载(安装)好直接使用。

    用户1075469
  • c#类的初始化顺序

    本文转载:http://www.cnblogs.com/ybhcolin/archive/2010/09/24/1834219.html

    跟着阿笨一起玩NET
  • [vuejs 踩坑实战系列] 路由场景下父子组件的生命周期顺序来个刨根问底

    在常见的单页应用中,我们都会有一个根 App.vue 文件,里面放置一个 router-view 然后配置路由来切换.

    前端博客 : alili.tech
  • SAP CRM WebClient UI Excel Export的运行时执行明细

    thtmlbExcelExportGen('https://ldcijerry.corp:44300/sap(bD1FTiZjPTAwMSZpPTEmZT1WM...

    Jerry Wang

扫码关注云+社区

领取腾讯云代金券