2018 视觉会话挑战赛开始报名!

视觉会话是一项非常新颖的任务,它需要 AI agent 以自然的方式用语言向人类描述视觉内容。具体来说,给定一幅图像,一段对话记录(由图像标题和一系列先前的问题和答案组成),AI agent 必须回答对话中的后续问题。为了得到良好的结果,agent 不仅需要检测视觉内容,而且要查询对话历史。

我们相信,下一代人工智能系统应该具有这样的能力,并应用于各个领域。我们鼓励更多的人参与进来,推动该领域的发展。

时间

2018 年 6 月 04 日 - Visual Dialog Challenge 2018 正式开启!

6 月中旬 - VisDial v1.0 测试版发布。

8 月中旬 - 参赛者提交截止日期。

2018 年 9 月 8 日 - 德国慕尼黑 ECCV 2018 获奖者公告。

数据集描述

本次挑战赛将会在 VisDial v1.0 数据集上进行,该数据集基于 COCO 图像。

在当前可用的 VisDial v0.9 里,1 段对话包含 10 个问答对(从图像标题开始) ~ 在 120K 张图片里总共包括了约 120 万个问答对。这些数据构成了挑战的训练集。

VisDial dataset:

https://visualdialog.org/data

COCO images:

http://cocodataset.org/

对于 VisDial v1.0,我们已经收集了约 10K 张类似 COCO 图片的会话,将整个数据集大小扩展到约 130 万个会话 QA 对。我们与 COCO 团队密切合作,确保图像和标题的分布与训练集的分布相匹配。这些附加数据形成了挑战的 val 和测试集。详情请参阅下面的常见问题:

train- 含有 10 轮对话的 1,23287 张图片+每个问题的候选答案

val- 含有 10 轮对话的 2,000 幅图像+每个问题的候选答案

test- 含有 n 轮对话(n 为从 1 到 10 的任意值)的 8000 幅图像和 1 个后续问题 + 候选答案

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180607A083DL00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券