视觉会话是一项非常新颖的任务,它需要 AI agent 以自然的方式用语言向人类描述视觉内容。具体来说,给定一幅图像,一段对话记录(由图像标题和一系列先前的问题和答案组成),AI agent 必须回答对话中的后续问题。为了得到良好的结果,agent 不仅需要检测视觉内容,而且要查询对话历史。
我们相信,下一代人工智能系统应该具有这样的能力,并应用于各个领域。我们鼓励更多的人参与进来,推动该领域的发展。
时间
2018 年 6 月 04 日 - Visual Dialog Challenge 2018 正式开启!
6 月中旬 - VisDial v1.0 测试版发布。
8 月中旬 - 参赛者提交截止日期。
2018 年 9 月 8 日 - 德国慕尼黑 ECCV 2018 获奖者公告。
数据集描述
本次挑战赛将会在 VisDial v1.0 数据集上进行,该数据集基于 COCO 图像。
在当前可用的 VisDial v0.9 里,1 段对话包含 10 个问答对(从图像标题开始) ~ 在 120K 张图片里总共包括了约 120 万个问答对。这些数据构成了挑战的训练集。
VisDial dataset:
https://visualdialog.org/data
COCO images:
http://cocodataset.org/
对于 VisDial v1.0,我们已经收集了约 10K 张类似 COCO 图片的会话,将整个数据集大小扩展到约 130 万个会话 QA 对。我们与 COCO 团队密切合作,确保图像和标题的分布与训练集的分布相匹配。这些附加数据形成了挑战的 val 和测试集。详情请参阅下面的常见问题:
train- 含有 10 轮对话的 1,23287 张图片+每个问题的候选答案
val- 含有 10 轮对话的 2,000 幅图像+每个问题的候选答案
test- 含有 n 轮对话(n 为从 1 到 10 的任意值)的 8000 幅图像和 1 个后续问题 + 候选答案
领取专属 10元无门槛券
私享最新 技术干货