CVPR 2019 | 业内最大规模！美图联合清华推出教程类行为数据集 COIN

机器之心

发布于 2019-03-19 10:26:38

7610

发布于 2019-03-19 10:26:38

文章被收录于专栏：机器之心

机器之心发布

美图公司社交产品事业群视觉算法组

不久之前，CVPR 2019 接收论文公布：在超过 5100 篇投稿中，共有 1300 篇被接收，接收率达 25.2%。本文介绍了美图公司社交产品事业群视觉算法组与清华大学自动化系智能视觉实验室合作的一篇论文，双方联合发布了业界最大规模教程类行为数据集 COIN（COmprehensive INstructional video analysis）。

论文标题： COIN: A Large-scale Dataset for Comprehensive Instructional Video Analysis

论文地址：https://arxiv.org/pdf/1903.02874.pdf
数据集链接：https://coin-dataset.github.io

教程类行为视频（Instructional Video）可以帮助使用者获取完成各种行为任务的知识，但是现有教程类行为视频数据集在规模性和多样性都存在较大的局限性，难以应用于现实生中的复杂场景。为此，美图公司社交产品事业群视觉算法组与清华大学自动化系智能视觉实验室合作提出了名为 COIN 的大规模教程类数据集，用于更全面的教程类行为视频分析。

COIN 数据集的概览

COIN 数据集采用分层结构，即第一层是领域（Domain）、第二层是任务（Task）、第三层是步骤（Step），其中包含与日常生活相关的 11827 个视频，涉及交通工具、电器维修、和家具装修等 12 个领域的 180 个任务，共 778 个步骤。

COIN 数据集的分层结构

COIN 数据集的设计人员还开发了创新性的标注工具，可以更高效更准确地标注视频行为的步骤信息。此外，为了给数据集提供更准确的基准指标，数据集开发人员还使用了 SSN、R-C3D 等评价方法对 COIN 数据集进行了测评。

COIN 数据集的步骤定位准确率分析

目前，COIN 数据集是业界规模最大、多样性最丰富的教程类视频数据集。该数据集在标注结构上采用分层的组织结构，涵盖了多种不同类型的教程类视频。该数据集的提出，给复杂场景下视频动作时序定位（temporal localization）等问题的研究提供丰富的数据资源，有望加快推动视频行为分析与理解等相关领域的研究。

团队介绍：美图公司社交产品事业群视觉算法组，是美图社交化的重要算法团队之一。随着「美和社交」战略的发布，美图秀秀从过去的纯图片处理软件转变为社区平台。视觉算法组通过人工智能/深度学习算法，理解图像和视频内容中的语义信息，为社区中推荐、搜索、反作弊和垃圾过滤等提供有力的技术支撑。帮助用户处理图片的同时，增加社交功能及软件活性。