百度“BROAD” AI数据集

背景介绍

当前AI领域内, 模型和算法获得渠道比较多, 根据论文或者开源网站, 进行模型开发相对简单,但是用于训练模型的大量数据则较难获得, 尤其是人工标注结果。在各类AI研发项目中, 良好的标注数据可以帮助开发者/研究机构加快其模型/算法设计和训练,优质的机器学习质量离不开其背后的数据集,而一个优质数据集的开放,将为更多技术提供学习养分。作为全球最大的中文搜索引擎,百度拥有海量数据,包括全网万亿网页、数十亿级搜索数据、百亿级视频、音频、图像、定位等数据,数据真实、规模庞大、种类丰富。百度日趋成熟的AI生态体系,也为系统开发图像、文字等AI领域数据,提供了有力的生态支持。

11月16日,在2017百度世界大会AI技术与平台论坛上,百度3D视觉首席科学家杨睿刚宣布即日起推出目前全球规模最大的“BROAD”百度AI公开数据集计划(Baidu Research Open-Access Dataset),包括室外场景理解数据集、视频精彩片段数据集、阅读理解数据集3个数据集(http://www.dlnel.org)。开源数据集的目标,就是希望可以将百度多年积累的优质、庞大数据开放出来,为认知层、感知层的AI技术提供学习驱动。本次百度主动将三个方向的标注良好的数据集向开发者/科研工作者开放, 对于视觉认知/无人驾驶/机器阅读领域的研究者提升模型训练水平, 产出高质量科研成果等,都非常有帮助。

数据及任务介绍

“Broad”百度AI公开数据集计划率先开放的三大数据集各有所长。这些数据是百度AI生态的真实数据,有些是首次发布,有些是截止目前国际上发布的最大的数据集。

1、室外场景理解数据集

主要来源于百度自动驾驶事业部。该数据集试图将感知能力从物体级感知升级到像素级感知,进而了解图片中所有像素的属性和来源,实现更精准、安全的自动驾驶;同时,它还拥有世界第一个语义标签的室外3D视频。该数据集包含约1.9万张图片。包含正常行驶, 突发事件等多种场景图片。

任务:希望开发者/研究者, 能设计一种算法, 可以自动识别场景中的不同物体, 例如天空, 路面, 车辆, 行人等等(共计20类左右)。数据详细说明请见

https://rc.mbd.baidu.com/5zk6ama

2、视频精彩片段数据集

主要来源于爱奇艺精彩视频片段。视频类型为综艺节目,目前包含超过1500个视频节目的文件序列和回放链接。其中精彩片段的起止时间已经人工标注,视频总时长约1200小时,还从中手动收取出18000个精彩小视频,同时能够提供视频帧的图片特征序列,是面向真实需求的最大开放精彩片段标注数据集。

任务:希望开发者/研究者, 能设计一种算法, 可以自动识别视频中的精彩片段部分。数据详细说明请见https://rc.mbd.baidu.com/jav74oa

3、机器阅读理解数据集

首次亮相的百度阅读理解数据集,是面向真实需求的最大中文开放领域阅读理解数据集。该数据集主要来自百度搜索和问答社区的真实问题,以及搜索网页库和UGC数据的真实文本;在数据量上,该数据集包含超过20万的问题, 100万的佐证文件及42万人工生成的回答,是中文领域规模最大的数据集;在标注能力上,覆盖类型、实体、观点等多层次标注,弥补了现有主流数据集,对阅读理解所需的摘要生成、观点聚合等技术覆盖不足的问题。该数据集下含四个任务,分别是主任务(Main),描述型任务( Description),实体型任务( Entity), 是非观点型任务(Yes_No)。

任务:希望开发者/研究者, 能设计一种算法,可以结合佐证文件,对数据集中的问题进行自动回答。数据详细说明请见

https://rc.mbd.baidu.com/q5s5sts

平台功能介绍

2. 入口:http://ai.baidu.com/broad

http://www.dlnel.org/->开放数据集

也可以从AI开放平台首页http://ai.baidu.com进入。

3. 功能:开发者可以分别下载视觉认知/场景识别/机器阅读理解等多种数据集, 于线下训练其自有模型。

并上传模型,平台将基于数据集对所传模型进行评测打分。

评测结果可在排行榜的不同数据类别中进行显示。

你将拥有更多

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171213B0YFAN00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券