专栏首页有三AI【数据集】自动驾驶都有什么测试基准?

【数据集】自动驾驶都有什么测试基准?

自动驾驶是现在非常活跃的领域,几乎所有的车厂,大型互联网公司都参与其中,其中计算机视觉技术的应用也非常广泛,这篇文章将对自动驾驶中的重要数据集做简单介绍。

01KITTI数据集

数据集地址:http://www.cvlibs.net/datasets/kitti/index.php

发布于2009年,KITTI数据集是由德国卡尔斯鲁厄理工学院和芝加哥丰田技术学院联合创办的项目。

该数据集中的数据主要是在德国的卡尔斯鲁厄周边的农村和高速公路拍摄而成,每张图象最多显示15辆汽车和30名行人,各自有各种程度的遮挡。数据集是在装有激光雷达的车辆上以10Hz的频率采样进行采集,最终包含389对立体图像和光流图,39.2km视觉测距序列,200k以上的3D标注物体的图像,涵盖了市区、乡村和高速公路等场景,包括图片、视频、雷达数据等数据类型。

数据集的语义标签包括:

‘Road’,‘City’,‘Person’,‘Campus’和‘Residential’五大类。

KITTY数据集可以用于评测各种任务,包括立体图像(stereo),光流(optical flow),视觉测距(visual odometry),深度估计(depth prediction),3D物体检测(object detection),3D跟踪(tracking),路面以及车道线检测等。

参考论文链接:http://www.webmail.cvlibs.net/publications/Geiger2012CVPR.pdf

02Oxford RobotCar数据集

数据集地址:https://www.cityscapes-dataset.com/

发布于2014年,是在牛津大学校园内路测,总长度1010.64公里,历时一年半所采集的数据集。在各种天气条件下进行收集,包括大雨,夜间,阳光直射和积雪,也包含施工路段行驶场景,具有非常复杂的天气场景,尤其适合评测计算机视觉算法。

下图是数据采集时所走的路线图。

下图是在不同天气、光线情况和交通状况下的数据集中的示例图。

参考论文链接:http://robotcar-dataset.robots.ox.ac.uk/images/robotcar_ijrr.pdf

03Cityscape数据集

数据集地址:

https://www.cityscapes-dataset.com/Cityscapes

发布于2016年,这是由奔驰采集的面向城市道路街景语义理解的数据集。Cityscapes包含50个城市在春夏秋三个季节不同时间段不同场景、背景的街景图,提供5000张精细标注的图像、20000张粗略标注的图像、30类标注物体。用PASCAL VOC标准的 intersection-over-union(IoU)得分来对算法性能进行评价。

参考论文链接: https://arxiv.org/pdf/1604.01685.pdf

04Common.ai数据集

数据集地址:https://github.com/commaai/research

发布于2016年,这是一段高速公路的视频数据集,包括10个可变大小的视频片段,以20Hz的频率记录。数据除了图像之外,还记录了一些测量值,如汽车速度,加速度,转向角,GPS坐标,陀螺仪角度。

参考论文链接:https://arxiv.org/pdf/1608.01230.pdf

05Udacity数据集

数据集地址:https://github.com/udacity/self-driving-car/tree/master/datasets

发布于2016年,Udacity是Google开设的线上教育平台,其中有自动驾驶相关线上培训,它也为其自动驾驶算法比赛专门准备了数据集。这个数据集包括在加利福尼亚和邻近城市在白天条件下行驶拍摄的图像,为1920×1200分辨率的9423帧图像,包含超过65000个标签。数据集是由CuldAd使用机器学习算法和研究员共同进行标注。

除了车辆拍摄的图像以外,还包括车辆本身的属性和参数信息,例如经纬度、制动器、油门、转向度、转速。

06BDD100K数据集

数据集地址:http://bdd-data.berkeley.edu/#video

发布于2018年,这是目前来说最大规模也是最多样化的驾驶视频数据集,这些数据具有四个主要特征:大规模,多样化,在真实的街道采集,并带有时间信息。

该数据集有累计超过1100小时驾驶体验的100000个高清视频序列。每个视频大约40秒长、分辨率为720p、帧率为30fps,还附有手机记录的GPS/IMU信息,以显示大概的驾驶轨迹。数据库涵盖了不同的天气条件,包括晴天、阴天和雨天,以及白天和晚上的不同时间。

BAIR研究者在每个视频的第10秒采样关键帧,并为这些关键帧提供注释。它们被标记为几个级别:图像标记、道路对象边界框、可驾驶区域、车道标记线和全帧实例分割,具体来说如下。

边界框标注,为经常出现在道路上的所有10万个关键帧上的对象标上对象边界框,以了解对象的分布及其位置。另外它包含比同类数据集更多的行人实例。

车道标注,车道线是人类驾驶员重要的道路指示,当GPS或地图没有精准地全球覆盖时,它们也是自动驾驶系统驾驶方向和定位的关键线索。车道的标记分为两种类型,垂直车道标记和平行车道标记。垂直车道标记表示沿着车道行驶方向的标记,平行车道标记表示车道上的车辆需要停车的标志。另外还提供了若干标记的属性,例如实线与虚线以及双层与单层。

下图是数据集中的部分图像。

下图展示了数据收集在一个城市分布的密集程度。

参考论文链接:http://openaccess.thecvf.com/content_cvpr_2017/papers/Xu_End-To-End_Learning_of_CVPR_2017_paper.pdf

07CVPR Workshop

这是CVPR近几年举办的自动驾驶的workshop,由于深度学习的兴起,计算机视觉等技术被用于自动驾驶的目标检测,语义分割等领域,因此CVPR也开设了若干相关的workshop。具体的单元包括可行驶区域检测,路面的模板检测,跨域的语义分割,以及移动目标的实例级别的分割。

08GTA数据集

数据集地址:http://www.rockstargames.com/grandtheftauto/

英特尔的GTA的AI和这个虚拟世界给予了训练自动驾驶的可行性,一款赛车游戏《Grand Theft Auto 5》也被用来训练自动驾驶的模型,而且是一个相对廉价且适合初级人工智能探索的自动驾驶试验场。GTA是以语义分割为主,基于虚拟的游戏环境,但接近真实世界,其中几乎涵盖了各种各样的道路状况,包括山区、郊区和城市。还有各种各样的车辆,比如警车、救护车、出租车、货车等车型。

09TORCS数据集

数据集地址: http://torcs.sourceforge.net/

TORCS是一种高度便携的多平台赛车模拟,被用作普通的赛车游戏,可以作为AI赛车游戏和研究平台。

10nuScenes数据集

数据集地址:

https://d3u7q4379vrm7e.cloudfront.net/download

发布于2018年,是由NuTonomy编辑的,并将于2019年推出最全的nuScenes数据集。采集了1000多个场景,其中包含140万幅图像、40万次激光雷达扫描(判断物体之间距离)和110万个三维边界框(用RGB相机、雷达和激光雷达组合检测的物体)。此次数据的搜集使用了6个摄像头、1个激光雷达、 5个毫米波雷达、GPS及惯导系统,包括了对于自动驾驶系统来说非常具有挑战性的复杂道路、天气条件等情况。

11百度ApolloScape数据集

数据集地址:http://apolloscape.auto/scene.html

发布于2018年,是由百度Apollo提供的数据集。数据集中提供的图像分辨率为3384×2710,定义了共26个不同语义项的数据实例(例如汽车、自行车、行人、建筑、路灯等),而且将进一步涵盖更复杂的环境、天气和交通状况等。预计2018年数据集将完整发布包含20万帧的图像数据,包含对应的像素级标注和姿态信息。整个数据集将包含逐像素标注的高分辨率图像序列,以及场景语义分割级别的稠密3D Point的RGB视频。

本文分享自微信公众号 - 有三AI(yanyousan_ai),作者:Nora

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-11-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【技术综述】深度学习中的数据增强方法都有哪些?

    数据增强也叫数据扩增,意思是在不实质性的增加数据的情况下,让有限的数据产生等价于更多数据的价值。

    用户1508658
  • 【数据】深度学习从“数据集”开始

    数据集链接:http://yann.lecun.com/exdb/mnist/,发布于1998年。

    用户1508658
  • 【技术综述】一文道尽“人脸数据集”

    这一次我将从人脸检测,关键点检测,人脸识别,人脸表情,人脸年龄,人脸姿态等几个方向整理出人脸领域有用的数据集清单,不全也有9成全吧。

    用户1508658
  • 十张图看懂未来的大数据世界

    摘要 随着互联网云时代的来临,大数据与云计算就像一个硬币的正反两面,势必会影响到社会生活的方方面面,改变我们现有的规则和秩序。伴随着大数据与云计算产业的不断发展...

    灯塔大数据
  • 【24页ppt干货】2014中国大数据整体市场专题研究报告

    报告核心:大数据时代的变革体现在数据对于决策、流程和产品的新驱动方式;云计算、移动互联网、社交网络和物联网等推动了大数据技术的逐步成熟。 大数据生态系统:由底层...

    小莹莹
  • 数据猿专访 | 北大新媒体研究院副院长刘德寰:大数据将在公共卫生领域迎来爆发式发展

    <数据猿导读> 刘德寰教授在接受数据猿采访时说到,公共卫生跟人的生命密切关联,未来,大数据一定会在公共卫生领域有巨大的应用前景跟爆发式发展;但同时也很担忧,现在...

    数据猿
  • 投稿 | 现阶段我为什么不看好纯粹的数据交易?

    原力大数据创始人江颖表示,尽管大数据交易平台建设正值爆发期,数据交易号称的市场规模也在不断壮大,同时也有国家大力的政策支持。但是短期内,我仍然不看好数据交易,因...

    数据猿
  • 《大数据产业”十三五“规划(2016-2020)》正式发布!

    导读:近日,工业和信息化部正式发布了《大数据产业发展规划(2016-2020年)》(以下简称《规划》),明确了大数据产业发展在技术产品、应用能力、生态体系建设等...

    钱塘数据
  • 公司利用大数据的三大模式

    导读:根据所提供价值的不同来源,分别出现了三种大数据公司。这三种来源是指:数据本身、 技能与思维。出现的三种大数据公司分别是基于数据本身的公司、基于技能的公司、...

    钱塘数据
  • 盛世的阴影:大数据时代的挑战渐渐浮出水面

    数据猿导读 6月29日,由数据猿主办的金融大数据峰会在上海盛大召开,现场汇集了众多来自大数据领域内执牛耳的重量级嘉宾。大数据被誉为第四次工业革命的能源,整个产业...

    数据猿

扫码关注云+社区

领取腾讯云代金券