首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >斯坦福公布3D街景数据集:2500万张图像,8个城市模型 | 下载

斯坦福公布3D街景数据集:2500万张图像,8个城市模型 | 下载

作者头像
量子位
发布2018-03-26 16:30:14
2.3K0
发布2018-03-26 16:30:14
举报
文章被收录于专栏:量子位量子位量子位
安妮 编译整理 量子位 出品 | 公众号 QbitAI

近日,斯坦福大学的研究人员公布了一个数据集,其中包含带有相机姿态的街景数据、8个城市的3D模型和拓展的元数据。这个数据集数据量庞大,街景数据集就包含2500万张图像和1.18亿个匹配的图像对。

数据集可用于学习6DOF相机姿态估计/视觉运动、图像匹配及各种三维估计。比如下面的这个例子:

为了得到这个数据集,斯坦福的研究人员开发了一个系统,整合来自谷歌街景图像和地理元数据的城市间地理信息系统,这其中并不需要人工标注。

城市3D模型

这个数据集涵盖了纽约、芝加哥、华盛顿、拉斯维加斯、佛罗伦萨、阿姆斯特丹、旧金山和巴黎市中心及周边地区。研究人员正逐步放出这些城市的3D模型、街景图片和元数据。模型是通过本身的地理标注和加工生成的生成的,下面是一些3D模型的示例快照。

8个城市中6个城市的覆盖范围如下:

数据集细节

数据集由2500万谷歌街景图像形成的1.18亿数据对组成。研究人员在上述城市的特定区域收集图像,根据城市的3D模型,对外立面密集采样和射线追踪,找到所有街景在无遮挡情况下相同的目标点的全景图。

研究人员掌握了每张图像街景相机的地理位置和目标点的位置。得益于谷歌街景的360度全景图,研究人员计算出镜头方向和俯仰角度,捕捉到一个640x640的全景图像,显示了中心各处的目标点。

如果两张图像显示同一个物理目标点,则配成一对。通常来说,每个目标点通常被2至7个对应的街景图像观察到。一个图像由一个640x640的jpg和命名相同的txt给出,其中包含元数据,例如相机和目标点的地理位置,距离目标的距离或相机角度。因为图像的文件名是街道视图位置和目标点编码的唯一ID,因此能够容易地识别出相应图像。最后,图像被压缩成多个zip文件。

相关论文

这个数据集的相关研究还得追溯到去年。

在2016年欧洲计算机视觉会议(ECCV 2016)上,斯坦福大学的研究人员发表了一篇名为《GENERIC 3D REPRESENTATION VIA POSE ESTIMATION AND MATCHING》论文。

在这篇论文中,研究人员通过解决一组基本的代理3D任务学习通用的3D表示,即以对象为中心的相机姿态估计和宽基线特征匹配。

经过一年多的探索,迄今为止,研究人员已经开发出独立的语义和3D表示,他们在项目网页上表示,研究整合它们的具体技术是一个值得研究的未来方向。

资料下载

GitHub数据集地址:

https://github.com/amir32002/3D_Street_View

斯坦福官方项目介绍:

http://3drepresentation.stanford.edu/

论文地址:

http://cvgl.stanford.edu/papers/zamir_eccv16.pdf

城市3D街景示例:

https://github.com/amir32002/3D_Street_View/tree/master/3D_cities_snapshots

祝你在3D世界玩得开心~

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-10-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 城市3D模型
  • 数据集细节
  • 相关论文
  • 资料下载
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档