如何从亚马逊下载aws-SpaceNet卫星遥感图片数据集

前言

亚马逊SpaceNet数据集是作用于机器学习人工智能方面比赛或者研究用的商用数据集。我们在利用深度学习进行卫星图像分割时,比如利用FCN、Deeplab算法进行图像分割时,这些数据集就可以利用起来,而且省去了标记的麻烦。本篇文章简单介绍该数据集的内容并说明如何从awsCLi平台上下载这些数据集。

数据集介绍

总览

一共有5个地方的卫星数据,每个地点数据又分为训练集和测试集。

  1. Area of Interest 1 (AOI 1) – Location: Rio de Janeiro. 50cm imagery collected from DigitalGlobe’s WorldView-2 satellite. The dataset includes building footprints and 8-band multispectral data.
  2. Area of Interest 2 (AOI 2) – Location: Vegas. 30cm imagery collected from DigitalGlobe’s WorldView-3 satellite. The dataset includes building footprints and 8-band multispectral data.
  3. Area of Interest 3 (AOI 3) – Location: Paris. 30cm imagery collected from DigitalGlobe’s WorldView-3 satellite. The dataset includes building footprints and 8-band multispectral data.
  4. Area of Interest 4 (AOI 4) – Location: Shanghai. 30cm imagery collected from DigitalGlobe’s WorldView-3 satellite. The dataset includes building footprints and 8-band multispectral data.
  5. Area of Interest 5 (AOI 5) – Location: Khartoum. 30cm imagery collected from DigitalGlobe’s WorldView-3 satellite. The dataset includes building footprints and 8-band multispectral data.

AOI

Area of Raster (Sq. Km)

Building Labels (Polygons)

Road Labels (LineString)

AOI_1_Rio

2,544

382,534

N/A

AOI_2_Vegas

216

151,367

3685 km

AOI_3_Paris

1,030

23,816

425 km

AOI_4_Shanghai

1,000

92,015

3537 km

AOI_5_Khartoum

765

35,503

1030 km

具体数据

我们以AOI_4_Shanghai数据集为例,打开压缩包可以看到:

分为5个文件夹和一个汇总文件夹,其中标记信息在geojson文件夹中。

数据集下载

需要注意的是,从亚马逊平台下载数据集需要使用命令行方式进行下载,并且你需要有一个亚马逊云平台账号和一个生成的拥有下载权限的密匙。

亚马逊云平台

进入https://aws.amazon.com/cn/这个官网。

注册一个账号,需要注意,下载数据集不需要翻墙,但是在下载之前的一些列操作中部分操作是需要翻墙的,请确保有一个稳定的翻墙软件以便完成之后的操作。

创建下载密匙

通过之前的官网注册完账号后,打开用户界面(oldpan是我的用户名)选择Security Credentials-安全认证。

然后选择Users-用户,选择Add user-添加用户。

User name-用户名字随便起,选中Access type中的两项(和下图相同即可)

创建好之后就会看到你创建这个用户的Access Key ID 和 Secret access key以及 password,这些是我们之后下载数据集需要输入的信息(密匙可以直接查看或者通过csv下载下来保存起来)。

但是光有用户是不够的,因为我们创建的这个用户并没有下载的权限,这里我们需要创建一个groups组,类似于linux的用户组,赋予这个用户下载数据集的权限。

从管理面板找到IAM这个栏目并点开。

然后创建group,group名字随便起,这里我是spacenet,然后在group政策里policy选择AmazonS3ReadOnlyAccess这个政策,创建即可。

创建好后,将我们之前创建的用户添加到这个组里。

添加到组里我们刚才创建的用户oldpan就有下载数据集的权利了。

通过命令行下载数据集

命令行不同平台的,这里介绍在linux下python3.6.1版本的下载方式。https://aws.amazon.com/cn/cli/

进入命令行,这里默认python已经安装好了。

pip install awscli

安装命令行平台。

aws configfure

配置账号信息,输入之前额密匙ID和key,后面两个直接回车跳过去:

  • AWS Access Key ID [None]: XXXXXXXXXXXXXXXX
  • AWS Secret Access Key [None]: XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
  • Default region name [None]:
  • Default output format [None]:

配置好了就可以下载了。

下载命令可以点击上方介绍数据集名称链接进入具体页面获取,这里举个例子:

aws s3api get-object --bucket spacenet-dataset --key SpaceNet_Roads_Competition/AOI_4_Shanghai_Roads_Train.tar.gz --request-payer requester AOI_4_Shanghai_Roads_Train.tar.gz

需要注意的地方

数据集下载速度不需要翻墙也可以达到满速,但是容易受到干扰造成time out从而导致下载失败,最好找个不错的网络环境进行下载。

文章来源于Oldpan博客

欢迎关注Oldpan博客公众号,持续酝酿深度学习质量文:

Oldpan博客

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Jerry的SAP技术分享

Hybris UI的Route(路由)实现

登录Hybris前台,在product catalog里选择Digital camera:

3613
来自专栏SDNLAB

NameSpace:OpenStack的网络实现解析

编者按:众所周知在Linux系统中PID、IPC、Network等都是全局性的资源,任何的修改和删减都会对整个系统造成影响,这也是为什么KVM之类的虚拟化技术需...

40310
来自专栏大魏分享(微信公众号:david-share)

非网络专业人士看NSX--浅谈NSX架构和ARP压制

一直以来,网络方面都不是笔者的强项,来了VMware以后,由于工作的需要,经常和客户一起交流NSX,有一些心得,自己也查了一些资料,更请教过我司的网络方面的专...

3999
来自专栏腾讯Bugly的专栏

全系统栈崩溃是什么鬼?手机管家高级工程师 jaylin,教你如何抓鬼!

Jaylin 腾讯手机管家团队,高级研发工程师,5年以上Android开发经验,擅长终端架构设计、性能和稳定性优化。 前言 Android的严重碎片化,通常会给...

3604
来自专栏FreeBuf

一个利用CVE-2017-11292的APT样本技术分析(一)

1. 引言 最近沸沸扬扬的黑色绿洲(BlackOasis) APT 利用了Adobe Flash 的漏洞CVE-2017-11292。最近,我们发现除了黑色绿洲...

23910
来自专栏数据和云

关于 Oracle 存储双活配置和实战

作者简介 ? 任小闯 云和恩墨交付技术顾问,6年以上数据库开发维护工作经历,Oracle 10g OCM,Oracle 11g OCP,曾就职于某互联网行业任数...

4218
来自专栏大数据架构师专家

运维技能武器库

Bootstrapping: Kickstart、Cobbler、rpmbuild/xen、kvm、lxc、Openstack、 Cloudstack、Open...

1822
来自专栏跨界架构师

C#和NewSQL更配 —— TiDB入门(可能是C#下的全网首发)

  在上一篇尝试CockroachDB(传送门在此:http://www.cnblogs.com/Zachary-Fan/p/cockroachdb_net_c...

1231
来自专栏Python爬虫与算法进阶

淘宝sign加密算法

淘宝对于h5的访问采用了和客户端不同的方式,由于在h5的js代码中保存appsercret具有较高的风险,mtop采用了随机分配令牌的方式,为每个访问端分配一个...

5K7
来自专栏Jerry的SAP技术分享

SAP产品的Field Extensibility

SAP开发人员的工作职责,除了实现软件的功能性需求外,还会花费相当的精力实现一些非功能性需求,来满足所谓的SAP Product Standard(产品标准)。...

1241

扫码关注云+社区

领取腾讯云代金券