前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >犹他州空气质量分析-从EPA的空气质量服务站API中抓取数据

犹他州空气质量分析-从EPA的空气质量服务站API中抓取数据

作者头像
AI研习社
发布2018-08-16 15:59:02
1.1K0
发布2018-08-16 15:59:02
举报
文章被收录于专栏:AI研习社AI研习社

雷锋网按:本文为AI研习社编译的技术博客,原标题 Analyzing Utah’s Air Quality – Connecting to the EPA’s AQS Data API,作者为 Randy Zwitch 。 翻译 | 京鹏 校对 | 余杭 整理 | 余杭

住在山谷里有点像生活在汤碗里,所有重物似乎都集中在碗底。 我想说犹他州的许多山谷被称为地垒和地堑,虽然我确信一些地质学家可能纠正我的错误。无论如何,四面环山意味着空气污染往往会收集并集中在山谷底。

从伍德兰丘陵看犹他州

作为一个终身的犹他人,我开始怀疑污染有多严重? 新闻记者似乎认为很糟糕。 政界人士却说这种情况从未如此好过。 有多糟糕呢? 它对房地产价值等因素有何影响? 有多少人受到影响?

为了帮助回答其中一些问题,我们与 MapD 的高级开发人员倡导者 Randy Zwitch 合作。 通过这种合作,我们希望可以更好地了解犹他州的空气质量及其影响,并且随着我们的学习,我们将与您分享我们的流程。

这种合作关系将产生一系列博客文章,记录我们的流程和学习所得。

分析犹他州空气质量

第一部分: 连接到 EPA 的 AQS 数据 API

第二部分:AQS 数据清理和转化

第三部分:使用 Shapefile 并在 MapD 中分配AQI站点

第四部分:在 MapD 中构建犹他州 AQI 仪表板

第五部分:最终分析:空气质量调查结果

让我们开始吧...

在 EPA.gov 上注册一个账号

我们需要从环保局获取我们的空气质量数据。数据免费提供,唯一的要求是创建一个账户,用于访问空气质量数据API。

要创建新帐户,请访问 https://aqs.epa.gov/signup 。您需要提供的唯一信息是电子邮件地址。 在使用您的电子邮件地址提交表单后,您将收到一个密码。

熟悉 API 参数和数据

收到 API 密码后,你就可以通过一个基于网页的查询表查询空气质量数据。

EPA 上基于网页的空气质量查询工具

使用这个基于网页的查询工具可以快速熟悉可用的数据类型,用于选择所需数据的参数以及整体数据输出格式。

确定分析所需的数据

通过API可以获得大量的空气质量数据,当您尝试使用基于网页的查询工具时,您可以开始了解哪种数据集最符合您的兴趣。 对于我们的分析,我们使用以下参数:

  • AQI污染物:该数据集包含用于测量空气质量指数的所有污染物,您可能更熟悉将其作为污染物指标,例如今天我们的空气污染是红色,请拼车出行。
  • 参数代码:我们没有提供参数代码,因为我们想要评估所有与AQI相关的污染物。 但是,如果您只对臭氧感兴趣,可以通过传入“臭氧”参数代码(44201 - 臭氧)来限制查询。
  • 州代码:在这个分析中,我们对犹他州(49 - 犹他州)感兴趣。
  • 郡代码:我们想要检索犹他州所有郡的空气质量数据,但是将此参数留空会导致 API 调用失败,因此我们需要单独请求每个郡的数据集。 下一步有更多这方面的内容。

从网页表格迁移到编程 API 调用

一旦您理解了数据并了解了如何构建查询,就可以从基于网页的表单转换为您选择的编程语言,以便对数据进行检索,挖掘,清理,传输等。 对于此示例,我们将使用Python。

有关如何与API交互的详细文档,请参阅:https://aqs.epa.gov/aqsweb/documents/ramltohtml.html

Python 脚本示例

项目路径结构

让我们分解这个例子中的操作:

第1步: 导入 Python 库

pandas:由于数据来自API,我们将使用 Pandas 将数据存储在 DataFrame 中。 稍后,我们将在操作数据时使用Pandas 的其他功能。

io:我们将使用 io 库来解码从API返回的数据。

requests:Requests 库将用于向 EPA.gov 服务器发出API请求。

第2步:创建 Pandas Dataframe

我们将创建一个空的 DataFrame 来存储 API 的响应。

第3步: 导入配置数据

如前所述,我们无法请求整个州的数据,因此我们需要一种有效的方法来按县逐个请求数据。 为了使代码更具可伸缩性,我们将使用 county.py 来检索要处理的郡列表。 虽然我们在这里只看犹他州,但代码可以很容易地扩展到处理任何州.

将用于构造 API 调用的基本配置信息包含在名为 config.py 的文件中,此文件作为基本配置文件运行,您要从主项目代码中抽象出来的任何细节都可以放到里面。

第4步: 遍历州的每个郡

现在我们需要遍历有兴趣分析的州的每个郡。

这就是我们定义循环的方式。 使用 county.py 中包含的县列表,我们将遍历州的县列表中的每个县名(如 config.py 中所定义)。 对我们来说,我们的 config.stateName = utah。

第5步: 构建API调用

在我们的郡循环中,我们将构建一个 API 调用来检索给定的州 - 郡组合的空气质量数据。

这里我们只是构建一个字符串,然后用于执行API调用。 API连接详细信息,如在config.py中定义的 apiURL 和 apiUser 。

构造 API 字符串的示例

基本查询参数,如 aqsClass 和 stateCode,也在 config.py 中定义。

countyCode 是循环处理的当前郡的代码。

如果您希望通过简单地在 config.py 文件中添加两个额外的行项目,您所请求的数据集的开始(bdate)和结束(edate)日期也可以编码到 config.py 中,如下所示:

我希望通过请求给定年份的数据来使脚本更容易运行,而无需每次都更新配置文件,因此我只需编写用户输入来获取所需的年份,如下所示:

第6步:发出 API 请求并处理结果

我们将使用 requests 库来发送 API 请求,使用我们在上一步中构建的字符串。

然后将响应存储在 Pandas 的 DataFrame aqs_df 中。

最后,我们将响应 DataFrame 合并到我们的主 DataFrame 中。 请记住,我们循环遍历给定州的每个县,因此我们需要处理结果,然后构建一个 DataFrame,其中包含州内每个县的所有数据。

第7步: 输出全部结果

最后,在我们为州中的每个县提出API请求并将每个API调用的响应组合到我们的主 DataFrame df之后,我们现在可以将结果输出到 csv 文件中。

虽然我们将在 Python 中进行额外的清理和工作,但我们希望将输出数据快速导入 MapD,以确保在我们完成 Python 中的任何其他工作之前格式是理想的(这些额外的计算和清理步骤将在未来的文章中呈现)。

本系列的下一篇文章将重点介绍如何从 API 清理数据,使用数据计算空气质量指数(AQI),并导出数据以导入MapD,我们将进一步分析数据并创建交互式数据可视化。

原文:

https://33sticks.com/analyzing-utahs-air-quality-connecting-epas-aqs-data-api/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-08-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI研习社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 在 EPA.gov 上注册一个账号
  • 熟悉 API 参数和数据
  • 确定分析所需的数据
  • 从网页表格迁移到编程 API 调用
相关产品与服务
数据保险箱
数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档