全文链接:https://tecdat.cn/?p=42455
分析师:Yapeng Zhao
在数字化防灾减灾的时代背景下,地震数据的深度解析成为公共安全领域的关键议题。作为数据科学工作者,我们始终致力于通过技术整合提升灾害数据的应用价值(点击文末“阅读原文”获取完整智能体、代码、数据、文档)。
本文改编自为国内某应急管理机构客户定制的数据分析项目,旨在构建一套集数据清洗、分布式计算、地理编码与交互式可视化于一体的地震分析体系。项目以1965-2016年全球重大地震数据集(Global Major Earthquake Dataset)为研究对象,综合运用PySpark分布式计算框架、高德地图逆地理编码服务及Plotly动态图表工具,系统性挖掘地震活动的时空规律与能量特征。
当前,地震数据分析面临多源异构数据处理低效、地理空间信息缺失、动态特征展示不足等挑战。
本研究通过"技术融合+场景创新"双轮驱动,首次实现高德地图API与Spark框架的深度协同,解决了地震事件的地理信息精准匹配难题;并开发交互式时空可视化系统,突破传统静态图表的分析局限。项目成果已在区域灾害监测平台中试点应用,为地震风险评估与应急决策提供了全新的技术路径。
专题项目代码数据文件已分享在交流社群,阅读原文进群和600+行业人士共同交流和成长。
本研究构建的地震数据分析系统采用分层架构设计,涵盖四大核心模块:
数据预处理层:完成原始数据清洗、时间格式标准化及地理地址解析
数据存储层:基于HDFS实现分布式存储,保障海量数据的可靠性与可扩展性
数据分析层:利用PySpark实现时空分布统计、震级深度相关性分析等计算任务
数据可视化层:通过Plotly生成动态地图、交互式图表及词云图等多维展示 系统总体架构如图1所示:
数据流动遵循"采集-清洗-分析-展示"的闭环逻辑。原始数据经格式转换与地理编码后存入分布式文件系统,再由Spark集群执行并行计算,最终通过可视化组件呈现分析结果。数据流图如图2所示:
研究数据包含23412条全球重大地震记录,初始字段为日期、经纬度、震级等7项。由于存在大量无效记录,首先通过Excel筛选关键属性,再利用Jupyter Notebook进行深度清洗:
# 读取原始数据并预览前10条记录(AI提示:加载CSV文件并查看数据结构)
import pandas as pd
quake_raw = pd.read_csv("/quake.csv")
quake_raw.head(10)
清洗后的数据预览如图3所示:
时间字段处理通过Pandas的日期转换函数实现,将非标准格式统一为"YYYY-MM-DD"格式,并标记异常值:
# 标准化日期格式并处理异常值(AI提示:转换日期格式并处理无效数据)
quake_raw['Date'] = pd.to_datetime(quake_raw['Date'], errors='coerce')
quake_raw['Time'] = pd.to_datetime(quake_raw['Time'], errors='coerce')
地理信息解析采用高德地图逆地理编码API,针对中国境内经纬度返回省份或海域名称。
API调用代码及返回结果如图4所示:
# 定义中国境内地址解析函数(AI提示:调用地图API获取省级行政区信息)
import requests
import json
def parse_location(lon, lat):
api_endpoint = "http://restapi.amap.com/v3/geocode/regeo?output=json&key=你的API_KEY&location={},{}"
req = requests.get(api_endpoint.format(lon, lat))
res_json = json.loads(req.text)
if res_json['regeocode']['addressComponent']['country'] == '中国':
return res_json['regeocode']['addressComponent']['province']
else:
return ''
通过PySpark读取清洗后的数据,针对日期字段包含的时分秒信息,采用字符串拆分提取纯日期部分:
# 初始化Spark会话并加载清洗数据(AI提示:创建SparkSession并读取CSV文件)
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("QuakeAnalysis").getOrCreate()
quake_clean = spark.read.csv("input/ned.csv", header=True, inferSchema=True)
# 拆分日期字段为年/月/日(AI提示:使用字符串函数解析日期组件)
from pyspark.sql.functions import split
quake_date = quake_clean.withColumn("Year", split(quake_clean["Date"], "-")[0]) \
.withColumn("Month", split(quake_clean["Date"], "-")[1]) \
.withColumn("Day", split(quake_clean["Date"], "-")[2])
按年份统计地震次数时发现,1990年后数据量显著增加,反映地震监测技术的进步。年度分布柱状图如图5所示:
# 按年份分组统计地震频次(AI提示:使用groupBy聚合函数计算年频次)
yearly_stats = quake_date.groupBy("Year").count().orderBy("Year")
yearly_pd = yearly_stats.toPandas() # 转换为Pandas格式便于可视化
月度与日期分布分析显示,各月地震次数波动较小,但31日因部分月份不存在而频次较低。月度柱状图与日期分布如图6、图7所示:
中国境内地震呈现"西部密集、东部稀疏"的格局,西藏、四川等地因地处板块交界带成为高发区域。通过PySpark筛选中国数据并统计省份分布,结果如图8、图9所示:
# 筛选中国境内数据并按省份统计(AI提示:使用filter过滤条件并分组聚合)
china_quake = quake_date.filter(quake_date["Area"].isNotNull())
province_stats = china_quake.groupBy("Area").count().orderBy("count", ascending=False)
词云图进一步显示东海、南海等海域的高频特征,如图10所示:
利用Plotly构建全球地震分布动态地图,以震级为颜色梯度、指数化震级值为标记大小,并通过年份维度生成动画。静态分布如图11所示,动态效果可直观呈现环太平洋地震带的持续活跃性:
# 绘制全球地震时空分布动态图(AI提示:使用scatter_geo生成地理散点图)
import plotly.express as px
import numpy as np
fig_geo = px.scatter_geo(quake_pd,
size=np.exp(quake_pd["Magnitude"])/100,
animation_frame=quake_pd["Year"],
title="全球重大地震时空演变"
)
fig_geo.show()
震级前500的地震多分布于沿海板块边界,如图12所示;震源深度前500的事件则集中在南亚与南美洲,反映深海俯冲带的地质特征,如图13所示:
全球地震中99.2%为天然地震,人为诱发事件(核爆、爆炸)占比不足1%,如图14所示;中国境内地震类型分布与之类似,如图15所示。震级与震源深度的散点分析表明,8级以上强震多发生在浅源区域(<50公里),如图16所示:
本研究的核心创新体现在三方面:
本文通过整合PySpark、高德地图API与Plotly等技术,构建了一套完整的地震数据分析与可视化体系。对50年全球数据的分析揭示:地震活动具有显著的时空聚集性,环太平洋与欧亚地震带为高频区域;中国西部因板块构造活动成为地震热点;震级与震源深度无显著线性相关,但强震多伴随浅源特征。 未来研究将聚焦以下方向:
在此对 Yapeng Zhao 对本文所作的贡献表示诚挚感谢,他在黑龙江大学完成了数据科学与大数据技术专业的学习,专注大数据领域。擅长 Python、大数据处理、数据可视化、分布式计算。Yapeng Zhao 是一名具备专业素养的数据分析师,在数据处理与分析领域积累了扎实的技术能力,其在大数据框架应用、多维数据可视化及分布式计算优化方面的实践经验,为本研究的数据处理效率提升与分析模型构建提供了重要技术支持。