首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【分享】高速铁路网络数据集:

【分享】高速铁路网络数据集:

作者头像
陈南GISer
发布2022-09-27 14:23:07
2K1
发布2022-09-27 14:23:07
举报
文章被收录于专栏:点点GIS点点GIS

今天给大家推荐一个数据集:2019年10月8日至2020年1月27日不同方向的列车运行数据,727个车站、3399列列车和2751713条运行数据的高速铁路网络数据集。

为支持大规模复杂网络、复杂动态系统和智能交通的研究,研究者开发了一个高速铁路网络数据集,包含2019年10月8日至2020年1月27日不同方向的列车运行数据,列车延误火车站数据、枢纽站数据、相邻车站里程数据。在数据集中,天气、温度、风力和重大节假日被认为是影响列车运行的因素。

数据下载网址:

https://figshare.com/articles/dataset/A_high-speed_railway_network_dataset_from_train_operation_records_and_weather_data/15087882/4

一、获取方法流程图

为了获得高铁网络数据集,我们首先收集列车运行记录、里程信息和火车站的地理位置。根据地理位置收集历史天气相关数据,获取2019年10月8日至2020年1月27日的重大节假日日期。其次,我们计算一班列车的到站和发车延误时间,统计一站不同方向每小时延误的列车数量。第三,计算相邻车站的里程。四是统计中国前十大枢纽列车运行情况。五、根据地理位置和时间戳,列车方向、车站类型、天气、节假日等复杂因素扩展到高铁运行数据和火车站延误数据。最后,我们检查并验证我们的数据集。

二、数据获取过程

源数据收集:高速列车运行记录由历史时刻表和实际运行信息组成。我们使用python28的网页抓取方法从中国铁路客票系统(https://www.12306.cn)获取了2019年10月8日至2020年1月27日共16周的3399列列车的2751713条运行数据。一列列车的运行记录包括停靠站、预定出发和到达时间、实际出发和到达时间等。图 2显示了中国高铁网络,包括3399列列车的727个车站和实际运营线路。

高速列车里程数据采集:根据列车运行记录,我们使用网络抓取的方法从http://www.huchepiao.com获取3399列列车的运行里程。由于铁路线路不断调整,我们获得了更新至 2020 年的数据。数据中包含的属性包括列车号、站序、站名以及从一站到始发站的里程。我们通过手动搜索来补充缺失的里程数据。

火车站集合地点:根据 3,399 条高铁运营线路,删除重复项后得到 727 个站点。这些电台的名称是独一无二的。然后,我们得到它们的地理位置,包括省、市和区。我们通过手动搜索来补充缺失的位置信息。
枢纽站集合:在铁路网中,多条干线的连接处一般称为铁路枢纽,由若干站、站间连接线、入站线和信号线组成。在数据集中,我们考虑了中国十个具有代表性的路口。

三、高铁网络数据集的复杂性

我们高铁网络数据集的复杂性表现在:(1)列车运行的时空分布特征;(2)高速铁路网动态;(3)高铁网动态社区;(4)列车运行外部影响因素的多样性。

时空分布特征:以车站总延误数为例,绘制车站延误时空分布,如图所示。
动态特性:以 2020 年 1 月 16 日为例,我们绘制了图 4中的动态运行网络。蓝线代表正常运行的铁路线,红线代表延迟运行的铁路线。从 00:00 到 06:00 运行的列车很少。然而,在其他时间,火车几乎穿过网络上的所有车站。与其他时间相比,09:00至21:00的列车延误更为严重,说明列车延误网络也是动态的。
动态社区特征:图中不同的颜色代表不同的社区。由于00:00至06:00运行的列车很少,大多数车站都没有列车经过,所以它们被划分为同一个社区。根据车站的位置、列车运行线路的变化、延误状态的变化等,列车运行网络的社区结构也在不断变化。

四、数据记录说明

(1)该数据集30位于 figshare 中,可作为 4 个单独的 csv 文件使用,如下所述:

(2)high-speed trains operation data.csv:2019年10月8日至2020年1月27日3399列高铁运行数据,主要节假日及天气相关影响因素。

(3)火车站延误数据.csv:2019年10月8日[00:00, 01:00), 2020年1月27日[23:00, 24:00), 727个火车站延误的列车数量, 主要节假日和天气相关的影响因素。

(4)相邻车站里程数据.csv:3399条列车运营线路相邻车站里程数据。

junction station data.csv:2019年10月8日至2020年1月27日中国前十个枢纽站数据,包括不同方向通过一个车站的列车总数和晚点列车总数。

上面下载网址粘贴到浏览器地址栏,自行下载

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-07-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 点点GIS 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 源数据收集:高速列车运行记录由历史时刻表和实际运行信息组成。我们使用python28的网页抓取方法从中国铁路客票系统(https://www.12306.cn)获取了2019年10月8日至2020年1月27日共16周的3399列列车的2751713条运行数据。一列列车的运行记录包括停靠站、预定出发和到达时间、实际出发和到达时间等。图 2显示了中国高铁网络,包括3399列列车的727个车站和实际运营线路。
    • 火车站集合地点:根据 3,399 条高铁运营线路,删除重复项后得到 727 个站点。这些电台的名称是独一无二的。然后,我们得到它们的地理位置,包括省、市和区。我们通过手动搜索来补充缺失的位置信息。
      • 枢纽站集合:在铁路网中,多条干线的连接处一般称为铁路枢纽,由若干站、站间连接线、入站线和信号线组成。在数据集中,我们考虑了中国十个具有代表性的路口。
        • 时空分布特征:以车站总延误数为例,绘制车站延误时空分布,如图所示。
          • 动态特性:以 2020 年 1 月 16 日为例,我们绘制了图 4中的动态运行网络。蓝线代表正常运行的铁路线,红线代表延迟运行的铁路线。从 00:00 到 06:00 运行的列车很少。然而,在其他时间,火车几乎穿过网络上的所有车站。与其他时间相比,09:00至21:00的列车延误更为严重,说明列车延误网络也是动态的。
            • 动态社区特征:图中不同的颜色代表不同的社区。由于00:00至06:00运行的列车很少,大多数车站都没有列车经过,所以它们被划分为同一个社区。根据车站的位置、列车运行线路的变化、延误状态的变化等,列车运行网络的社区结构也在不断变化。
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档