中国行政单位树形图的可视化实战！

超哥的杂货铺

发布于 2021-03-16 14:46:26

2K0

我国幅员辽阔，共有34个省级行政单位，包括23个省、5个自治区、4个直辖市、2个特别行政区。除去中国香港澳门2个特别行政区和台湾省特殊外，大陆地区共有31个省级区划单位。每个省级单位又可以细分为市级，县级，乡镇和村。

行政区划的关系可以用如下的一个树形图表示：根节点(第〇层)为中国(大陆)，树的第一层为31个省级单位节点，第二层为省所辖的地级市，第三层(叶子节点)为市所辖区/县，每一个非叶子节点都可以向下展开到叶子节点。每一个叶节点也可以向上追溯至其所属父节点。动态演示过程可点击下方视频查看。

点击上方视频号链接查看动态效果

本篇文章主要来学习从爬虫获取数据到最终实现可视化的过程。

数据来源

本文所用的行政单位划分来自国家统计局2020年的最新标准，其最初目的是为保证第七次全国人口普查的顺利进行。如下图所示，参见文末链接。

网页分析

我们曾经在「实例讲解利用python进行数据获取与数据预处理」一文中提到过爬虫的流程为：请求，解析，存储。示意图如下所示。可在点击链接直接查看或后台回复”北京公交“获取。

省级数据解析

本次使用的网页是比较简单的静态网页，在网页上右键选择“显示网页源代码”就可以看到下图所示内容。可以发现我们的数据是嵌套在一个table(表格)标签中，见下图第30行。各省市名称和相应的链接是在第40行的tr标签中，并且可以看到有比较明显的样式标记

class='provincetr'。所以可以使用xpath进行数据解析，定位到tr标签下每一个td标签，获取相应a标签的href属性和文本，就得到了每个省的链接。

市级和县级数据解析

上一部分得到了每个省的链接，每个链接的内容是该省下的市级单位，如河北省的链接内容是石家庄等市。如果是北京这样的直辖市，则直接显示“市辖区”。

在网页结构上，市一级的数据和省级非常类似：我们需要的数据在class='citytr'的tr标签中。每一个市的名称和链接，也同样在相应td标签下的a标签中，下图分别是河北省与北京市的源代码。

获取了市级(如北京“市辖区”)的链接之后，用同样的思路和方法，分析市级下区/县的内容。也有几乎同样的规律：每个区/县的名称和链接在class='countrytr'的tr标签中。如下图是“北京市辖区”的链接内容，td下有朝阳区，海淀区等的名称和链接信息。

区县再往下一级到乡镇/街道，乡镇再往下到居委会，也是同样的道理。相应的tr分别为class='towntr'和class='villagetr'。居委会已经是最小的行政单位，所以没有下一级的链接。由于获取方式相似，我们最终只采集和展示只到了区县一级。另外，由于乡镇及以下数量众多，在频繁请求时，可能会出现失败的情况。

数据获取和存储

前面的分析可以看到，每一级数据的获取是相似的，且获取数据的过程都是先请求再解析。因此可以把一些操作进行一定的封装。在实践时会发现，数据解析时，第一级(省级)和最后一级(居委会级)的解析和其余中间级别有一定的差别，主要是xpath路径的差异，因此需要分别进行处理。下面来看具体代码。

代码设计编写

经过以上分析，我把数据获取部分写成了一个简单的类ContentParse。类的结构示意如下图，包含一个成员变量info和5个方法，分别用于初始化，请求和解析不同级别的数据。

由于对面向对象的理解比较粗浅，这样的设计只追求简单实用，不见得完美，你也可以有其他更科学合理的设计方式，代码也有很多优化的空间。

需要指出，这样的写法并不是一开始就是这样的，中间经过了很多调试和分析，在走通流程的基础上，增加了一些对异常，特殊情况等的处理，才最终形成了这个“能跑通”的版本。为方便理解，我在代码中做了详细的注释。

在后台回复“行政”，可获取全部代码，数据和结果文件。关于xpath的语法和获取方式这里略过，可以在网上或之前的文章里查看，重要的是多实践，在应用中熟练和掌握。

下面类的代码用于构造ContentParse类，是后续操作的基础，可以结合注释，在实践时理解和体会。

以上我们定义了一个类用于数据获取和解析，接下来看一下对类的具体使用。我画了一个示意图帮助理解(可能不是特别标准)。

首先需要初始化一个对象，传入初始url获取各省级单位的名称和链接，如①所示。接下来在②处，初始化一个获取市级单位的对象，对于①中的每一个省级url，获取相应的市级单位和链接。之后以此类推，③处的对象用于根据市级url获取县级单位。继续获取乡镇和村也要初始化相应的对象。对每一个url都需要调用get_content()方法和相应的parse_content方法。

关键代码如下，完整代码文件可在后台回复“行政”获取。

①处代码，获取省级单位

②处代码，获取市级单位

③处代码，获取县级单位

数据存储

以上代码中，最终得到的dataframe就是相应级别的行政区划数据。由于数据量较小，可以直接存储在文件中，使用dataframe的to_excel方法即可实现。我已将后续可视化环节用到的区/县一级的完整数据，保存成了一个文件中countydf.xlsx。如果前面的代码你没有运行成功，可以直接使用最终结果的文件用于可视化。后台回复“行政”即可获取。

可视化部分

需求分析

使用上一步保存好的文件进行文章开头树形图的绘制。pyecharts中的树形图很容易绘制，关键在于把数据调整为需要的格式，见下面代码的data。最后再进行一些美化设置即可。

tree=(
     Tree()
        .add("", data)
        .set_global_opts(title_opts=opts.TitleOpts(title="Tree-基本示例"))
    )
tree.render()

对于data的具体格式要求，我们可以从官网例子中找到答案。请看下图，展示了树形效果和相应的数据。

可以看出，每一个节点是一个字典格式，这个字典有两个key，一个是name，另一个是children。name的值为节点名称，children比较复杂。如果节点没有子节点(如节点F)，则没有name同级别的children。如果节点有子节点，children的值为一个列表，列表为其所有子节点的字典形式(如节点C)。如果子节点还有子节点，则children会形成嵌套结构。最终的data是一个list，且只有一个字典元素(即根节点)。

代码实现

从pandas读入的原始数据样式如下，我们需要用到的是最后三个字段：name，city，province。

需要把dataframe中的数据处理成前面分析的字典格式。核心代码如下，虽然比较简洁，但还是经过了多次思考和调试。下面进行讲解：

第2行我们选出了需要的三个字段。由于省市两级都有子节点，意味着同样的name对应的children是嵌套的，原始数据里，省和市也是重复出现的。所以对省和市要先“分组”，再统一处理其子节点，用到了groupby操作。如代码第2行和第4行。

代码第5、6行是对同一市下的县(区)做处理。第5行首先通过lambda构造出县(区)名称的列表。第6行利用列表推导式，把每一个县(区)的名字前加上name，做成字典，由于县(区)都没有子节点，不需要有children。但他们是属于每个城市的children，而相应城市的名字是由外层循环传入的。需要注意每次进入内层循环时，都需要把区的列表置空。第6行之后，每一个城市都得到了相应的县(区)列表。append操作把所有城市的县(区)结果放在一个country_name列表中。

代码第7、8行是对同一省下的市做处理。第7行和第5行类似，得到市名称的列表。第8行直接将内层循环的结果作为children的值，并加上相应省份的name。最终把所有省的结果通过append加入了res_name列表。形成最终data时，再把res_name作为children的值，并手动加入根节点。可视化的代码如下所示。