我们通常能看到的学区都是长这样的:
以上数据来源于杭州本地宝 这显然不够友好,所以我想做点什么,来让学区更易读一些,也更形象一些。
以杭州市拱墅区为例,幼儿园小学中学都有,这次的这个系列主要是以小学为切入点进行分析。由于精力有限,我觉得再把分析目标定小一些:以流动人口子女入学为切入点进行分析。
虽然我精通(勉强会用而已)多种爬虫技术,但有时候还是人工智能方式更好用!
直接复制网页上的表格,粘贴到Excel,两分钟就能搞定!是不是有点机智啊
!
在解决问题时,一把刷子是远远不够的。需要根据经验选取合适的处理方式。比如上一步骤采集信息,我只需要采集一次就可以完成数据的收集,整个过程非常的顺滑。但在本小节的这个步骤中,要把小学点矢量化,13个点说多不多说少不少,真要一个对拱墅区没那么熟悉的外地人对着图点的话,也是很累的。那有没有简单点的方法呢? 答案是肯定的! 我根据以往的数据处理经验,决定使用FME来调用地图接口矢量化小学点。 矢量化过程如图所示:
通过FME的方式,可以完成数据的批量矢量化。这在某种程度上可以减少工作量,FME确实是个解放生产力的好工具!
在完成学校点的绘制后,下面就需要绘制学区面了。 学区面这个数据,我找了好久也没找到合适的数据源,最后无奈只能依靠人工智能的方式来完成。对于我来说这个过程极其痛苦!虽然操作步骤也不麻烦,但烦就烦在文字的语义信息的理解上,每条数据都需要理解一遍,然后在地图上找到它,再绘制出来! 以建新小学为例 其对应的文字描述如下图所示:
翻译成地理表达则如下图所示:
在这个文字表达转地理表达的过程中,需要根据地址描述找到每条道路/河流或者是其他标志物,然后依次连接起来,绘制成面。不断的重复这个过程,直至绘制完成所有的学区。 最后形成了如下所示的一张拱墅区学区图:
在后续,可以使用这份数据来进行进一步的分析。
居民地面,采用的依然是互联网获取的方式,获取了如下图所示的杭州市拱墅区居民地面。
与常规热力图相比,做学区的热力图,在非建筑物上的点是没有意义的!因为学生上学都是要从家里出发的,所以在本次的学区分析中,我打算以建筑物为数据基础。
说实话这次主要还是抱着学习研究的态度来做的这个事情,很多数据都是互联网上采集来的,来源五花八本、没那么权威。比如明德小学这条记录,在本地宝的网页上看到的学区划分是部分皋亭社区于部分瓜山社区,如下图所示
但我在绘制时却发现,明德的点却落在半山附近(不在它对应的学区里),我查了一些资料,但在该小学的官网,也未能查到其招生分为。但我从简介中发现了可能是由于在2017年明德小学有过一次搬迁,如下图所示:
如果是搬迁之前的地址:石祥路170-1号,那是落在皋亭社区的行政范围内的。所以我推测应该是本地宝的信息太老了,学区的划分还是搬迁之前的。
诚然,现在依然有很大一部分工作无法不通过人工方式来完成。在找不到更好的方案的时候,我们依然可以使用最原始的方式来完成数据的准备工作。但人工的方式有很大的局限性。我认为主要体现在以下几个方面:
这个很好理解,像我这个学区划分,有很多地方都需要细细体味才能画出比较好的效果。品来品去,时间就过去了,慢!
还是以我这个学区划分为例,由于个人理解的问题,难免有些地方理解的不那么到位,画错了当然精度就下来了。何况我是单兵作战,连个帮我检查的人都没有。
人工一笔一笔画的,错真的没那么好查,花费大量精力做的质检工具,据我多年经验来看,往往起不到理想效果。比较靠谱的还是找些人花费精力专业查错,这也是为啥很多做数据的公司都专门有个质检部门。有靠谱的检查工具就用工具,没工具了就上人工查! 至于我这次做的数据有没有检查?
检查是不存在检查的, 哥做的数据不用查,完美!
就是这么自信!