前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【2020年FME博客大赛参赛作品】拱墅区学区分析之二(数据准备篇)

【2020年FME博客大赛参赛作品】拱墅区学区分析之二(数据准备篇)

作者头像
数据处理与分析
发布2020-05-25 16:17:55
4190
发布2020-05-25 16:17:55
举报

背景

我们通常能看到的学区都是长这样的:

以上数据来源于杭州本地宝 这显然不够友好,所以我想做点什么,来让学区更易读一些,也更形象一些。

以杭州市拱墅区为例,幼儿园小学中学都有,这次的这个系列主要是以小学为切入点进行分析。由于精力有限,我觉得再把分析目标定小一些:以流动人口子女入学为切入点进行分析。

数据收集

拱墅区小学

虽然我精通(勉强会用而已)多种爬虫技术,但有时候还是人工智能方式更好用!

直接复制网页上的表格,粘贴到Excel,两分钟就能搞定!是不是有点机智啊

小学点矢量化

在解决问题时,一把刷子是远远不够的。需要根据经验选取合适的处理方式。比如上一步骤采集信息,我只需要采集一次就可以完成数据的收集,整个过程非常的顺滑。但在本小节的这个步骤中,要把小学点矢量化,13个点说多不多说少不少,真要一个对拱墅区没那么熟悉的外地人对着图点的话,也是很累的。那有没有简单点的方法呢? 答案是肯定的! 我根据以往的数据处理经验,决定使用FME来调用地图接口矢量化小学点。 矢量化过程如图所示:

通过FME的方式,可以完成数据的批量矢量化。这在某种程度上可以减少工作量,FME确实是个解放生产力的好工具!

学区面绘制

在完成学校点的绘制后,下面就需要绘制学区面了。 学区面这个数据,我找了好久也没找到合适的数据源,最后无奈只能依靠人工智能的方式来完成。对于我来说这个过程极其痛苦!虽然操作步骤也不麻烦,但烦就烦在文字的语义信息的理解上,每条数据都需要理解一遍,然后在地图上找到它,再绘制出来! 以建新小学为例 其对应的文字描述如下图所示:

翻译成地理表达则如下图所示:

在这个文字表达转地理表达的过程中,需要根据地址描述找到每条道路/河流或者是其他标志物,然后依次连接起来,绘制成面。不断的重复这个过程,直至绘制完成所有的学区。 最后形成了如下所示的一张拱墅区学区图:

在后续,可以使用这份数据来进行进一步的分析。

居民地面调取

居民地面,采用的依然是互联网获取的方式,获取了如下图所示的杭州市拱墅区居民地面。

与常规热力图相比,做学区的热力图,在非建筑物上的点是没有意义的!因为学生上学都是要从家里出发的,所以在本次的学区分析中,我打算以建筑物为数据基础。

后记

互联网上的数据质量

说实话这次主要还是抱着学习研究的态度来做的这个事情,很多数据都是互联网上采集来的,来源五花八本、没那么权威。比如明德小学这条记录,在本地宝的网页上看到的学区划分是部分皋亭社区于部分瓜山社区,如下图所示

但我在绘制时却发现,明德的点却落在半山附近(不在它对应的学区里),我查了一些资料,但在该小学的官网,也未能查到其招生分为。但我从简介中发现了可能是由于在2017年明德小学有过一次搬迁,如下图所示:

如果是搬迁之前的地址:石祥路170-1号,那是落在皋亭社区的行政范围内的。所以我推测应该是本地宝的信息太老了,学区的划分还是搬迁之前的。

人工智能方式的局限性(课程优惠券到期时间20200518)

诚然,现在依然有很大一部分工作无法不通过人工方式来完成。在找不到更好的方案的时候,我们依然可以使用最原始的方式来完成数据的准备工作。但人工的方式有很大的局限性。我认为主要体现在以下几个方面:

1、速度慢

这个很好理解,像我这个学区划分,有很多地方都需要细细体味才能画出比较好的效果。品来品去,时间就过去了,慢!

2、精度低

还是以我这个学区划分为例,由于个人理解的问题,难免有些地方理解的不那么到位,画错了当然精度就下来了。何况我是单兵作战,连个帮我检查的人都没有。

3、不好查对错

人工一笔一笔画的,错真的没那么好查,花费大量精力做的质检工具,据我多年经验来看,往往起不到理想效果。比较靠谱的还是找些人花费精力专业查错,这也是为啥很多做数据的公司都专门有个质检部门。有靠谱的检查工具就用工具,没工具了就上人工查! 至于我这次做的数据有没有检查?

检查是不存在检查的, 哥做的数据不用查,完美!

就是这么自信!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-05-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据处理与分析 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 背景
  • 数据收集
    • 拱墅区小学
      • 小学点矢量化
        • 学区面绘制
          • 居民地面调取
          • 后记
            • 互联网上的数据质量
              • 人工智能方式的局限性(课程优惠券到期时间20200518)
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档