前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据获取脚本更新播报2020/11

数据获取脚本更新播报2020/11

作者头像
Sidchen
发布2020-11-25 11:47:15
7010
发布2020-11-25 11:47:15
举报
文章被收录于专栏:规划领域技术

1.这篇文章集合发布数据脚本、资源维护等更新内容 - 脚本的使用参照相应历史文章

(文章可以闲了看看,遇错看看,今后不再额外发文/除非重大更新 - 入口:[公众号后台 -联系作者选项-更新播报]

2.脚本资源获取仍采取后台回复机制,关键词未变,可以随意回复碰碰运气,或者底部阅读原文跳转后选择“数据”选项卡查看原文复制精准关键词

3.另外:关键词“资源素材共建计划”跳转的共享网盘,想着扩大共享范畴为:

规划相关软件、出图全素材、相关法规、数据

像POI、公交地铁线路等等这些数据,如果你爬取了整个城市的,可以把它放进去,节省后面其他人的时间,记得标注好数据类型、获取时间、数据源。(有希望其他共享类目的可以和我说,了解更多看这里:规划人-资源素材库共建计划


2020.11.15

更新对象:POI数据获取脚本

(Get_GaodeMap_POI_Polygon.exe;Get_BaiduMap_POI_Polygon.exe)

更新内容:

  • 降低开发者账号封禁风险的伪装(目前挺有效的,测试爬取了北京[百度46586个-是不是太少了?]、上海[高德118489个]全市的餐饮类POI(已放入共享网盘-数据文件夹),并没有被封禁)
    • 支持多个key随机切换(Key.txt文件内一行粘贴一个账号下的一个Web服务端key)
    • 增强休眠机制(随机时间休眠随机时长+饭店下班、晚上睡觉)
    • 伪装成主流浏览器
    • 降低单次请求数据频率(数据获取慢了,但是放心了,也没有很慢,比如北京市域的美食POI一个白天也就OK了……高德单次下载量设置为百度的3倍,可能会快一点)
  • 增加断点续传功能(随时停止,下次双击脚本断点续传)
    • 需要暂停时,在脚本所在文件夹新建一个"pause.txt"文件即可(txt内容不限)
    • 切分地图时不支持断点续传(如果目标数据区域很大,那也没有办法……主要是我觉得没有必要,所以没加)
  • 新增百度地图POI数据获取脚本
    • 功能大致相同,一个key一天最多获取20W个POI数据
    • 支持输入任一中文名称进行模糊POI获取,如某一品牌店铺
    • 下载链接关键词同Gaode脚本
  • 增加多个区域同时开启数据获取的机制
    • 就是之前多场景POI数据获取脚本中的多矩形区域的那个,适合于不同城市区域一次设置,而不要人工等待和多次设置
    • 区域名称可以是1、2、3……,也可以是中文东城区、上海、李庄……
  • 百度、高德数据源对比
    • 高德数据源似乎更准确,但百度好在能随意搜索中文POI类型(也不知道有没有用) (我测试了一下北京同一个区域两个数据源获取的数据量,高德比百度多。原因可能是,百度开放的API数据有限制(它也说不是最新的……))
    • 感觉白花时间做百度的适配了,难过……

坑边闲谈:

这次更新花了一周多的时间,主要是因为把之前高德POI数据获取脚本推荐给别人用导致了他开发者账号被封禁(身份永久封禁),于是带着愧疚的心情开始更新脚本,采取了多种可能的方式去降低账号封禁的风险,随之带来的就是数据获取效率大大降低,于是又接着加入了断点续传的机制,这样就能随时结束脚本后面再接着来了。

其实解决账号封禁,比较有效的可能是多个账号的key随机切换,最有效的是伪装自己的IP,设定一个IP池,通过不同更换IP来伪装成是全国各地的人在请求数据,而非某个人在爬取数据……

很可惜,脚本编写过程中不断的测试也导致了我的开发者账号被封禁,搞得我高德的一系列脚本都没办法用……想着后面去借别人的好了。“居安思危”,不能把萝卜放在一个坑里,于是我又花了一点时间转向百度地图,也许后面会把已经开发了的脚本,也开发一个百度地图、天地图的版本出来……

账号封禁:其实就是各大地图商出于保护数据的目的,这个可以理解,但是作为一名贫穷的学生、科研工作者,真的是,太难了……

再者就是最近想着,能开发一个项目前期一键预调研功能,就是输入设计地块的经纬度点,或经纬度矩形区域,然后通过抓取多样数据,绘制图表生成一个前期的网络调研报告,这个确实能节省好多时间呢……但是这个开发难度估计是很大的,什么时候能开发出来就不知道了。


2020.10.22

更新对象:公交线路获取脚本("3-LineToGIS.exe"文件)

更新内容:

  • 解决某一自动退出错误(保存线路表格时线路名称含非法字符)
  • 增加“未知错误”的容错机制 (避免程序执行中断)

2020.10.18

更新对象:POI数据获取脚本、地理编码脚本、OD数据脚本(所有exe文件)

更新内容:

  • 增加“未知错误”的容错机制

(避免程序执行中断)

  • 增加脚本运行结束邮件提醒功能

(预计执行时间超过10分钟才会触发邮件提醒机制,按提示输入个人邮箱地址即可)


2020.08.06

更新对象:POI数据获取脚本、公交线路获取脚本(完整脚本)

更新内容:

  • 某些bug修复(具体忘了)
  • 安全提升(增加、延长程序休眠时间)
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 规划人在路上 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
访问管理
访问管理(Cloud Access Management,CAM)可以帮助您安全、便捷地管理对腾讯云服务和资源的访问。您可以使用CAM创建子用户、用户组和角色,并通过策略控制其访问范围。CAM支持用户和角色SSO能力,您可以根据具体管理场景针对性设置企业内用户和腾讯云的互通能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档