前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >链家爬虫(python spider) 成交数据及在售数据爬取

链家爬虫(python spider) 成交数据及在售数据爬取

作者头像
Anymarvel
发布2018-10-22 11:14:45
2.7K0
发布2018-10-22 11:14:45
举报
文章被收录于专栏:Android开发实战

转载是一种动力 分享是一种美德

重磅:链家成交数据和在售数据自动爬虫 (技术交流,请勿作为商业运作)

开源地址: https://github.com/AnyMarvel/LianjiaSpider https://gitee.com/dssljt/LianjiaSpider 欢迎吐槽,欢迎提交bug

1

链家数据爬虫,采用两种方法

1.常见的分析PC端HTML进行数据爬取(简单实现在售数据爬取,成交数据需要在移动端查看)

2.破解链家移动端签名密钥(破解过程稍后更新),使用客户端接口进行爬取(在售数据及成交数据爬取)

篇幅有限,文章中excle截图均为部分截图

2

目录结构:


  • HomeLinkTest : Android 工程(用于破解链家App签名验证内容)
  • jsonSource: 链家客户端json传内容样本,包含(成交商品列表页,成交商品详情页,成交商品更多内容页)(在售商品列表页,在售商品详情页,在售商品更多内容页)
  • spider:链家爬虫脚本(python脚本)(爬取PC端在线数据,移动端在售数据和成交数据)

3

实现功能:

一. web界面爬取

爬取web界面在售内容 https://bj.lianjia.com/ershoufang/ 仅爬取在售内容(使用正则表达式进行内容匹配,进行结果输出)(常用爬虫方法,分析界面html进行内容获取,使用动态代理伪装客户端进行访问具体内容进参考代码)

代码语言:javascript
复制
python LianjiaSpider/spider/salingInfoSpider.py

使用代理服务器(开源地址):

https://raw.githubusercontent.com/fate0/proxylist/master/proxy.list

(工程内代理服务器内容可用于其他工程) 进行代理服务器设置,抓取到内容后进行相对目录excle目录内容存储,运行图如图所示: (输入页数为链家PC页面当前第几页内容)

爬取结果图如图所示(在相对salingInfoSpider.py目录生成LianJiaSpider.xls excle表格):

二.移动端数据爬取(在售,成交)

基于链家app:https://bj.lianjia.com/ 针对其签名校验进行破解

获取对应的json内容,进行自动爬取(仅做技术交流,请勿进行商业应用或其他侵权行为)

  • 在售数据爬取:
代码语言:javascript
复制
python LianjiaSpider/spider/zaishou/zaiShouSpider.py

设置爬取页数和一页多少数据

结果生成在同级目录中生成excle,如图所示:

成交数据爬取:

代码语言:javascript
复制
python LianjiaSpider/spider/zaishou/chengJiaoJiaSpider.py

修改全局设置,注销手动输入,或使用手动输入:

chengJiaoJiaSpider.py中可设置爬取页数,其实位置,从第0页开始,所以是-100开始

成交数据如图所示:

  • 在售及成交数据自动爬取:
代码语言:javascript
复制
python LianjiaSpider/spider/Spider_Thread_Manager.py

执行的为在售和成交的自动爬虫运行逻辑 如有问题请留言,转载请注明

特别提示:仅做技术交流,请勿作为其他用途,谢谢配合

app签名密钥破解,爬虫基本基本实例会稍后更新,敬请关注

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-07-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Android历练记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 重磅:链家成交数据和在售数据自动爬虫 (技术交流,请勿作为商业运作)
  • 链家数据爬虫,采用两种方法
  • 目录结构:
  • 实现功能:
    • 一. web界面爬取
      • 二.移动端数据爬取(在售,成交)
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档