如何租到靠谱的房子?Scrapy爬虫帮你一网打尽各平台租房信息!

大数据文摘经授权发布

项目开发者:柯振旭

又是一年n度的找房高峰期,各种租赁信息眼花缭乱,如何快速、高效的找到靠谱的房子呢?

不堪忍受各个租房网站缭乱的信息,一位技术咖小哥哥最近开发了一个基于 Scrapy 的爬虫项目,聚合了来自豆瓣,链家,58 同城等上百个城市的租房信息,统一集中搜索感兴趣的租房信息,还突破了部分网站鸡肋的搜索功能。

通过这个“秘密武器”,这位技术咖已经使用该爬虫找到合适的住所。

不仅如此,还很无私地整理了项目代码,并放上了Github。

Github链接:

https://github.com/kezhenxu94/house-renting

点击“阅读原文”可查看项目介绍,在大数据文摘后台回复“租房”可下载源代码~

接下来,跟着文摘菌一起来看看这波酷炫的操作。

环境部署

Python版本:Python 2 || Python 3

爬虫框架:Scrapy

操作系统:Mac || Linux || Windows

服务引擎:Docker

获取源码

$ git clone https://github.com/kezhenxu94/house-renting
$ cd house-renting

在大数据文摘后台回复“租房”可下载源代码~

启动服务

使用 Docker(推荐)

$ docker-compose up --build -d

环境及版本:Mac Docker CE 版,具体版本号为 Version 18.03.1-ce-mac65 (24312)。

为了方便用户使用该项目,作者提供了部署本项目所需要用到的服务的 docker-compose.yml 文件,但由于 Docker 本身的局限性,导致在 Windows 非专业版上必须使用 Docker Toolbox 并因此带来了许多问题,详细参考:

http://support.divio.com/local-development/docker/how-to-use-a-directory-outside-cusers-with-docker-toolbox-on-windowsdocker-for-windows

如果你遇到这样的问题, 可以在这里给提 Issue,如果你遇到并自己解决了这样的问题,欢迎在这里提 Pull Request帮助优化该项目!

Issue:

https://github.com/kezhenxu94/house-renting/issues

Pull Request:

https://github.com/kezhenxu94/house-renting/pulls

手动部署 (不推荐)

安装 Elasticsearch 5.6.9 和 Kibana 5.6.9 并启动

下载并安装 Elasticsearch 和 Kibana,下载地址为:

https://www.elastic.co/downloads/past-releases

安装 Redis 并启动

下载并安装 Redis,下载地址为:

https://redis.io/download

在 crawler/house_renting/settings.py 文件中配置相关的主机和端口:

# ES 节点, 可以配置多个节点(集群), 默认为 None, 不会存储到 ESELASTIC_HOSTS = [    {'host': 'elastic', 'port': 9200},]
REDIS_HOST = 'redis'  # 默认为 None, 不会去重REDIS_PORT = 6379  # 默认 6379

安装 Python 依赖

$ cd crawler
$ pip install -r requirements.txt

选择要扒取的城市(目前支持链家, 58 同城):

选择需要从链家扒取的城市:

打开 crawler/house_renting/spider_settings/lianjia.py 文件,按照注释提示完成城市选择;

# ...# 只需要在这个列表中添加以下 available_cities 中的城市, 如果只需要扒取一个城市也需要使用一个括号包围, 如 (u'广州')
cities = (u'广州', u'北京')
# ...

选择需要从 58 同城扒取的城市:

打开 crawler/house_renting/spider_settings/a58.py 文件, 按照注释提示完成城市选择:

# ...# 只需要在这个列表中添加以下 available_cities 中的城市, 如果只需要扒取一个城市也需要使用一个括号包围, 如 (u'广州')
cities = (u'广州', u'北京')
# ...

启动爬虫

在不同的命令行窗口中启动需要扒取的网站爬虫

$ scrapy crawl douban # 扒取豆瓣
$ scrapy crawl lianjia # 扒取链家
$ scrapy crawl 58 # 扒取 58 同城

到这里,恭喜你!房屋信息已经成功爬取到了,一起来看看爬取结果吧!

查看结果

看图选房

爬虫运行扒取到数据后会有 house_renting/data目录被创建,其中的 images 文件夹下载了租房信息中的图片,用户可以使用图片浏览器查看该文件夹中的图片,看到合适的房子图片后,使用图片文件名到 Kibana 中搜索,找到相应的租房信息详情。

搜索关键字

打开浏览器,定位到 http://127.0.0.1:5601 (请根据 Docker 的 IP 相应更改 Kibana 对应的 URL 地址)。

设置索引模式

在下图中的 Index pattern 输入框中输入 house_renting,然后按下 TAB 键,Create 按钮会变为可用状态,此时点击 Create 按钮;如果此时 Create 按钮还不能用,是因为爬虫还没有扒取到数据入 Elasticsearch,需要多等一会儿,如果长时间这样,需要检查爬虫服务是否启动成功。

切换到 Discover 页面

添加字段

按时间排序

搜索一个关键字

搜索多个关键字

展开详细信息

温馨提示

如果环境配置正确,运行结果不正确,原因有可能是网站做了升级,读者朋友们可以去项目介绍页面更新代码后再次尝试。作者会根据业余时间和精力不断更新项目,感兴趣的朋友可以持续关注哦。

点击“阅读原文”可查看项目介绍,在大数据文摘后台回复“租房”可下载源代码~

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2018-05-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏熊二哥

Linux快速入门01-基础概念

4年多前,刚到上海时报过一个关于Oracle的培训班,在那里接触到了Linux,不过一直都没真正去试着使用它。现在经过慢慢的成长,越来越觉得,Linux是每一个...

2135
来自专栏小狼的世界

[每天五分钟,备战架构师-10]数据库系统

事务是数据库系统运行的基本工作单位,相当于操作系统中的进程,事务具有ACID特性。从用户的角度来看,事务中的操作要么都做,要么都不做。

772
来自专栏Grace development

PHP程序员如何简单的开展服务治理架构(二)

服务治理 治理的绝笔是服务,在一家公司有玩各种语言的程序员,如何去统一管理他们开发的服务,这是一个问题。

1432
来自专栏SDNLAB

SDNLAB技术分享(十七):Ceph在云英的实践

大家好,我是云英负责存储的研发工程师,杨冠军,很高兴今天能在这里跟大家一起讨论分享下Ceph和Ceph在云英的实践。 首先我先介绍下,Ceph是什么,我们为什么...

5686
来自专栏Timhbw博客

小白搭建博客教程-购买虚拟主机并搭建(2)

2016-06-1011:03:08 发表评论 18℃热度 一键部署工具选择 系统选择 连接虚拟主机 开始一键部署 目录 上一回说道:小白搭建博客教程...

1.6K6
来自专栏SEO

SEOer必学网站分析神器(全新解析一)

3419
来自专栏FreeBuf

跨平台版中国菜刀Cknife发布

Burp已经成了绿帽子门必不可少的工具,相信大家都装有Java环境,本软件支持1.7+以及所有安装了环境的系统。1.6后续会考虑兼容。 一直都有想写一款真正...

5707
来自专栏游戏开发那些事

【UE4游戏开发】安装UE4时报SU-PQR1603错误的解决方法

  马三在开发过程中一直用的都是UE4.9版本(很久没有更新了。),因为功能都够用,所以也懒得去更新。这不最近UE4 发布了最新的4.14版本,本来想尝个鲜,试...

1613

在Ubuntu 14.04上运行反恐精英:全球攻势(CS:GO)

反恐精英:全球攻势(CS:GO)是Valve出品的一款第一人称射击游戏。您可以通过自己架设服务器来完全控制您的游戏和游戏模式,以便于您设定您想要的CS:GO的精...

1354
来自专栏FreeBuf

暴雪游戏存在DNS重绑定漏洞可导致玩家电脑被远程劫持

谷歌安全研究员Tavis Ormandy发现暴雪游戏存在一个严重漏洞,攻击者利用该漏洞针对游戏玩家电脑可实现远程恶意代码执行。“魔兽世界”、“守望先锋”、“暗黑...

2008

扫码关注云+社区