目前最快的Python爬虫速成法！两步即可学会

文章来源：企鹅号 - 清璃

这个信息传递非常快的时代，学会信息和数据快速采集和爬取都是非常必要的。

python web scraper可以说是这个时代的火箭头了，设置简单，非常高效，采集咪蒙文章标题仅需2分钟，采集58同城5000条租房信息也就5分钟而已。

Web scraper是google强大插件库中非常强大的一款数据采集插件，有强大的反爬虫能力，只需要在插件上简单地设置好，可以快速抓取知乎、简书、豆瓣、大众、58等大型、中型、小型的90%以上的网站，包括文字、图片、表格等内容，最后快速导出csv格式文件。Google官方对webscraper给出的说明是：使用我们的扩展，您可以创建一个计划(sitemap)，一个web站点应该如何遍历，以及应该提取什么。使用这些sitemaps,Web刮刀将相应地导航站点并提取所有数据。稍后可以将剪贴数据导出为CSV。Webscraperk课程将会完整介绍流程介绍，用知乎、简书等网站为例介绍如何采集文字、表格、多元素抓取、不规律分页抓取、二级页抓取、动态网站抓取，以及一些反爬虫技术等全部内容。我也将在近期开始web scraper课程，web scraper的安装Web scraper是google浏览器的拓展插件，它的安装和其他插件的安装是一样的。

如果无法下载webscraper或其他python资料，可以联系小编。

1、准备工作： Python、scrapy、一个IDE编译器

随便建一个工作目录，然后用命令行建立一个工程，工程名为miao，可以替换为你喜欢的名字。

scrapy startproject miao

随后你会得到如下的一个由scrapy创建的目录结构

在spiders文件夹中创建一个python文件，比如miao.py，来作为爬虫的脚本。

内容如下：

import scrapy

class NgaSpider(scrapy.Spider):

name = "NgaSpider"

host = "http://bbs.ngacn.cc/"

# start_urls是我们准备爬的初始页

start_urls = [

"http://bbs.ngacn.cc/thread.php?fid=406",

]

# 这个是解析函数，如果不特别指明的话，scrapy抓回来的页面会由这个函数进行解析。

# 对页面的处理和分析工作都在此进行，这个示例里我们只是简单地把页面内容打印出来。

def parse(self, response):

print response.body

2、跑一个试试？

如果用命令行的话就这样：

cd miao

scrapy crawl NgaSpider

你可以看到爬虫君已经把你坛星际区第一页打印出来了，当然由于没有任何处理，所以混杂着html标签和js脚本都一并打印出来了。

以下是几个比较重要的地方：

scrapy的架构:

http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/architecture.html

xpath语法：

http://www.w3school.com.cn/xpath/xpath_syntax.asp

Pipeline管道配置：

http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/item-pipeline.html

Middleware中间件的配置：

http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/downloader-middleware.html

settings.py的配置：

http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/settings.html

python是一个世界的大门，我相信在这里面，你一定能找到你喜欢的，人生程序。

发表于: 2018-12-152018-12-15 16:55:45
原文链接：https://kuaibao.qq.com/s/20181212A0O7ME00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

目前最快的Python爬虫速成法！两步即可学会

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐