Scrapy 爬坑记录

文章来源：企鹅号 - 萝大叔

1，安装

安装超时的问题：

scrapy需要安装依赖有：

twisted：必装，scrapy基于twisted

scrapy：必装

pywin32：必装

pillow：选装，图片下载需要用到

2，创建

3，配置

settings.py

items.py

4，报错

如果单纯获取文本，那么只需start_urls是一个list；而如果获取图片，则必须start_urls与item中存储图片路径字段这两者必须都是 list。

凡是TypeError都是数据类型的锅，通常因为dict，list，str没分清楚，可以用print(type(XXX))查看数据类型。

凡是No module named的都是缺少库，下载对应的库即可。

这种错误通常是因为请求队列排序出错，需要在settings.py里找问题。我在注释了下一行之后解决了问题。

5，其他

选择器有三种，css,xpath,re正则都可以，返回类型都是Selector类型，需要从selector变为数据，则在后面加上.extract() 或 .extract()_first() 或.extract()[x]（x为list中元素的下标）

最新的版本可以用get()和getall()，get()得到的是str，getall()得到的是list

如果要提取更具体的信息，可以用正则表达式的方法，在后面加上 .re() 或 .re()_first 进行嵌套选择。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货