首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Scrapy 爬坑记录

1,安装

安装超时的问题:

scrapy需要安装依赖有:

twisted:必装,scrapy基于twisted

scrapy:必装

pywin32:必装

pillow:选装,图片下载需要用到

2,创建

3,配置

settings.py

items.py

4,报错

如果单纯获取文本,那么只需start_urls是一个list;而如果获取图片,则必须start_urls与item中存储图片路径字段这两者必须都是 list。

凡是TypeError都是数据类型的锅,通常因为dict,list,str没分清楚,可以用print(type(XXX))查看数据类型。

凡是No module named的都是缺少库,下载对应的库即可。

这种错误通常是因为请求队列排序出错,需要在settings.py里找问题。我在注释了下一行之后解决了问题。

5,其他

选择器有三种,css,xpath,re正则都可以,返回类型都是Selector类型,需要从selector变为数据,则在后面加上.extract() 或 .extract()_first() 或.extract()[x](x为list中元素的下标)

最新的版本可以用get()和getall(),get()得到的是str,getall()得到的是list

如果要提取更具体的信息,可以用正则表达式的方法,在后面加上 .re() 或 .re()_first 进行嵌套选择。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200317A0ACKY00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券