腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(6657)
视频
沙龙
1
回答
如
何在
Scrapy
中
修复
403
响应
python
、
scrapy
http://prntscr.com/o56670 请查看截图 我正在使用python 3并在我的终端上使用
scrapy
。fetch("https://angel.co/adil-wali") 当请求链接时,它以
403
响应
。所以我已经改变和轮换了用户代理和机器人,但仍然显示
403
响应
,所以这次我购买了爬虫计划,但爬虫仍然说523
响应
您知道为什么在
scrapy
shell
中
浏览 5
提问于2019-06-22
得票数 0
回答已采纳
1
回答
Python没有为某些页面获取任何内容
python
、
http
、
web-scraping
、
scrapy
、
scrapy-spider
我正试图从offerup.com和刮壳
中
获取一些信息,什么都没有。我将键入:它会出现在那里,但如果我只想得到整个网页的文本,就可以:它回来了,没有任何其他信息,我试图得到的回应,
如
标题。
浏览 4
提问于2017-07-26
得票数 0
1
回答
刮破壳不返回任何东西。
python
、
html
、
css
、
web-scraping
、
scrapy
我尝试了刮壳(
scrapy
shell )提取第一个组织名称,腾讯控股()控股,并在response.css('div.flex-no-grow.cb-overflow-ellipsis.identifier-label::text').extract_first()中用
scrapy
编写了刮除命令,这个命令什么也没有返回。
浏览 1
提问于2018-07-13
得票数 0
1
回答
将刮伤改为刮红后,启动url头改变。
scrapy
、
header
我有一个刮伤项目,我想将它修改为
scrapy
:主要的刮伤文件如下: name = 'ScrapyBot' callback=self.parse}该请求在
Scrapy
中
运行良好,但在添加
scrapy
-redis部件后,开始请求
中
的头(从F
浏览 2
提问于2022-03-29
得票数 0
1
回答
Scrapy
不进入parse()
python-3.x
、
scrapy
import
scrapy
name = 'idealistaspider'2020-05-09 16:39:27 [
scrapy
.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scrapedon 127.0.0.1:6023 2020-05-09 16:39:27 [
scrap
浏览 1
提问于2020-05-09
得票数 2
1
回答
刮破壳和刮痕没有收到
403
,但刮刮爬行工程。
python
、
scrapy
DEFAULT_REQUEST_HEADERS = {} 当我在项目文件夹
中
尝试
scrapy
shell url时(其中一个文件夹有
scrapy
.cfg),这意味着它在settings.py文件中使用相同的设置,我可以看到referer在请求
中
,但是我得到了一个
403
响应
。
scrapy
.core.engine调试:爬行(
403
浏览 3
提问于2018-09-06
得票数 0
1
回答
如何解决网络刮伤
中
的双
403
响应
问题
python
、
scrapy
、
header
我试过的是:但是,当我试图首先运行代码时,我得到了
响应
403
,然后我尝试通过在请求start_urls时添加标题来
修复
它,就像我从一些答案中看到的那样我做到了,但是我的脚本给了我错误,当它进入到我需要的所有信息在那里的潜艇url时,它说
响应
403
。我的当前代码如下from
scrapy
import Request from
scrapy
.cra
浏览 2
提问于2022-07-19
得票数 0
回答已采纳
1
回答
scrapy
https proxy
403
错误-在curl
中
工作
python
、
http
、
https
、
proxy
、
scrapy
-08-15 18:57:20 [
scrapy
.core.engine] DEBUG: Crawled (
403
) <GET https://www.sslproxies.org/> (referer:None) 2017-08-15 18:57:20 [
scrapy
.spidermiddlewares.httperror] INFO: Ignoring response <
403
https://] INFO: Closing spider (finis
浏览 15
提问于2017-08-16
得票数 0
1
回答
如何用
Scrapy
重新安排
403
响应
页?
python
、
scrapy
偶尔,我在使用
Scrapy
2.4.1抓取页面时得到
403
个
响应
。下载中间件设置为5次尝试,并在第5次尝试之后放弃:2021-02-06 01:44:17 [
scrapy
.spiderm
浏览 3
提问于2021-02-07
得票数 0
1
回答
如
何在
解析期间设置github令牌的自动更改?
web-scraping
、
scrapy
、
github-api
如果我有几个帐户/令牌,GitHub允许您每小时发送不超过2500个请求,如
何在
达到某个请求级别(例如,2500个请求)时在
Scrapy
中
设置自动令牌更改,或者在
响应
403
时对令牌进行更改。class GithubSpider(
scrapy
.Spider): start_urls = ['https://github.com']
浏览 8
提问于2021-12-15
得票数 1
回答已采纳
1
回答
Scrapy
到底在哪里做html请求呢?
python
、
web-scraping
、
scrapy
我在Python3
中
使用
Scrapy
(
Scrapy
==1.6.0)库。我想知道,在代码
中
Scrapy
实际上在哪里做HTML请求?另外,
响应
的确切位置也是一样的?现在我的爬行器找不到任何页面,所以我想我要么得到一个空白的HTML文档,要么得到一个
403
错误,但是我不知道从哪里去确认这一点。熟悉
scrapy
库的人能告诉我在代码
中
我可以检查这些参数的确切位置吗?
浏览 12
提问于2019-03-14
得票数 0
2
回答
使用Python
Scrapy
时的HTTP
403
响应
python
、
http
、
scrapy
我一直在测试下面的
Scrapy
代码,以递归地抓取www.whoscored.com站点上的所有页面,该站点用于足球统计:from
scrapy
.contrib.linkextractors.sgml import SgmlLinkExtractorfrom
sc
浏览 0
提问于2014-07-18
得票数 11
回答已采纳
1
回答
Scrapy
即使用硒也会被阻止,而硒本身不会吗?
selenium
、
web-scraping
、
scrapy
、
http-status-code-403
Scrapy
本身并不起作用(我得到了HTTP
403
),这让我相信有一些基于UI的对策(例如,检查解决方案)。 link_next.click() break self.driver.close()
浏览 0
提问于2017-01-14
得票数 0
1
回答
如
何在
Scrapy
项目中使用Privoxy和Tor
python
、
proxy
、
scrapy
、
privoxy
我正在尝试从中抓取,但目前我无法在浏览器
中
访问该站点,因为它的所有者禁止了我的IP地址(见下文)。我试图通过使用Privoxy和Tor来解决这个问题,类似于在中所描述的。我在/etc/privoxy/config
中
添加了下面一行kurt@kurt-ThinkPad:~$ wget www.apkmirror.c
浏览 10
提问于2017-04-24
得票数 2
回答已采纳
1
回答
在刮取
Scrapy
时,每个URL的HTTP
响应
代码
python
、
web-scraping
、
scrapy
、
response
、
http-response-codes
被刮掉的URL数量和获得200个
响应
状态的URL数量是不一样的。另外,我想得到的URL与他们各自的反应。我正在使用
Scrapy
抓取70000个URL,同时希望通过
Scrapy
获取每个URL的HTTP
响应
状态,以便在获取特定URL的内容之后,我们还将获得该URL的
响应
代码:如何获得相应URL的
响应
代码?
浏览 1
提问于2018-09-03
得票数 0
1
回答
在
Scrapy
框架中发送post请求,它不工作,但在python请求
中
工作,显示
403
个错误
python
、
scrapy
、
scrapy-splash
我面临一个与POST API
中
的
scrapy
框架相关的问题。我是通过python请求完成的,但我不理解
scrapy
框架的问题。我只想把api数据保存在我的系统
中
,这样我就可以访问所有的酒店名称。蜘蛛: name = 'm' 'COOKIES_ENABLED] INFO: Telnet co
浏览 10
提问于2022-02-02
得票数 0
1
回答
如果URL在
响应
代码
中
得到307,如何使它重试?
python-3.x
、
scrapy
例如,但是我被重定向到RETRY_TIMES=5 '
scrapy
.downloadermiddlewares.retry.RetryMiddleware': 500, 'real_estate.midd
浏览 0
提问于2018-05-17
得票数 0
回答已采纳
2
回答
如何重新安排
403
HTTP状态代码,以便稍后在抓取?
python
、
web-scraping
、
scrapy
根据指令,我可以看到HTTP500个错误、连接丢失的错误等总是被重新安排的,但是如果
403
个错误也被重新安排了,或者它们仅仅被当作一个有效的
响应
来处理,或者在达到重试限制后被忽略,我就找不到任何地方。也是根据同一指示: 2015-12-07 12:33:42 [
scrapy
] DEBUG: Ignoring response <40
浏览 2
提问于2015-12-07
得票数 11
回答已采纳
3
回答
基于Python
Scrapy
- mimetype的过滤器,以避免非文本文件下载
python
、
twisted
、
mime-types
、
scrapy
我有一个正在运行的
scrapy
项目,但是它是带宽密集型的,因为它试图下载大量二进制文件(zip、tar、mp3、..etc)。我查看了代码,发现了以下设置:我当前的安装程序已经损坏了
Scrapy
服务器,所以请不要尝试使用上面的代码来解决这个问题。scrapper-test/Zend -> /var/www
浏览 5
提问于2012-11-15
得票数 6
回答已采纳
1
回答
挣扎着用
Scrapy
刮一个网站
python
、
web-scraping
、
scrapy
我对火车很感兴趣,我在我的国家铁路公司的网站上没有发现任何CSV数据,所以我决定在
Scrapy
做网络抓取。但是,当在我的终端中使用fetch命令测试
响应
时,我一直无意中发现了DEBUG:爬行(
403
)。我还试图只将USER_AGENT变量设置为一些随机的用户代理,而不引用
scrapy
-假冒伪劣用户代理。不幸的是,所有这些都没有用。'
scrapy
.downloadermiddlewares.retry.RetryMiddleware': None, '
scrap
浏览 7
提问于2022-10-25
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
scrapy官方文档提供的常见使用问题
python爬虫遇到IP被封的情况,怎么办?
解决Python爬虫中Header报错的方法
Python爬虫学习初窥Scrapy
爬虫小记(一)
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券