腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
Scrapy
referer
未
返回
可读
的
url
python-3.x
、
scrapy
在抓取网站时,我想要获取指向404
的
引用。def parse_item(self, response): Do something with this >
referer
=response.request.headers.get('
Referer
', None) 它在某种程度上是有效
的
,但
返回
的
引用总是类似于: \x68747470733a2f2f7777772e6162752d64
浏览 26
提问于2021-02-01
得票数 0
2
回答
抓取Python循环到下一个
未
擦伤
的
链接
python
、
scrapy
、
scrapy-spider
我试图让我
的
蜘蛛浏览一个列表,刮掉所有的
url
--它可以在它们后面找到,抓取一些数据,然后
返回
到下一个
未
刮掉
的
链接上--如果我运行这个蜘蛛--我可以看到它
返回
到起始页面,但是尝试再次抓取相同
的
页面,然后退出对,但我希望它继续使用下一个
未
刮掉
的
链接2016-07-18 12:11:20 [
scrapy
] DEBUG: Crawled (200) <GET http://ww
浏览 3
提问于2016-07-18
得票数 0
回答已采纳
1
回答
可读
性IXML xpath不工作。
python
、
scrapy
当我通过
可读
性和刮伤性阅读一些项目时,我试图检索它们。introduction']/text()")但是,当我在这一行
的
可读
性文档上运行\python27\lib\site-packages\
scrapy
-1.3.1-py2.7.egg\
scrapy
\spidermidd
浏览 2
提问于2017-02-15
得票数 0
2
回答
刮点标识
python
、
python-3.x
、
web-scraping
、
scrapy
、
scrapy-spider
我有网站,我想刮他们
的
标志。yield LogoScrapeItem(
url
=
url
, file_
url
=file_
url
)#yield LogoScrapeItem(
url
=
url
, file_
url
=file_
url
) 2017-12-25 11:09:32 [
scrapy
.core.eng
浏览 6
提问于2017-12-25
得票数 0
回答已采纳
1
回答
在爬行网页时有相同数据
的
问题
scrapy
我正在尝试抓取一个网页,以获得该网页
的
评论和评级。但是我得到
的
数据和输出数据是一样
的
。import
scrapy
from
scrapy
.spiders import Spider name ="rate" for i in range(1, 10):
url
= "
浏览 0
提问于2019-03-26
得票数 0
回答已采纳
3
回答
如何在“抓取”中按顺序提出几个请求?
scrapy
、
python-requests
、
yield
我需要发送我
的
请求,以便与
Scrapy
。]我
的
问题是,这些请求不是按顺序排列
的
。我读过,但它没有正确
的
答案。 link = urljoin(path,elem) yield Request(link,
浏览 0
提问于2018-11-16
得票数 0
回答已采纳
2
回答
抓取句柄302响应代码
redirect
、
scrapy
、
web-crawler
、
scrapy-spider
我使用一个简单
的
CrawlSpider实现来抓取网站。默认情况下,
Scrapy
跟随302重定向到目标位置,并且某种程度上忽略了最初请求
的
链接。在一个特定
的
站点上,我遇到了一个302重定向到另一个页面的页面。我
的
目标是记录原始链接(响应302)和目标位置(在header中指定),并在CrawlSpider
的
CrawlSpider方法中处理它们。请引导我,我怎样才能做到这一点?默认情况下,
scrapy
忽略page1,跟踪page2并对其进行处理。我想在page1和page2
浏览 6
提问于2016-02-11
得票数 4
回答已采纳
1
回答
Scrapy
Debug爬行了200,但没有
返回
任何结果
python
、
web-scraping
、
scrapy
、
web-crawler
、
scrapy-spider
我正在做一个爬行项目,并试图获得乐队
的
每个背书链接。 它没有
返回
任何内容。但是,如果我将乐队
的
每个
URL
放在start_
url
中,它会工作得很好。但是我很难手动将我想要
的
所有
URL
放在start_
url
字段中,因为我甚至不确定有多少…… 有人能帮上忙吗?提前感谢!
浏览 6
提问于2018-11-21
得票数 0
1
回答
不使用CrawlSpider保存数据
的
Scrapy
CrawlerProcess
python
、
python-3.x
、
web-scraping
、
scrapy
、
scrapy-spider
将执行以下代码,创建没有错误
的
文件。但是,它不会保存到json文件中。SETTINGS = {} process.crawl(MySpider)编辑: 抓取器正在获取日志中显示
浏览 4
提问于2017-11-21
得票数 3
1
回答
Scrapy
:将参数传递给cookie
python
、
web-scraping
、
scrapy
如果我正确理解了地理位置,就必须绕过这个站点
的
所有位置,地理位置是通过
url
( )中
的
ID参数和cookie中
的
ID参数('BITRIX_SM_CITY_ID':loc_id)传输
的
。)2022-06-05 17:32:46 [
scrapy
.core.engine]
浏览 9
提问于2022-06-05
得票数 0
回答已采纳
1
回答
有没有一种方法可以得到一个链接
的
URL
?
scrapy
我写了一个蜘蛛,它会爬行我
的
网站并抓取一堆标签。我现在正尝试让它
返回
在其上发现链接
的
URL
。当
scrapy
从/product/123中抓取信息时,我希望有一个"Scraped From“字段并
返回
/page/2。对于抓取
的
每个
URL
,我希望找到
URL
所在
的
原始页面。
浏览 16
提问于2020-02-14
得票数 1
回答已采纳
4
回答
scrapy
如何设置
referer
url
screen-scraping
、
scrapy
我需要设置引用
url
,在抓取网站之前,该网站使用引用
url
的
身份验证,所以它不允许我登录,如果引用是无效
的
。 有人能告诉我如何在
Scrapy
中做到这一点吗?
浏览 3
提问于2012-10-25
得票数 11
回答已采纳
1
回答
Post请求
返回
405
python-2.7
、
http
、
scrapy
我必须做一个post,但是我得到了错误405使用下面的代码,我在"Escolha o Exercício:“import
scrapy
class ScpiSpider(
scrapy
.Spider):
浏览 39
提问于2019-08-07
得票数 0
1
回答
无法让
Scrapy
解析并遵循301,302重定向
python
、
scrapy
我试图写一个非常简单
的
网站爬虫,列出网址,参考和状态代码200,301,302和404 http状态代码。结果是,
Scrapy
工作得很好,我
的
脚本正确地使用它来爬行网站,并且可以在没有问题
的
情况下列出带有200和404状态代码
的
urls。 在handle_htt
浏览 6
提问于2016-09-29
得票数 5
1
回答
刮除表单请求不
返回
任何数据
python
、
web-scraping
、
scrapy
、
http-post
请求是成功
的
,但它没有
返回
任何数据。> (
referer
: https://safer.fmcsa.dot.gov/) 2020-09-05 22:37:57 [
scrapy
.core.engine] DEBUG: Crawled (20037:59 [
scrapy
.core.engine] DEBUG: Crawled (200) <POST https://safer.fmcsa.dot.gov/query.asp> (<e
浏览 4
提问于2020-09-05
得票数 0
回答已采纳
1
回答
刮破壳和刮痕没有收到403,但刮刮爬行工程。
python
、
scrapy
我正在刮一个需要
referer
的
网站。 '
Referer
': 'http://www.
referer
.com'当我在项目文件夹中尝试
scrapy
shell
url
时(其中一个文件夹有
scrapy
.cfg),这意味着它在settings.py文件中使用相同
的
设置,我可以看到
referer
在请求中
浏览 3
提问于2018-09-06
得票数 0
1
回答
Scrapy
-无法跟随特定链接或使用自定义处理程序进行分析
python
、
scrapy
、
scrapy-spider
我一直在使用
Scrapy
,并试图跟随示例,只跟随与某种正则表达式匹配
的
url
。目前,我只想使用一个自定义解析器
的
任何
URL
,其中包含‘朋友’。[
scrapy
.core.engine] DEBUG: Crawled (200) <GET http://q
浏览 0
提问于2017-07-30
得票数 0
回答已采纳
1
回答
在引用
url
时调用
Scrapy
- POST请求,而不是初始请求。
python
、
scrapy
、
web-crawler
robots.txt> (
referer
:> <POST http
scrapy
.http import FormRequest >>>
url
= 'http://www.australianschoolsdirectory.com.au/search-result.phpr = FormRequest
浏览 3
提问于2017-05-21
得票数 1
回答已采纳
2
回答
如何添加报头到抓取
的
CrawlSpider请求?
python
、
scrapy
我正在使用CrawlSpider类来抓取网站,我想修改在每个请求中发送
的
头部。具体地说,我想将引用添加到请求中。根据
的
说法,我检查了在我
的
响应中,解析函数和
Referer
头不存在。我假设这意味着
Referer
没有在请求中被提交(除非网站没有
返回
它,我不确定)。 我还不知道如何修改请求
的
头部。同样,我
的
爬行器是从CrawlS
浏览 2
提问于2013-01-09
得票数 10
回答已采纳
1
回答
使用JavaScript更新
的
刮伤和内容
python
、
python-2.7
、
scrapy
我想刮(头条新闻,日期,时间)一个本地音乐场地网站:我使用
scrapy
调用
url
来爬行,但是对于
scrapy
,响应是不
可读
的
(JavaScript?
未
渲染
的
多姆?
浏览 0
提问于2015-01-08
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
精辟,这应该是2018年最详细的python爬虫入门教程了!
Scrapy爬虫获取公开数据
爬虫框架Scrapy的第一个爬虫示例入门教程
盗链行为与 AWS 防盗链技术
Python爬虫入门,快速抓取大规模数据6
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券