腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
如何
使用
Scrapy
Python
从重
定向
链接
中
提取
网站
URL
、
、
我写了一个从
网站
获取数据的脚本。由于@href是重
定向
链接
,我在收集
网站
URL
时遇到了问题。
如何
将重
定向
URL
转换为它要重
定向
到的实际
网站
?import
scrapy
name = 'app' allowed_domains =//
浏览 25
提问于2020-04-05
得票数 0
回答已采纳
1
回答
刮破壳和刮痕没有收到403,但刮刮爬行工程。
、
我正在刮一个需要referer的
网站
。 'Referer': 'http://www.referer.com'当我在项目文件夹
中
尝试
scrapy
shell
url
时(其中一个文件夹有
scrapy
.cfg),这意味着它在settings.py文件中
使用
相同的设置,我可以看到referer在请求
中
,但是我得到了一个403响应。<em
浏览 3
提问于2018-09-06
得票数 0
1
回答
AttributeError:“选择器”对象没有属性'find‘(
Scrapy
)
、
我得到的擦伤错误是: File "/anaconda/lib/
python
2.7/u
浏览 7
提问于2017-11-11
得票数 1
1
回答
如何
从Square
URL
重
定向
Oauth响应
、
、
、
我正在建设一个
使用
正方形OAuth系统的Django
网站
。
如何
访问
从重
定向
接收到的
url
中提供给我的代码?
浏览 5
提问于2022-06-02
得票数 0
2
回答
如何
从XML页面中
提取
urls,加载它们并
使用
提取
其中的信息?
、
、
我
使用
Scrapy
的XMLfeedspider从页面xml中
提取
信息。我试图只
提取
标签"loc“
中
该页上的
链接
,并加载它们,但阻止页面重
定向
,然后将其发送到将从该页收集信息的最后一个解析节点。问题是,我不确定是否可以在"def star_urls“上加载这些页面,或者是否需要
使用
parse_node并将其重
定向
到另一个解析以
提取
我需要的信息,但是即使我尝试了,也不知道
如何
从xml
浏览 2
提问于2017-07-20
得票数 1
回答已采纳
2
回答
OAuth 2.0重
定向
URL
从何而来?
、
、
、
我目前正在尝试
使用
LinkedIn REST。我正在
使用
C#,我一直在
使用
OAuth。
浏览 2
提问于2014-12-09
得票数 2
回答已采纳
1
回答
如何
在
Scrapy
start_
url
中找到当前的CrawlSpider?
、
、
、
当从自己的脚本运行
Scrapy
(从DB加载
URL
并遵循这些
网站
上的所有内部
链接
)时,我会遇到一个小问题。我需要知道当前
使用
的是哪个start_
url
,因为我必须保持与数据库(SQL )的一致性。但是:当
Scrapy
使用
名为“start_urls”的内置列表来接收要跟踪的
链接
列表时,这些
网站
就会立即重
定向
,就会出现问题。例如,当
Scrapy
启动并且start_urls正在被爬行,并
浏览 1
提问于2018-09-10
得票数 2
回答已采纳
1
回答
让webcrawler --不会进入我的for循环
、
下面是我的代码:while year <= max_years: source_code = requests.get(
url
浏览 0
提问于2015-12-11
得票数 0
2
回答
编写规则以从div获取字符串以在
链接
中
使用
、
、
我正试图在亚马逊上构建一条关于“与此项目相关的赞助产品”的规则,但是,每个产品的ASIN都嵌入到xpath //ol/li/div/@data-asin
中
,我希望从其中生成以下
链接
格式f"https://www.amazon.com/dp/{ASIN} (对于与此项目相关的赞助产品
中
的每一项)
scrapy
shell https://www.amazon.com/gp/product
浏览 0
提问于2019-07-25
得票数 0
回答已采纳
1
回答
当webview离开我的
网站
时
如何
打开新的意图
、
、
、
我正在
使用
webview在Android Studio
中
为我的
网站
制作一个带有Java的Android应用程序,但我有很多从
网站
出来的
链接
。
如何
检测
链接
是否
从重
定向
到并在另一个页面意图中打开它?
浏览 3
提问于2020-12-10
得票数 0
1
回答
用
Scrapy
从文本文件
中
从多个
URL
中
抓取所有外部
链接
、
、
、
、
我对
Scrapy
和
Python
很陌生,因此我是个初学者。我希望能够让
Scrapy
读取一个包含大约100 k
URL
的种子列表的文本文件,让
Scrapy
访问每个
URL
,并
提取
每个种子
URL
上的所有外部
URL
(其他站点的
URL
),并将结果导出到一个单独的文本文件
中
Scrapy
只应该访问文本文件
中
的
URL
,而不是爬行并跟踪任何其他
URL</em
浏览 0
提问于2016-08-28
得票数 1
回答已采纳
1
回答
更改发帖日期的
URL
重
定向
- Wordpress
、
、
、
我更新了帖子
中
的日期。但是旧的
URL
已经在病毒
中
传播了,人们最终在一个死胡同的
链接
中
找不到页面。我尝试
使用
简单的301重
定向
Wordpress插件和Permalink重
定向
WordPress插件。我想
从重
定向
到 此外,我所有的移动应用程序都同步到
网站
。我不希望他们因为这种重
定向
而受到影响。
浏览 3
提问于2014-03-03
得票数 2
回答已采纳
1
回答
使用
中间件忽略
Scrapy
中
的重复
、
我是
Python
的初学者,我正在
使用
Scrapy
进行一个个人网络项目。class DuplicatesPipline(object): def process_item(self, item, spider):我发现在
Scrapy
中
使用
浏览 2
提问于2014-04-09
得票数 10
回答已采纳
3
回答
Scrapy
,仅遵循内部URLS,但
提取
找到的所有
链接
、
、
、
、
我想从一个给定的
网站
使用
Scrapy
获得所有外部
链接
。
使用
下面的代码,爬虫也会抓取外部
链接
:from
scrapy
.contrib.linkextractors'] = response.
url
我遗漏了什么?难道"allowed_domains“不能阻止外部
链接</e
浏览 0
提问于2015-01-15
得票数 16
回答已采纳
2
回答
无法强制
scrapy
使用
重
定向
的
url
进行回调。
、
、
、
、
我已经
使用
scrapy
创建了一个
python
脚本来抓取某个网页
中
的一些信息。问题是我正在尝试的
链接
经常被重
定向
。然而,当我
使用
请求尝试几次时,我得到了想要的内容。在
scrapy
的情况下,我无法重用
链接
,因为我发现无论我尝试多少次,它都会重
定向
。我甚至可以
使用
在parse方法
中
反复
使用
的response.meta.get("redirect_urls&qu
浏览 0
提问于2019-12-14
得票数 1
2
回答
如何
抓取一个
网站
只给定域网址与
scrapy
、
、
、
我正在尝试
使用
scrapy
抓取一个
网站
,但
网站
没有
网站
地图或页面索引。
如何
使用
scrapy
抓取
网站
的所有页面? 我只需要下载
网站
的所有页面,而不
提取
任何项目。我只需要在蜘蛛规则
中
设置关注所有
链接
吗?但我不知道
scrapy
是否会以这种方式避免复制urls。
浏览 0
提问于2013-01-06
得票数 5
回答已采纳
1
回答
使用
scrapy
进行网络抓取:空结果
、
、
我正在学习
如何
使用
scrappy,我想从这个中
提取
一些youtube视频
链接
。我写了这个脚本来
提取
链接
从
网站
到一个json文件。import
scrapy
name = 'wbScraper' start_urls = ['https://research.google.com/audioset&
浏览 12
提问于2020-03-06
得票数 1
1
回答
张贴请求与刮刮不正确地重
定向
?
、
、
、
我正在尝试
使用
scrapy
从中
提取
一些数据。我有一些地址,我想从
网站
中
提取
与每个地址相关联的信息,所以我需要通过这个urls “按地址搜索”。我试着用8433作为街道号,LAKEVIEW作为街道名,站点将我重
定向
到这个网址:,这是我想要的。但是,正如您所看到的,我用于搜索的信息并不在结果的
url
中
。我和检验员核对了这一页,得到了这样的信息:因此,我
使用
scrapy
完成了一个post请求,并传递了如下参数:
浏览 1
提问于2017-02-16
得票数 0
回答已采纳
3
回答
将变量从一个站点传递到另一个站点
、
、
、
在站点A上,我有一个重
定向
到站点B的
链接
(从属类型
链接
)。单击站点A上的
链接
时,我
使用
此脚本重
定向
。$
url
);
URL
就是站点的"A“$
url
。我不明白的是,
如何
将变量
从重
定向
脚本传递到站点B,而不在
URL
本身中
使用
查询字符串(例如,http://www.siteB.com/?但在
网站
浏览 2
提问于2010-08-19
得票数 0
回答已采纳
1
回答
Python
Scrapy
点击html按钮
、
、
我是个新手,
使用
scrapy
和
python
2.7来实现web自动化。我想在打开登录表单的
网站
上点击一个html按钮。我的问题是,我只想点击一个按钮,并将控制转移到新页面。div class="pull-left">我已经为
提取
<em
浏览 20
提问于2018-07-05
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券