如何使用Scrapy Python从重定向链接中提取网站URL

文章/答案/技术大牛

发布

2回答

、、

我写了一个从网站获取数据的脚本。由于@href是重定向链接，我在收集网站URL时遇到了问题。如何将重定向URL转换为它要重定向到的实际网站？import scrapy name = 'app' allowed_domains =//

浏览 25提问于2020-04-05得票数 0

回答已采纳

1回答

刮破壳和刮痕没有收到403，但刮刮爬行工程。

、

我正在刮一个需要referer的网站。 'Referer': 'http://www.referer.com'当我在项目文件夹中尝试scrapy shell url时(其中一个文件夹有scrapy.cfg)，这意味着它在settings.py文件中使用相同的设置，我可以看到referer在请求中，但是我得到了一个403响应。<em

浏览 3提问于2018-09-06得票数 0

1回答

AttributeError：“选择器”对象没有属性'find‘(Scrapy)

、

我得到的擦伤错误是： File "/anaconda/lib/python2.7/u

浏览 7提问于2017-11-11得票数 1

1回答

如何从Square URL重定向Oauth响应

、、、

我正在建设一个使用正方形OAuth系统的Django网站。如何访问从重定向接收到的url中提供给我的代码？

浏览 5提问于2022-06-02得票数 0

2回答

如何从XML页面中提取urls，加载它们并使用提取其中的信息？

、、

我使用Scrapy的XMLfeedspider从页面xml中提取信息。我试图只提取标签"loc“中该页上的链接，并加载它们，但阻止页面重定向，然后将其发送到将从该页收集信息的最后一个解析节点。问题是，我不确定是否可以在"def star_urls“上加载这些页面，或者是否需要使用parse_node并将其重定向到另一个解析以提取我需要的信息，但是即使我尝试了，也不知道如何从xml

浏览 2提问于2017-07-20得票数 1

回答已采纳

2回答

OAuth 2.0重定向URL从何而来？

、、、

我目前正在尝试使用LinkedIn REST。我正在使用C#，我一直在使用OAuth。

浏览 2提问于2014-12-09得票数 2

回答已采纳

1回答

如何在Scrapy start_url中找到当前的CrawlSpider？

、、、

当从自己的脚本运行Scrapy (从DB加载URL并遵循这些网站上的所有内部链接)时，我会遇到一个小问题。我需要知道当前使用的是哪个start_url，因为我必须保持与数据库(SQL )的一致性。但是:当Scrapy使用名为“start_urls”的内置列表来接收要跟踪的链接列表时，这些网站就会立即重定向，就会出现问题。例如，当Scrapy启动并且start_urls正在被爬行，并

浏览 1提问于2018-09-10得票数 2

回答已采纳

1回答

让webcrawler --不会进入我的for循环

、

下面是我的代码：while year <= max_years: source_code = requests.get(url

浏览 0提问于2015-12-11得票数 0

2回答

编写规则以从div获取字符串以在链接中使用

、、

我正试图在亚马逊上构建一条关于“与此项目相关的赞助产品”的规则，但是，每个产品的ASIN都嵌入到xpath //ol/li/div/@data-asin中，我希望从其中生成以下链接格式f"https://www.amazon.com/dp/{ASIN} (对于与此项目相关的赞助产品中的每一项) scrapy shell https://www.amazon.com/gp/product

浏览 0提问于2019-07-25得票数 0

回答已采纳

1回答

当webview离开我的网站时如何打开新的意图

、、、

我正在使用webview在Android Studio中为我的网站制作一个带有Java的Android应用程序，但我有很多从网站出来的链接。如何检测链接是否从重定向到并在另一个页面意图中打开它？

浏览 3提问于2020-12-10得票数 0

1回答

用Scrapy从文本文件中从多个URL中抓取所有外部链接

、、、、

我对Scrapy和Python很陌生，因此我是个初学者。我希望能够让Scrapy读取一个包含大约100 k URL的种子列表的文本文件，让Scrapy访问每个URL，并提取每个种子URL上的所有外部URL(其他站点的URL)，并将结果导出到一个单独的文本文件中Scrapy只应该访问文本文件中的URL，而不是爬行并跟踪任何其他URL</em

浏览 0提问于2016-08-28得票数 1

回答已采纳

1回答

更改发帖日期的URL重定向- Wordpress

、、、

我更新了帖子中的日期。但是旧的URL已经在病毒中传播了，人们最终在一个死胡同的链接中找不到页面。我尝试使用简单的301重定向Wordpress插件和Permalink重定向WordPress插件。我想从重定向到此外，我所有的移动应用程序都同步到网站。我不希望他们因为这种重定向而受到影响。

浏览 3提问于2014-03-03得票数 2

回答已采纳

1回答

使用中间件忽略Scrapy中的重复

、

我是Python的初学者，我正在使用Scrapy进行一个个人网络项目。class DuplicatesPipline(object): def process_item(self, item, spider):我发现在Scrapy中使用

浏览 2提问于2014-04-09得票数 10

回答已采纳

3回答

Scrapy，仅遵循内部URLS，但提取找到的所有链接

、、、、

我想从一个给定的网站使用Scrapy获得所有外部链接。使用下面的代码，爬虫也会抓取外部链接：from scrapy.contrib.linkextractors'] = response.url我遗漏了什么？难道"allowed_domains“不能阻止外部链接</e

浏览 0提问于2015-01-15得票数 16

回答已采纳

2回答

无法强制scrapy使用重定向的url进行回调。

、、、、

我已经使用scrapy创建了一个python脚本来抓取某个网页中的一些信息。问题是我正在尝试的链接经常被重定向。然而，当我使用请求尝试几次时，我得到了想要的内容。在scrapy的情况下，我无法重用链接，因为我发现无论我尝试多少次，它都会重定向。我甚至可以使用在parse方法中反复使用的response.meta.get("redirect_urls&qu

浏览 0提问于2019-12-14得票数 1

2回答

如何抓取一个网站只给定域网址与scrapy

、、、

我正在尝试使用scrapy抓取一个网站，但网站没有网站地图或页面索引。如何使用scrapy抓取网站的所有页面？我只需要下载网站的所有页面，而不提取任何项目。我只需要在蜘蛛规则中设置关注所有链接吗？但我不知道scrapy是否会以这种方式避免复制urls。

浏览 0提问于2013-01-06得票数 5

回答已采纳

1回答

使用scrapy进行网络抓取:空结果

、、

我正在学习如何使用scrappy，我想从这个中提取一些youtube视频链接。我写了这个脚本来提取链接从网站到一个json文件。import scrapy name = 'wbScraper' start_urls = ['https://research.google.com/audioset&

浏览 12提问于2020-03-06得票数 1

1回答

张贴请求与刮刮不正确地重定向？

、、、

我正在尝试使用scrapy从中提取一些数据。我有一些地址，我想从网站中提取与每个地址相关联的信息，所以我需要通过这个urls “按地址搜索”。我试着用8433作为街道号，LAKEVIEW作为街道名，站点将我重定向到这个网址：，这是我想要的。但是，正如您所看到的，我用于搜索的信息并不在结果的url中。我和检验员核对了这一页，得到了这样的信息：因此，我使用scrapy完成了一个post请求，并传递了如下参数：

浏览 1提问于2017-02-16得票数 0

回答已采纳

3回答

将变量从一个站点传递到另一个站点

、、、

在站点A上，我有一个重定向到站点B的链接(从属类型链接)。单击站点A上的链接时，我使用此脚本重定向。$url);URL就是站点的"A“$url。我不明白的是，如何将变量从重定向脚本传递到站点B，而不在URL本身中使用查询字符串(例如，http://www.siteB.com/?但在网站

浏览 2提问于2010-08-19得票数 0

回答已采纳

1回答

Python Scrapy点击html按钮

、、

我是个新手，使用scrapy和python2.7来实现web自动化。我想在打开登录表单的网站上点击一个html按钮。我的问题是，我只想点击一个按钮，并将控制转移到新页面。div class="pull-left">我已经为提取<em

浏览 20提问于2018-07-05得票数 0

点击加载更多