Scrapy不会生成DNS查找失败网站的网站urls_使用scrapy查找网站抓取中重复的urls计数 - 腾讯云开发者社区

、

我有一个url列表，它被重定向到文本文件中的另一个url。我想得到所有重定向的urls.So我做了一个蜘蛛，打开一个文本文件的网址。现在我收到一些错误，如"DNS查找失败“或”没有路由“。然而，我希望抓取每个重定向的网址，而不管错误。有什么解决方案可以实现这一点吗？这是我跑过的蜘蛛 import scrapy class AwesomeSpiderSpider(scrapy.Spider

浏览 124提问于2019-07-04得票数 1

回答已采纳

1回答

抓取"DNS查找失败“的网站

、、、、

我试图使用Scrapy获得所有的网站上的"DNS查找失败“的链接。问题是，每个没有任何错误的网站都会被打印在parse_obj方法上，但是当url返回DNS查找失败时，回调parse_obj就不会调用。我想得到所有的域与错误的"DNS查找失败的“，我怎么

浏览 2提问于2016-03-08得票数 4

回答已采纳

2回答

从网站获取子URL

、、、

我想知道是否有可能列出一个网站的网址。这些URL是托管zip文件的URL，如果您提供了正确的URL，则会下载这些文件。如果没有，您将被定向到404页面。https://myexample.net/，我对https://myexample.net/wp-content/uploads/2018/04/[do not have a pattern].zip下的文件感兴趣此外，我检查了https:/&#

浏览 1提问于2018-04-03得票数 0

1回答

在解析许多网站时，如果找到数据，如何使Scrapy停止在for循环中生成请求，然后移动到下一个网站

、、

所以，我正在解析来自许多网站的电子邮件我从头版和联系人部分(“kont”或“cont”在hrefs中)获取它们，在头版可能有许多与“kont”或“cont”的链接，我不想在"for“循环中访问所有这些链接当数据在其中一个链接中找到时，我希望该程序转到另一个网站(email_list_2 != [])。怎么做？2)

浏览 1提问于2020-07-03得票数 0

回答已采纳

2回答

性能改善和内存消耗

、、

服务器 import scrapy def get_<em

浏览 4提问于2016-08-26得票数 1

回答已采纳

2回答

为什么我的列表特别是列表的最后一项没有经过迭代(或者在输出中看不到)？

我(一个Newb)试图迭代一个很长的列表，但是我写的函数不会迭代整个列表，为什么？import loggingimport pandas as pdimport scrapy from scrapy.crawler importCrawlerProcess

浏览 0提问于2019-07-19得票数 1

1回答

Scrapy无法登录

、、、、

我不能登录这个网站。网站不包含任何标记或隐藏变量。请正确的例子或告诉我如何解决这个错误。在post调用之后，它返回相同的登录页面html。我已经尝试了错误的用户名和密码仍然是相同的反应。import scrapy name = 'example' start_urls = ['http://sch

浏览 14提问于2018-02-27得票数 0

2回答

通过CSS查询提取特定数据不起作用

、、

我正在尝试实现一个超级简单的刮板，从一个网站上刮起公寓价格和面积。我使用Python + scrapy来实现这一点，并且只有一个问题:当返回为响应和包含的所有内容(div、span等)时，该部分似乎是空的。也不能通过CSS查询来解决。这是一个网站：import scrapy class Brandon251Spider(scrapy

浏览 0提问于2018-10-02得票数 0

回答已采纳

2回答

如何解决scrapy中的403错误

、

我是scrapy的新手，我做了一个废弃数据的scrapy项目。我正在尝试从网站上抓取数据，但我得到了以下错误日志[]2016-08-29 13:55:03 [scrapy] INFO: Crawled 0 pages (at 0 pag

浏览 38提问于2016-08-29得票数 10

回答已采纳

1回答

登录使用Scrapy不工作

、、、

我试图登录到网站使用刮伤。我以一个网站为例检查了一下。它正在为那个网站工作。然后我又找了个地方查了一下。不起作用。我只是更改了urls并运行代码。但不起作用。会有什么问题？# -*- coding: utf-8 -*-from scrapy.http import FormRequest start_urls

浏览 2提问于2017-11-12得票数 0

回答已采纳

1回答

TypeError：“_csv.reader”对象不可调用

、、

你好，我是一个相对的初学者，我正在抓取一个网站。我想使用csv文件中的urls来抓取一个网站，但我在这方面做得很失败。每次我执行爬行器时都会出现这个错误：'_csv.reader‘TypeError is not callable l = open('/home/ubuntu/Desktop/rando

浏览 0提问于2018-08-31得票数 0

1回答

从“点击”链接中收集文本？

、、

我想收集的链接，scrapy“点击”在网站上的文本。日志：2017-01-17 22:14:01 [dns_db] INFO: ## Parsing URL就可以在网站上导航。编辑# -*- coding: utf-8 -*-fro

浏览 4提问于2017-01-17得票数 0

1回答

在爬行Scrapy之前检查URL是否存在于文件中

、

我想使用Scrapy来抓取网站的数据。每个页面内容中都有一个元素，它是一个URL。import scrapyimport uuidfrom scrapy</em

浏览 0提问于2019-03-10得票数 1

2回答

通过代理使用TLSv1.0实现刮擦握手失败

、、、、

我目前正在努力开发一个网站爬虫使用Scrapy刮刮一个网站，是无法访问以外的我的公司。问题是我必须通过一个代理，我成功了，并且能够在"“上运行我的蜘蛛。问题是，我应该运行它的网站使用TLS 1.0，我尝试了几种不起作用的解决方案：import scrapy from w3lib.http import basic_auth_headerclass QuotesSpider(scra

浏览 0提问于2018-09-26得票数 0

1回答

将连接状态写入csv

、、

我使用一个蜘蛛从一个列表中抓取许多网站。我按需要工作，但现在我还想获得连接状态。当运行爬虫时，我看到一些404，一些301或一些DNS错误。如何获取我的csv的连接状态？import scrapy name = 'myspider' f = open("random.csv")start_urls = [url.strip() for url i

浏览 22提问于2020-01-08得票数 0

2回答

Scrapy‘知道’什么时候它爬行了整个网站？

、、、

当我在一个网站的单个页面上爬行时，我已经成功地使用了“美丽汤”，但是我有一个新的项目，在这个项目中，我必须检查一个大的网站列表，看看它们是否包含一个提到或链接到我的网站。因此，我需要检查每个网站的整个网站。对于BS，我只是还不知道如何告诉我的刮板，它是用一个站点完成的，所以我达到了递归限制。是从盒子里拿出来的什么东西吗？

浏览 0提问于2017-09-12得票数 1

回答已采纳

1回答

如何让Scrapy的SitemapSpider在深度大于1的情况下爬行？

、、

我正在尝试使用Scrapy来记录网站内发生的每个链接。我使用的是SitemapSpider，但查看生成的CSV显示，爬行器从未获得超过1的深度-我希望它跟踪它遇到的每个链接，并从这些链接中抓取链接。(此外，"other_urls“的规定似乎没有效果--该URL的结果不会显示在CSV中。)import scrapy from tutorial.items

浏览 0提问于2016-02-23得票数 0

1回答

scrapy python CrawlSpider不爬行

、、

import scrapy from scrapy.linkextractors importclass MySpider(CrawlSpider): allowed_domains = ['example.com'] start_urls'*//a/@href'

浏览 11提问于2019-04-24得票数 0

1回答

如何使用Scrapy解析PDF？

、、、

我想下载在一个网站上找到的所有PDF，例如。我也试图使用规则，但我认为这不是必要的。这是我的方法：from scrapy.linkextractors import IGNORED_EXTENSIONSCUSTOM_IGNORED_EXTENSIONS.remove('pdf') class PDFParser(scrap

浏览 8提问于2022-02-08得票数 0

回答已采纳

2回答

dns查找的理想超时时间

在我的rails应用程序中，我使用ruby库resolv执行了一个nslookup。如果像dgdfgdfgdfg.com这样的网站进入，它的对话太长了，无法解决。在某些情况下，比如20秒(主要是对于不存在的站点)，因为它会导致应用程序速度变慢。因此，我想为dns查找引入一个超时期限。什么是dns查找的理想超时时间，以便实际站点的解析不会失败。

浏览 1提问于2010-06-14得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云