Scrapy不会抓取url_用scrapy抓取url_Scrapy不会抓取整个网站 - 腾讯云开发者社区

python、scrapy

我正在试着做一个简单的抓取程序，从网站http://quotes.toscrape.com/抓取引文。输出应存储在html文件中。但是当我运行代码时，它不会输出任何东西。终端显示它抓取了0页Terminal output 这是以下代码。你能帮我吗?有点不对劲，谢谢 import scrapy name ="SimpleSpider" def

浏览 29提问于2020-09-05得票数 0

回答已采纳

3回答

Scrapy，仅遵循内部URLS，但提取找到的所有链接

python、scrapy、web-crawler、scrape、scrapy-spider

我想从一个给定的网站使用Scrapy获得所有外部链接。使用下面的代码，爬虫也会抓取外部链接：from scrapy.contrib.linkextractors'] = response.url我遗漏了什么？难道"allowed_domains“不能阻止外部链接被抓取吗？如果我将LinkExtractor设置为"all

浏览 0提问于2015-01-15得票数 16

回答已采纳

1回答

刮取规则不调用解析方法。

python、scrapy、scrapy-spider

我是新刮刮，并试图抓取一个域，跟踪所有内部链接，并用模式/示例/*抓取网址的标题。class BidItem(scrapy.Item): title = scrapy.Field()from sc

浏览 1提问于2018-11-22得票数 1

回答已采纳

2回答

当scrapy关闭时，它会忘记所有的urls。我想给scrapy一组网址，已抓取，当它是开始。如何向爬虫添加规则，让爬虫知道哪些urls被访问过？tags=('a', 'area'), attrs=('href'), canonicalize=True, unique=True, process_value=None) 只需使用parse告诉爬虫抓取哪个url即可。我如何告诉scrapy哪些urls不应该访问？

浏览 0提问于2012-11-28得票数 3

1回答

scrapy python CrawlSpider不爬行

python、scrapy、web-crawler

import scrapy from scrapy.linkextractors importMySpider(CrawlSpider): allowed_domains = ['example.com'] start_urls = [url_1, url_2, url_3]

浏览 11提问于2019-04-24得票数 0

2回答

抓取蜘蛛从链接中随机抓取数据为什么？

python、scrapy

首先，我从网站上抓取了所有的硬币链接，并要求那些链接。但是scrapy没有串行地请求从链接list.after请求这些链接抓取数据成功，但当保存到csv文件时，它使一个完整的抓取项目后每一次都是一个空行。我期待它将从链接列表中串行请求，它不会使任何空白row.how我能做到吗？我使用的是python 3.6和scrapy版本1.5.1import scrapy

浏览 3提问于2018-12-02得票数 0

3回答

Scrapy pause/resume是如何工作的？

scrapy

有人能给我解释一下Scrapy中的暂停/恢复功能是如何工作的吗？没有提供太多细节。我有以下简单的爬虫：name = 'sample' yield Request(urllst_id=1053') yield Request(url='https://colostate.t

浏览 0提问于2015-03-04得票数 8

1回答

如何确保在我的Scrapy爬行器中解析每个URL

python、beautifulsoup、scrapy、web-crawler

我尝试在美食博客上抓取食谱列表的每一页，抓取每一页上的食谱URL，然后将它们全部写入一个.txt文件。我已经添加了一个.log()来检查urls是否确实包含了我试图从其中抓取的所有正确的URL，当我在命令提示符中执行Scrapy时，我得到了以下确认： 2019-01-31 22:16:17 [recipes我当前的代码： import scrapy class QuotesSpider(scrapy

浏览 21提问于2019-02-01得票数 1

1回答

如何用Scrapy重新安排403响应页？

python、scrapy

偶尔，我在使用Scrapy2.4.1抓取页面时得到403个响应。<GET https://www.url...> (failed 5 times): 403 Forbidden 2021-02-06 01:44:17 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <403 https://www.url...>: HTTP status code is not han

浏览 3提问于2021-02-07得票数 0

1回答

Scrapy抓取了0个页面，无法下载pdf

python、web-scraping、scrapy

我是scrapy的新手。我正在尝试使用scrapy下载这个pdf。我不清楚为什么它不能工作。import scrapy name = "hawaii" file_urls = ["http://www2.hawaii.edu/~kinzie/documents/CV%

浏览 0提问于2015-11-19得票数 0

1回答

如何从多个页面中抓取项目？

python、scrapy

我正在尝试抓取#页的数据。我已经做了一个可以从一个页面抓取数据的抓取器。但它在刮掉第一页后突然完成了工作# -*- coding: utf-8 -*-import csvfrom scrapy.selector import Selector class Proddduct(scrapy.

浏览 11提问于2019-11-07得票数 1

1回答

Spider使用scrapy运行，但没有数据存储到csv中

scrapy

import scrapy name = 'test' nextp = response.css('li.next > a::attr(href)').(url=nextp, callb

浏览 84提问于2019-03-21得票数 0

1回答

抓取我们当前所在网页的url

python、web-scraping、scrapy

例如，如果我想从scrapy.org中抓取数据，那么我可以定义规则来提取数据和页面中提供的链接。但是，我可以把url scrapy.org本身作为一个url从那个网页上刮下来吗？由于我们当前所在的url将不会在html文件中提及，那么有什么方法可以这样做吗？我正试着从网页上抓取工作描述。我想知道我们是否也可以提取到该页面的超链接。

浏览 1提问于2014-02-20得票数 0

回答已采纳

1回答

并发发送HTTP请求

python、python-requests、python-multithreading

d_profile = "[" + ",".join(json.dumps(x) for x in chunk) + "]" try: r = requests.post(url) print r.content= "[" + &quo

浏览 12提问于2016-08-18得票数 1

5回答

Scrapy -如何识别已经抓取的urls

python、web-crawler、scrapy

我每天都在用scrapy抓取一个新闻网站。如何限制scrapy抓取已抓取的URL。此外，在SgmlLinkExtractor上是否有明确的文档或示例。

浏览 1提问于2010-10-06得票数 15

1回答

Scrapy -输出不显示

python、scrapy、web-crawler

大家早上好, 我在使用Scrapy时遇到了一个问题。这是我的蜘蛛： import scrapy name = "communes"in urls: yiel

浏览 22提问于2019-03-20得票数 0

回答已采纳

1回答

Python scrapy不会深入

python、scrapy

我使用的是Python2.7和Scrapy 1.0.4。下面的抓取在Shell中逐个测试并运行。然而，当我把它们放在一起时，似乎Scrapy在第一关之后不会更深入。import scrapy name = "trb"start_urls'------ crawling root dir ------'

浏览 1提问于2016-01-30得票数 1

9回答

BeautifulSoup和Scrapy* crawler有什么区别？*

python、beautifulsoup、scrapy、web-crawler

我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

2回答

为什么Scrapy跳过了一些URL而不是其他URL？

python、proxy、scrapy、amazon、middleware

我正在写一个抓取从亚马逊的衬衫上的信息抓取。爬虫开始在亚马逊页面上进行一些搜索，例如“有趣的衬衫”，并收集所有的结果项容器。然后，它解析每个结果项，收集衬衫上的数据。我使用ScraperAPI和Scrapy-user-agent来躲避亚马逊。api_key=mykeyd&url=https://www.amazon.com/s?items['product_score'] = product_score 爬行看起来像这样：我得到

浏览 0提问于2019-09-03得票数 0

1回答

名为Anchor和Miss的Python Scrapy* Skip*

python、screen-scraping、scrapy

当我从urllib2+bs4切换到Scrapy时，我注意到Scrapy在默认设置中“巧妙地处理”了一些问题。我不太确定我是否正确，如果我错了，请纠正我。(1)默认情况下，Scrapy不会抓取重复URL，那么什么是重复URL？我注意到在Scrapy抓取的网址中，没有，例如，他们对待下面的链接是一样的。www.abc.com/page1www.abc.com/pa

浏览 3提问于2013-09-21得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云