Scrapy找不到自定义函数_Scrapy自定义函数无法触发scrapy.Requests_找不到Scrapy - Spider - 腾讯云开发者社区

、、

我实现了自己的ProxyMiddleware类和RotateUserAgentMiddleware类。并对settings.py进行了必要的改变。现在，问题是如何将值赋值给DOWNLOADER_MIDDLEWARES列表中的新元素。我的代码与我给出的值不正常，有人能建议我分配值的正确方法吗？这是我的清单： DOWNLOADER_MIDDLEWARES = { 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': None, 'IpRotatio

浏览 0提问于2015-10-12得票数 1

回答已采纳

1回答

如何在Scrapy中创建自定义ResponseType？

、

我对在我的项目中添加一个自定义的ResponseType来扩展Scrapy很感兴趣。现在，我想添加一个PDF类型，它将使用PDFMiner返回文档的纯文本和结构(包括链接)。我可能希望稍后添加其他文档类型。从mime类型到响应类的映射看起来发生在中--特别是ResponseTypes中的CLASSES字典。然而，目前还不清楚是否/如何使用自定义响应类覆盖它。该文件末尾的responsetypes变量在其他几个地方被直接引用，我在Scrapy项目设置中看不到任何对该类的引用。此外，我在Scrapy文档中找不到任何关于如何做到这一点的内容。当然，我可以派生Scrapy并使用自己定义的自定义类版

浏览 0提问于2019-09-25得票数 0

1回答

Scrapy的JSON输出形成一个JSON对象数组

、、、

我正在尝试用Scrapy抓取一个游戏信息网站。抓取过程是这样的:抓取类别->抓取游戏列表(每个类别有多个页面) ->抓取游戏信息。抓取的信息应该放到一个json文件中。我得到了以下结果： [ {"category": "cat1", "games": [...]}, {"category": "cat2", "games": [...]}, ... ] 但是我想要得到这样的结果： { "categories": [ {&#

浏览 26提问于2021-02-09得票数 0

1回答

如何从pipelines.py访问蜘蛛类中的变量参数

、、、

我有3个蜘蛛文件和类。并将项目信息保存在csv文件中，该文件具有不同的文件名、被告、查询条件的可变参数。为此，我需要访问蜘蛛类参数。所以我的问题是三个。如何访问蜘蛛类的参数？制作每个csv文件的最佳方法是什么？触发条件是在解析函数处调用请求，以获得新的搜索结果。 logger = logging.getLogger(__name__) --它不在pipelines.py里工作--我怎么能打印这些信息？贝娄是我的日志代码风格 logger.log(logging.INFO,'\n======= %s ========\n', filename) 我已经

浏览 3提问于2019-05-21得票数 0

1回答

刮痕爬行不爬行任何网址

、

这是我的第一个蜘蛛密码。当我在cmd中执行这段代码时。日志显示urls甚至没有被爬行，并且其中没有调试消息。在任何地方都找不到解决这个问题的办法。我不明白是怎么回事。有人能帮我做这个吗。我的代码： import scrapy class QuotesSpider(scrapy.Spider): name = "quotes_spider" def start_request(self): urls = ["http://quotes.toscrape.com/page/1/", "h

浏览 1提问于2021-06-19得票数 1

回答已采纳

1回答

scrapy imagepipline:创建的简单示例，运行/测试它的命令是什么

、、

我按照这个文档使用scrapy下载图片。具体地说，我会使用这个test.py： from scrapy.contrib.pipeline.images import ImagesPipeline from scrapy.exceptions import DropItem from scrapy.http import Request from My.items import ImageItem item = ImageItem() item['image_urls'] = ['http://url/123.jpg'] class MySpider(Im

浏览 0提问于2012-02-20得票数 0

1回答

刮擦-飞溅过滤器如何复制？

、

当使用scrapy-splash库来呈现JS时。我们将其自定义DUPEFILTER_CLASS添加到settings.py文件中。 DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter' 似乎这是用来过滤请求，以避免发送太多的请求和加快进程。但是，在使用scrapy-splash？时过滤请求的基础是什么？是url吗？

浏览 2提问于2020-12-18得票数 1

1回答

Scrapy - "scrapy爬行“捕获内部异常，并将它们隐藏在Jenkins的"catch”子句中。

、、

我每天通过詹金斯运行scrapy，我希望通过电子邮件将例外情况发送给我。这是一个例子蜘蛛： class ExceptionTestSpider(Spider): name = 'exception_test' start_urls = ['http://google.com'] def parse(self, response): raise Exception 这是.Jenkinsfile #!/usr/bin/env groovy try { node ('jenkins-small-py3.6&

浏览 0提问于2019-08-22得票数 2

回答已采纳

2回答

调试由FormRequest.from_response发送的标头

、、

Scrapy有很好的调试功能。但是我找不到方法来调试FormRequest.from_response发送的头部、get、post参数有没有办法，让我看看那些帖子的数据？我特别关注它是否从隐藏字段发送值。

浏览 3提问于2014-06-16得票数 3

1回答

如何处理请求的回调函数结果？

、、、

任何人都可以解释如何使用scrapy调用和处理请求的回调函数的结果？我理解scrapy可以接受对象的结果(请求、BaseItem、None)或对象的Iterable。例如： 1.返回对象(请求或BaseItem或无) def parse(self, response): ... return scrapy.Request(...) 2.返回对象的可迭代性 def parse(self, response): ... for url in self.urls: yield scrapy.Request(...) 我在想，在刮刮码的某个地方，它们是

浏览 0提问于2014-12-27得票数 2

回答已采纳

2回答

剪贴式项目更改列名

、、

有没有办法在csv输出中更改列名，例如，我有这样的scrapy项： import scrapy class Myitems(scrapy.Item): recordi = scrapy.Field() 在我的爬虫脚本中，我使用了： item['recordi'] = .... 我使用scrapy命令 scrapy crawl myspider -o data.csv 并且data.csv中的列名也是recordi，所以我的问题是，我可以更改列名吗? scapy.Field()是否有任何参数，我可以在其中定义列名，如果它保留recordi字段名，但列名应该是recor

浏览 16提问于2021-10-21得票数 1

1回答

Scrapy 1.0 -从python脚本运行后获取返回值

、、

我使用以下代码从python脚本运行我的爬虫程序： import scrapy from scrapy.crawler import CrawlerProcess process = CrawlerProcess() process.crawl(MySpider) process.start() # the script will block here until the crawling is finished 我的MySpider返回一个对象。如何从中获取返回值？请记住这是Scrapy 1.0。我找到的所有示例都是针对旧版本的Scrapy。上面的代码来自：

浏览 0提问于2015-07-12得票数 2

3回答

覆盖scrapy.spider的init方法的风险是什么？

、

在一些堆栈溢出问题中，我看到了一些公认的答案，其中scrapy.spider超类的__init__方法被用户定义的爬行器覆盖。例如：。我的问题是，这样做的风险是什么？超类的__init__如下所示： class Spider(object_ref): """Base class for scrapy spiders. All spiders must inherit from this class. """ name = None custom_settings = None def __in

浏览 50提问于2020-05-20得票数 0

回答已采纳

2回答

在哪里放置params请求url在刮伤请求中

、

我有一个参数元组，我必须在scrapy中传递我的请求，但是我找不到在scrapy.Request或response.follow中带有params的任何参数。我该把这个放在哪里？ params = ( ('search_criteria[current_page]', '1'), ('search_criteria[excludeAggregations]', 'false'), ('search_criteria[filter_groups][0][

浏览 0提问于2019-09-01得票数 0

1回答

不能爬行

、、

我试图抓取一些网站使用刮刮。下面是一个示例代码。方法解析没有被调用。我试图通过一个反应堆服务运行代码(代码提供)。所以，我从有反应堆的startCrawling.py运行它。我知道我错过了什么。你能帮帮忙吗。谢谢, Code-categorization.py from scrapy.contrib.spiders.init import InitSpider from scrapy.http import Request, FormRequest from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from s

浏览 0提问于2014-12-03得票数 0

回答已采纳

1回答

用Scrapy [Python]爬行相对URL

、、

我是SEO专家，不太喜欢编码。但是想要尝试用Scrapy模块在Python中创建一个坏链接检查器，它将爬行我的网站，并向我展示404代码的所有内部链接。到目前为止，我已经成功地编写了以下代码： import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from crawler.items import Broken class Spider(CrawlSpider): name

浏览 0提问于2021-01-19得票数 1

回答已采纳

1回答

从scrapy.middleware和scrapy.crawler删除信息日志

、、、

有没有人知道是否有办法为scrapy的模块设置不同的级别？我希望记录被刮掉的项和日志文件中发送的请求，但是来自scrapy.middleware、scrapy.crawler和scrapy.utils.log模块的日志总是相同的，并且不会给日志文件增加值。我最大的限制是，除了蜘蛛(在管道、settings.py文件等)之外，我必须做任何事情。我有200多个蜘蛛，不可能为每个蜘蛛添加代码。 Scrapy的文档说，可以修改中特定记录器的级别，但是当在settings.py文件中设置这个级别时，它似乎无法工作。我的猜测是，scrapy.middleware和scrapy.crawler的日志是在蜘

浏览 1提问于2022-10-12得票数 1

回答已采纳

2回答

使用scrapy查询数据库中的PDF，然后下载它们

、、

我刚接触scrapy和python，所以请记住:) 我正在做一项研究，我需要从政府网站上下载大量公开可用的PDF文档。问题是，大约有11000页的搜索结果，每个页面都有10个PDFS。我想要做的是使用scrapy编写一个脚本： 1)将预定义的搜索参数(例如，关键字、企业名称、起始日期、截止日期等)传递到站点上的文档搜索引擎2)运行搜索查询并获得结果3)自动下载作为查询结果显示的所有PDF(而不仅仅是结果的第一页)到我的机器/将它们上传到google驱动器有什么我可以使用的建议吗？我还没有找到任何可以做到这一点的东西--任何帮助都会非常感谢，这是为了一个非常好的原因！这就是我到目前为止所

浏览 34提问于2020-01-25得票数 0

1回答

Scrapy不下载图片

我正在尝试通过scrapy从不同的网址下载图片。我是python和scrapy的新手，所以我可能遗漏了一些明显的东西。这是我关于堆栈溢出的第一篇文章。如果能帮上忙，我会很感激的！以下是我的不同文件： items.py # -*- coding: utf-8 -*- import scrapy class PicscrapyItem(scrapy.Item): image_urls = scrapy.Field() images = scrapy.Field() pipelines.py class PicscrapyPipeline(ImagesPipeline): def get_medi

浏览 4提问于2017-07-11得票数 2

1回答

从剪贴画中提取.json文件到精确的格式，以便与Tipue搜索一起使用

、、、

我只是Python和Scrapy的新手，所以请耐心听我说。我正在我的网站中使用Tipuesearch，我需要从Scrapy中提取某些.json格式的抓取数据来进行搜索。json文件应如下所示： {"pages": [ {"title": "x", "text": "x", "tags": "x", "url": "x"}, {"title": "x", "text": "x"

浏览 0提问于2018-04-03得票数 1

1回答

如何确定Scrapy项目加载器实现中的错误？

、、、、

我正在尝试一个使用Scrapy框架的抓取项目，该项目需要(我认为)使用项目加载器进行一些处理。在一无所获之后，我决定尝试重构Scrapy 来缩小我的问题范围，我得到了同样的错误。我相当确定我在实际项目和这里的项目加载器上犯了一个错误。 items.py： def clean_text(value): return value.strip() class QuoteItem(Item): text = scrapy.Field() author = scrapy.Field() tags = scrapy.Field() class QuoteLoader(

浏览 0提问于2018-11-05得票数 0

2回答

如何在scrapy中指定日志文件名与爬行器的名称？

、

我正在使用scrapy，在我的scrapy项目中，我创建了几个爬行器类，正如官方文档所说，我使用这种方式来指定日志文件名： def logging_to_file(file_name): """ @rtype: logging @type file_name:str @param file_name: @return: """ import logging from scrapy.utils.log import configure_logging configure_logging(install_root_handler=False) lo

浏览 0提问于2016-08-08得票数 0

2回答

ImportError:没有名为Scrapy的模块；即使Scrapy已成功安装

、、

我尝试在Python中使用Scrapy，但即使安装了它，之后当我尝试导入它时也找不到它。我是python的新手，直接与终端打交道，所以我可能遗漏了一个(或许多)要点。详细信息这是我在终端中得到的关于安装Scrapy的信息： $ pip install Scrapy Collecting Scrapy Using cached Scrapy-1.1.0-py2.py3-none-any.whl Requirement already satisfied (use --upgrade to upgrade): six>=1.5.2 in /usr/local/lib/python2.7/

浏览 0提问于2016-05-16得票数 5

1回答

当爬行器使用proxymiddleware时，Scrapy在延迟中抛出扭曲的未处理错误

、、、

我在scrapy中使用ProxyMiddleware，它抛出了不可追踪的错误。下面是回溯： Unhandled error in Deferred: [twisted] CRITICAL: Unhandled error in Deferred: [twisted] CRITICAL: Traceback (most recent call last): File "/usr/local/lib/python3.5/dist-packages/twisted/internet/defer.py", line 1418, in _inlineCallbacks resul

浏览 0提问于2018-10-06得票数 0

1回答

用代理爬行

、、

我编写了一个Scrapy中间件，它必须通过scrapy.Request(url).对每个请求使用代理。我的定制中间件：类MyCustomProxyMiddleware(对象)： def __init__(自定义，设置)：self.chosen_proxy = settings.get('ROTATOR_ proxy '，None) @classmethod def from_crawler(cls，爬虫)：返回cls(crawler.settings) def process_request(self，request，spider)：如果self.chosen_proxy不

浏览 2提问于2020-12-16得票数 1

1回答

如何从scrapy python下载图像并将它们保存到文件夹中，并在变量中保存它们的路径

、、、、

import scrapy import json class Brand(scrapy.Item): name = scrapy.Field() url = scrapy.Field() brand_image = scrapy.Field() productsList = scrapy.Field() class QuotesSpider(scrapy.Spider): name = "brandDetails" def start_requests(self): with open('bran

浏览 5提问于2018-09-29得票数 2

1回答

刮刮遇到http状态<521>

、、、

我是scrpay新手，我试着爬过一个网站页面，但是返回了http状态代码<521>。这是否意味着服务器拒绝连接？(我可以通过浏览器打开它)，我尝试使用cookie设置，但仍然返回521。问题：我遇到521状态码是什么原因？是因为曲奇的设置吗？我的cookie设置代码有错吗？我怎么爬这一页？非常感谢您的帮助！日志： 08:27:26+0800 scrapy信息: scrapy 0.24.6已启动(bot: ccdi) 2015-06-07 08:27:26+0800 Scrapy信息:可选特性: ssl，http11 2015-06-07 08:2

浏览 2提问于2015-06-07得票数 2

1回答

用MONGODB刮刮管道的问题

、、、

我想刮一下这个网站。这是一个真正的国家网站，但出于同样的原因，当开始改变页面只得到相同的数据，我真的不知道发生了什么。有人能帮帮我吗？ init.py import scrapy from realstatedata.items import RealstatedataItem class RsdataSpider(scrapy.Spider): name = 'realstatedata' allowed_domains = ['vivareal.com.br'] start_urls = ['https://www.viv

浏览 1提问于2021-08-21得票数 0

回答已采纳

1回答

Scrapy - TypeError:此构造函数不带参数

、、

在尝试运行我的刮取程序时，我一直收到以下错误: TypeError:此构造函数不带参数。我四处寻找，但找不到任何东西来帮助解决我的问题。我不知道我是否只是有一个错误，我错过了或类似的东西，但任何帮助将不胜感激。附加的代码是middlewares.py中给出错误的部分，而不是整个文件。 # middlewares.py import random from copy import copy class ProfileMiddleware: @classmethod def from_crawler(cls, crawler, *args, **kwargs):

浏览 0提问于2019-05-23得票数 1

回答已采纳

2回答

如何修复Scrapy在深度爬行中不起作用

、、、、

我目前正在尝试使用scrapy创建一个小型的web抓取原型。我目前的问题与链接提取和跟踪相关。我试图让scrapy浏览页面并找到指向页面的链接(目前不是图像和其他内容)，但我不知道如何正确设置参数。这是我正在使用的蜘蛛： class DefaultSpider(CrawlSpider): name = "default" session_id = -1 rules = [Rule(LinkExtractor(allow=()),callback='parse', follow=True)] def start_re

浏览 2提问于2017-03-01得票数 1

2回答

Scrapy不返回任何数据

、、、

我试着抓取这一页：我使用了下面的代码： import scrapy class HipSpider(scrapy.Spider): name = "hip" allowed_domains = ["homeimprovementpages.com.au"] start_urls = [ "http://www.homeimprovementpages.com.au/connect/protecelectricalservices/service/163729", ] def par

浏览 0提问于2016-04-08得票数 0

2回答

Scrapy未进入parse方法

、、、

我在使用Scrapy时遇到了问题，由于某种原因，它没有进入我的parse方法，我不知道为什么会这样。我尝试过不同的选择，但都没有成功。这就是我的代码现在的样子。具体地说，有两个print语句，parse()方法中的一个没有被调用。 from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from scrapy import log from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.link

浏览 0提问于2012-07-05得票数 0

回答已采纳

3回答

刮擦管道错误不能导入名称

、

我对python编程和使用scrapy很陌生。我已经设置了我的爬虫，到目前为止，它一直在工作，直到我到达我想知道如何下载图像。我得到的错误是不能导入名称NsiscrapePipeline。我不知道我做错了什么，我也不理解一些文件，因为我是新的。请帮帮忙项目档案 from scrapy.item import Item, Field class NsiscrapeItem(Item): # define the fields for your item here like: # name = Field() location = Field() stock_n

浏览 4提问于2013-07-26得票数 0

回答已采纳

1回答

当尝试在Windows 10面板上安装Scrapy时(WinError 3)

、、、

当我试图在Windows 10上安装Scrapy时，我面临的是WinError 3。 Conda版本: 4.5.12 Conda-构建版本: 3.17.6 Python版本: 3.7.1.final.0 我面临着这些错误： WinError 3系统找不到指定的路径：‘C：\程序文件(X86)\MicrosoftVisualStudio14.0\VC\PlatformSDK\lib’ WinError 3系统找不到指定的路径：‘C：\程序文件(x86)\Microsoft \Windows\v8.1\lib’ 使用这两个命令： pip install Scrapy conda inst

浏览 0提问于2019-03-06得票数 0

回答已采纳

1回答

刮擦错误信号-在刮擦时没有给出任何信息。

、

我正在做一些刮擦(Scrapy1.3.3)，并验证刮伤是否成功/不成功--使用spider_opened和spider_closed的Scrapy信号。用于spider_closed 的extensions.py代码的一部分 logger = logging.getLogger(__name__) class SendEmail(object): def __init__(self): self.fromaddr = FROMADDR self.toaddr = TOADDR @classmethod def from_crawler(cls, crawler):

浏览 2提问于2017-08-01得票数 0

2回答

从脚本中运行刮擦蜘蛛

、

我想从python脚本中运行我的刮破的sprider。我可以用下面的代码调用我的蜘蛛， subprocess.check_output(['scrapy crawl mySpider']) 直到一切都好为止。但在此之前，我通过初始化start_urls来实例化蜘蛛的类，然后对scrapy爬行的调用就无法工作，因为它找不到变量start_urls。 from flask import Flask, jsonify, request import scrapy import subprocess class ClassSpider(scrapy.Spider): name

浏览 6提问于2020-06-07得票数 0

回答已采纳

1回答

Scrapy不再工作-扭曲超时

、、、

由于某种原因，Scrapy将不再在我的机器上运行。我试着升级scrapy，卸载它，重新安装它，但都没有成功。有谁能解释一下这件事吗？下面是跟踪信息： Slevins-iMac:goodstuff slevin$ scrapy crawl chees 2017-01-28 18:20:38 [scrapy.utils.log] INFO: Scrapy 1.3.0 started (bot: goodstuff) 2017-01-28 18:20:38 [scrapy.utils.log] INFO: Overridden settings: {'NEWSPIDER_MODULE

浏览 4提问于2017-01-29得票数 0

2回答

如何处理拼图下载中的图片文件名重复问题

、、

Scrapy使用sha1生成随机图像文件名。当发生复制时，它将覆盖文件，导致现有图像文件丢失。是否可以编写额外的代码(例如:重写类)来处理复制。例如:继续生成新的随机文件名，直到找不到重复的文件名？如果是，请提供代码示例？ -老问题:是否检查images_store文件夹下所有镜像文件的文件名唯一性？Scrapy在下载图片时使用sha1生成随机文件名。Sha1提供了很好的唯一性水平，但根据概率，可能会有重复的机会。

浏览 12提问于2013-06-03得票数 1

9回答

Scrapy HtmlXPathSelector

只是尝试scrapy和尝试让一个基本的蜘蛛工作。我知道这可能只是我遗漏了一些东西，但我已经尝试了我能想到的所有方法。我得到的错误是： line 11, in JustASpider sites = hxs.select('//title/text()') NameError: name 'hxs' is not defined 我的代码目前非常基础，但我似乎仍然找不到哪里出了问题。谢谢你的帮助！ from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelec

浏览 0提问于2012-09-04得票数 5

回答已采纳

2回答

CrawlerRunner不使用钩针抓取页面

、、、

我正在尝试使用CrawlerRunner()从脚本启动一个剪贴画，以便在AWS Lambda中启动。我在Stackoverflow中看了钩针库的解决方案，但它对我不起作用。链接：代码如下： import scrapy from scrapy.crawler import CrawlerRunner from scrapy.utils.project import get_project_settings from scrapy.utils.log import configure_logging # From response in Stackoverflow: https://st

浏览 0提问于2019-01-29得票数 0

1回答

如何从RFPDupeFilter或CustomFiler生成项目

、、

我用Scrapy从不同的网站抓取网页。对于每个scrapy.Request()，我都设置了一些元数据，用于生成一个项。我的代码也可能为相同的url生成多个scrapy.Request()，但是具有不同的元。 yield scrapy.Request(url='http://www.example.com', meta={'some_field': 'some_value'} ..) 现在我可以设置dont_filter=True，并且scrapy不会阻止重复的请求。 yield scrapy.Request(url='http://www

浏览 7提问于2022-09-01得票数 0

回答已采纳

1回答

用于LinkedIn数据提取的scrapy-linkedin

、

我使用scrapy 0.16从LinkedIn中提取数据。 from scrapy.selector import HtmlXPathSelector from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.http import Request from scrapy import log from linkedin.items import

浏览 1提问于2013-03-18得票数 3

回答已采纳

2回答

(Python)在导入的模块scrapy中找不到任何项目

、、

我在此路径C:\Users\PATTY\Desktop\Project_Website\Scrapy上使用scrapy启动了一个项目问题是我导入的大多数项目都找不到。例如，在quotes.py中，它成功地导入了模块scrapy，但无法打开它的项目： import scrapy class QuotesSpider(scrapy.Spider): # Error Cannot find reference Spider in imported module scrapy name = 'quotes' allowed_domains = ['qu

浏览 11提问于2017-03-02得票数 0

回答已采纳

1回答

Scrapy:每个蜘蛛一个工作目录

、

我有一个包含多个爬虫的Scrapy项目。我如何使用自己的jobdir运行所有的爬行器？在下面的代码中，我展示了如何使用单个jobdir执行所有爬行器。 from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_project_settings settings = get_project_settings() settings.set('JOBDIR', 'saved_crawl', priority='cmdline') process

浏览 26提问于2019-05-16得票数 0

1回答

如何在Scrapy中共享饼干

、、

我正在用Scrapy编写一个网络抓取程序，我需要设置它来共享cookie，但是我仍然对网络抓取和Scrapy相当陌生，所以我不知道如何做到这一点。我不知道我是否需要在设置中做一些事情，或者是中间件或者其他什么，所以任何帮助都是非常感谢的。 settings.py # Name of project BOT_NAME = 'LoginSpider' # Module where spider is SPIDER_MODULES = ['LoginSpider.spiders'] # Mode where to create new spiders NEWSPID

浏览 0提问于2019-07-23得票数 0

回答已采纳

1回答

如何将所有CPU核心用于Scrapy

不管我怎么使用CONCURRENT_REQUESTS，我的scrapy程序只使用一个CPU核心。scrapy中的一些方法是否可以在一个scrapy爬虫中使用所有的cpu核心？ ps:它似乎在早期版本中有争议的max_proc使用，但我现在找不到它。

浏览 0提问于2017-07-10得票数 5

2回答

我如何知道哪些网址正在使用starts_url (Scrapy)？

、、

我正在构建一个抓取两个页面(e.x: PageDucky，PageHorse)的Scrapy，并在starts_url字段中传递这两个页面。但是对于分页，我需要传递我的URL并连接"?page="，所以我不能传递整个列表。我已经尝试过创建一个for循环，但是没有成功。我怎么才能让分页对两个页面都起作用呢？下面是我现在的代码： class QuotesSpider(scrapy.Spider): name = 'QuotesSpider' start_urls = ['https://PageDucky.com', 'ht

浏览 4提问于2021-11-23得票数 0

2回答

Scrapy:如何在scrapy/wget已经下载的文件上使用XPath选择器？

、

我在跟着走。我的项目涉及解析已经通过Scrapy或wget下载的文件。我知道我可以使用XPath选择器，但是到目前为止，我看到的示例涉及到在Scrapy的解析方法中调用XPath选择器，因此只对Scrapy下载的文件起作用。有没有一种方法可以直接对下载的文件使用XPath？我是Python和Scrapy的新手，所以我找不到在独立的非Scrapy Python脚本中调用XPath的方法。

浏览 2提问于2013-01-13得票数 0

3回答

抓取图像，空响应[抓取]

、、

我使用了一个使用scrapy进行图像抓取的例子。但是我没有在我的计算机上保存任何文件：这是我使用的代码： //Items.py// import scrapy class ImgurItem(scrapy.Item): title = scrapy.Field() image_urls = scrapy.Field() images = scrapy.Field() //settings.py// BOT_NAME = 'imgur' SPIDER_MODULES = ['imgur.spiders'] NEWSPIDER_MOD

浏览 0提问于2016-01-18得票数 0

1回答

通过FormRequest()从动态填充的网页检索API中的数据

、、

我试图抓取填充在新闻网站的url目录下的新闻项目。包含单个新闻的页面显示在这里：在向下滚动时，页面中填充了目标信息。从XHR提要中可以看到，新闻标题和相关链接从API请求填充到的url。在研究邮递员的标题和正文时，我意识到以下是所需的请求信息： headers = { 'content-type': 'application/json', 'content-length' : 244 } body = { "query": "{storiesByCategory(first: 12, after

浏览 6提问于2022-02-16得票数 0