scrapy超时不控制扭曲超时_Scrapy不再工作-扭曲超时_如何使用scrapy处理超时？ - 腾讯云开发者社区

python-3.x、scrapy

我是新手，我遵循教程，但不能使它work.Every步骤是相同的指导。我想知道有什么问题吗？我设置了 ROBOTSTXT_OBEY = True DOWNLOAD_DELAY = 3 HTTPCACHE_ENABLED = True HTTPCACHE_EXPIRATION_SECS = 0 HTTPCACHE_DIR = 'httpcache' HTTPCACHE_IGNORE_HTTP_CODES = [] HTTPCACHE_STORAGE = 'scrapy.extensions.httpca 蜘蛛是这样写的： import re import scrapy f

浏览 0提问于2017-04-20得票数 1

回答已采纳

1回答

安装了刮水器，但不能运行工作台或外壳。

python、scrapy

我终于安装了刮擦，但无法让它运行长凳或外壳。以下是控制台中返回的内容： (scrapy_env) MacBook-Pro:Virtualenvs iSagui$ scrapy bench 2018-02-19 14:46:26 [scrapy.utils.log] INFO: Scrapy 1.5.0 started (bot: scrapybot) 2018-02-19 14:46:26 [scrapy.utils.log] INFO: Versions: lxml 3.4.2.0, libxml2 2.9.4, cssselect 1.0.3, parsel 1.4.0, w3lib 1.

浏览 0提问于2018-02-19得票数 0

回答已采纳

2回答

工作马过程意外终止RQ和Scrapy。

python、redis、scrapy、splash-screen

我试图从redis (rq)中检索一个函数，它生成一个CrawlerProcess，但是我得到了工作-马进程意外终止(等待返回11) 控制台日志：将作业移动到“失败”队列(工作-马意外终止；waitpid返回11) 在我用注释标记的行上这一行终止程序我做错了什么？我怎么才能修好它？我从RQ中很好地检索到这个函数： def custom_executor(url): process = CrawlerProcess({ 'USER_AGENT': "Mozilla/5.0 (X11; Linux x86_64) A

浏览 1提问于2017-11-07得票数 4

回答已采纳

2回答

刮除-没有名为mail.smtp的模块

python、scrapy

系统: Ubuntu 14.04 我使用命令sudo pip install scrapy安装了scrapy。我遵循的教程定位为。当我在scrapy crawl dmoz步骤上运行命令时，我得到以下错误： 2015-07-04 15:28:58 [scrapy] INFO: Scrapy 1.0.1 started (bot: tutorial) 2015-07-04 15:28:58 [scrapy] INFO: Optional features available: ssl, http11 2015-07-04 15:28:58 [scrapy] INFO: Overridden s

浏览 0提问于2015-07-04得票数 9

回答已采纳

1回答

刮伤ImportError:无法从'twisted.web.client‘导入名称'HTTPClientFactory’(未知位置)

python、python-3.x、django、scrapy、virtualenv

以前，当我在VSCode终端中运行这个命令时，没有发现任何错误。 scrapy crawl ma -a start_at=1 -a end_and=2 -a quick_crawl=false 但现在，我不知道为什么会有这个错误 2022-07-20 10:10:14 [log.log_scrapy_info] INFO : Scrapy 2.2.1 started (bot: regulation_crawler) 2022-07-20 10:10:14 [log.log_scrapy_info] INFO : Versions: lxml 4.9.1.0, libxml2 2.9.14,

浏览 65提问于2022-07-20得票数 2

1回答

从当前脚本中添加擦伤中间件

python、scrapy、web-crawler

我已经在一个python脚本中安装了我的抓取爬虫： import sys import csv import scrapy from scrapy.http import FormRequest from scrapy.crawler import CrawlerProcess class MyItem(scrapy.Item): test = scrapy.Field() class Spider(scrapy.Spider): start_urls = [ "blah.com", ] def parse(self,

浏览 1提问于2016-03-04得票数 2

回答已采纳

2回答

没有名为“Twisted”的模块

python、pip、twisted

我刚刚安装了Python，开始用Scrapy做一些实验。找到了一个教程，第一次安装Miniconda，与此，我能够安装Scrapy。现在的问题是，我试图运行的软件也需要Twisted。所以我安装了扭曲的pip。扭曲似乎已经安装正确，但我仍然收到一个错误，当运行脚本，扭曲模块是找不到的。 Python 3.6.3 (v3.6.3:2c5fed8, Oct 3 2017, 17:26:49) [MSC v.1900 32 bit (Intel)] on win32 Type "copyright", "credits" or "license()"

浏览 4提问于2017-12-16得票数 4

回答已采纳

1回答

擦伤飞溅错误:放弃重试504网关超时

python、web-scraping、lua、scrapy、scrapy-splash

我正在接收这个504网关错误，当我在尝试爬行这个的时候使用splash和scrapy一起学习splash。你能帮帮我吗？ Splash正在8050港口的一个码头集装箱上运行。蜘蛛文件 import scrapy from scrapy_splash import SplashRequest class LaptopSpider(scrapy.Spider): name = 'laptop' allowed_domains = ['www.lazada.com.my'] def start_requests(self):

浏览 5提问于2022-02-16得票数 0

回答已采纳

1回答

Scrapy项目管道中Python集合的线程安全性问题(使用Twisted for并发)

python、scrapy、twisted

Scrapy有一个的概念，即从Scrapy 返回的 (通过扭曲)项。为提供了以下代码示例(下面复制的代码)。如何通过并发调用set来安全地使用process_item？看起来Scrapy调用了项目管道。 from scrapy.exceptions import DropItem class DuplicatesPipeline: def __init__(self): self.ids_seen = set() def process_item(self, item, spider): if item['id'] in s

浏览 2提问于2020-05-29得票数 1

回答已采纳

3回答

在OSX上安装带有pip的Scrapy时的错误和警告

python、macos、terminal、scrapy、pip

我想在我的MacBookOSX10.9上安装Scrapy 我遵循了这里列出的所有先决条件：然后在终端中键入以下内容：pip install Scrapy 在终端的最底层，上面写着： 2 warnings and 6 errors generated. error: command '/usr/bin/clang' failed with exit status 1 下面写着： ---------------------------------------- Cleaning up... Command /Library/Frameworks/Python.framework

浏览 3提问于2014-02-01得票数 0

回答已采纳

2回答

如何使Scrapy使用Python2.7.10而不是3.4.3

python、python-2.7、python-3.x、scrapy

我安装了两个版本的Python。3+代表Django，2+代表Scrapy。我可以使用任何我想使用的版本，使用以下方法：- py abc.py #for 2.+ use py -3 abc.py #for 3.+ use 问题是当我试图用Scrapy做一个项目的时候 scrapy startproject news 我如何显式地提到或强制scrapy使用2.+ python版本。目前，它正在使用3.+版本。我可以确认这一点，因为它在Scrapy使用的某个“扭曲”包上给了我一个错误，这只适用于python 2.+。更新：- 我在使用Windows环境。更新：- >where.exe

浏览 3提问于2015-07-13得票数 2

回答已采纳

3回答

ImportError :无法导入名称“_win32stdio”

python、visual-studio、scrapy

我正在使用Scrapy框架来删除网站上的数据，但是在命令提示符中出现了以下错误： ImportError:无法导入名称“_win32stdio” 追踪作为截图附在一起。如果需要，请恢复我的程序目录的目录结构。

浏览 5提问于2016-05-20得票数 8

回答已采纳

4回答

在芹菜任务中运行一只抓取的蜘蛛

scrapy、twisted、celery

，scrapy的API已经改变了。现在，文档提供了一种"“的方法，但我得到了ReactorNotRestartable错误。我的任务是： from celery import Task from twisted.internet import reactor from scrapy.crawler import Crawler from scrapy import log, signals from scrapy.utils.project import get_project_settings from .spiders import MySpider class M

浏览 4提问于2014-03-01得票数 37

回答已采纳

1回答

使用Scrapy1.0.4的twisted.mail错误

python、scrapy、twisted

我对Scrapy框架非常陌生，所以我试图完成文档中提供的教程：问题是，当我运行代码时，会得到以下错误： from twisted.mail.smtp import ESMTPSenderFactory ImportError: No module named 'twisted.mail' 我使用的是Python3.5.1，我使用了Scrapy1.0.4和Twisted 15.5.0。但问题是，我在扭曲安装目录中找不到任何邮件模块。谢谢。

浏览 1提问于2016-01-29得票数 0

回答已采纳

1回答

刮擦超时和Twisted.Internet.Error

python、proxy、scrapy、twisted、scrapy-spider

使用代理运行Scrapy，但有时爬行在运行结束时会遇到下面的错误，导致爬行完成时间延迟10+秒。如果Scrapy在任何时候都遇到了这些错误，那么当检测到它时，它就会被完全忽略/立即传递，这样它就不会浪费时间拖延整个爬虫了？ RETRY_ENABLED = False (已在settings.py中设置)。请求中的urls列表。许多设置为https://而不是http的代理都想在案例中提及，尽管几乎所有的情况下https都能工作，所以我怀疑这完全是关于https与http正在设置的关系。但仍然得到：错误1： 2019年-01-20 20:24:02 scrapy.core.scrape

浏览 0提问于2019-01-20得票数 1

回答已采纳

1回答

“未找到'Twisted>=13.1.0‘发行版，是Scrapy所需的”

python、scrapy、twisted、ubuntu-12.04

我正在Ubuntu12.04上安装scrapy，python 3.5.2在一个虚拟环境中安装。我在安装刮痕的过程中遇到了很多困难，但我终于安装了所有的要求。我不得不手动安装扭曲，以使安装完成，但我已经安装了twisted 17.0。但是，当我试图运行本教程时，会出现以下错误： Traceback (most recent call last): File "/usr/local/bin/scrapy", line 5, in <module> from pkg_resources import load_entry_point File "/usr/

浏览 2提问于2017-05-30得票数 0

1回答

我的scrapy shell永远加载，并给出超时twisted.internet.error.TimeoutError：

python-3.x、xpath、web-scraping、scrapy

我遇到了我的蜘蛛的问题，这些蜘蛛不是交付导入的，然后我获取了它们的start_urls，并尝试使用scrapy shell来查找bug。不幸的是，即使是粗糙的外壳也会永远加载，并返回twisted.internet.error.TimeoutError，我该如何解决这个问题呢？敬请查看我的scrapy shell命令和下面的错误 root@cf59900d79a8:/workspace# scrapy shell "https:www.mystart_url.com" 2020-08-28 04:37:53 [scrapy.utils.log] INFO: Scrapy 1.5

浏览 0提问于2020-08-28得票数 0

1回答

Scrapy Vs Nutch

python、solr、web-scraping、scrapy、web-crawler

我计划在我目前正在开发的一个应用程序中使用网络爬行。我在Nutch上做了一些研究，并使用它进行了一些初步测试。但后来我遇到了scrapy。但是，当我做了一些初步的研究并浏览了有关scrapy的文档时，我发现它只能捕获结构化数据(您必须提供要从中捕获数据的div名称)。我正在开发的应用程序的后端是基于Python的，我知道scrapy是基于Python的，有人建议scrapy比Nutch更好。我的要求是从1000多个不同的网页中捕获数据，并在information.Is中运行相关关键字搜索，以任何方式scrapy都可以满足相同的要求。 1)如果是，你能举例说明如何做到这一点吗？ 2)或Nutc

浏览 0提问于2013-06-20得票数 16

回答已采纳

3回答

使用Scrapy时出错：[‘scrapy.telnetT. Error’：没有名为conch扭曲的模块]

python、scrapy、twisted

在Ubuntu13.04中，我从tarball中为python-2.7安装了Scrapy。执行爬行命令将导致以下错误： ImportError:错误加载对象‘scrapy.telnett.elnetConsole’：没有名为conch的模块我还尝试过使用easy_install和tarball安装扭曲的海螺。我还从python中删除了scrappy.egg和.info以及主文件文件夹。重新安装刮伤也没有帮助。某个人能把我引向正确的方向吗？

浏览 6提问于2013-06-23得票数 5

1回答

特定站点的刮伤和飞溅时间

web-scraping、scrapy、scrapy-splash、scrapinghub、splash-js-render

在尝试从这个Scrapy获取响应时，Crawlera和Splash遇到了问题。我没有运气就试了以下几个：纯Scrapy外壳超时 Scrapy + Crawlera -超时 Scrapinghub Splash实例(小)-超时不过，我可以使用Selenium的Firefox来刮这个站点。但我想从这一点出发，转而使用Splash。有没有解决办法来避免这些超时？注意：如果我使用由Splash设置的本地实例，站点将加载，不过与FirefoxWebdriver10秒相比，20+仍然需要几秒时间。

浏览 1提问于2018-01-18得票数 3

2回答

在Scrapy Deferred中间件中使用延迟

python、scrapy、twisted

我将在Scrapy downloadermiddleware中间件中使用一些阻塞代码(等待免费代理)。我打算使用但它在下载中间件中确实不起作用，因为等待isinstance(response, (Response, Request))的方法process_request(self, request, spider) 如何最好地做到这一点？

浏览 0提问于2014-11-03得票数 6

1回答

Twitsted ValueError:里海拉伸上未知的ECC曲线

scrapy、twisted、raspbian

我想使用我的Raspberry Pi 3，运行拉皮安拉伸为一个网络抓取项目。对于python，我使用berryconada发行版。当我运行我的蜘蛛，我得到 ValueError: Unknown ECC curve 在我的笔记本电脑(Xubuntu16.04)上，一切都很好。也许我需要安装一个额外的库什么的？在完整的回溯图下面。 Traceback (most recent call last): File "/home/pi/berryconda3/lib/python3.6/site-packages/twisted/internet/defer.py", line

浏览 2提问于2017-09-21得票数 2

回答已采纳

1回答

无法正确启动Scrapy shell

python、python-3.x、web-scraping、scrapy

我从一开始就在尝试建立一个抓取蜘蛛。我设法使用scrapy genspider name_of_spider生成了一个爬行器，但是当我输入scrapy shell时，我收到了以下结果。请注意，当我使用我的另一个爬虫运行scrapy crawl spider_name时，那个爬虫工作得很好。然而，我也不能启动那个粗糙的shell。 (venv) jacquelinewong@Jacquelines-MBP rent_apt % scrapy shell 2020-05-29 09:29:12 [scrapy.utils.log] INFO: Scrapy 2.0.1 started (bot:

浏览 2提问于2020-05-29得票数 1

2回答

Scrapy似乎已经安装，但在检查版本时，我得到了“没有模块名为scrapy”

python、installation、scrapy、command-prompt

我安装了依赖项(openssl、lxml、pyopenssl、扭曲矩阵等等)当我输入命令时 easy_install Scrapy 它似乎起作用了，给了我这个输出。 Searching for scrapy Best match: scrapy 0.24.2 Processing scrapy-0.24.2-py2.7.egg scrapy 0.24.2 is already the active version in easy-install.pth Installing scrapy script to C:\Users\Joel\AppData\Local\Enthought\Canop

浏览 0提问于2014-08-08得票数 2

1回答

会话超时后PHP会话变量仍然存在

php、session、timeout、session-variables

我正在制作一个user应用程序，并使用会话来保存用户数据。我设置了两个变量$_SESSION"loged_in“和$_SESSION"user_id”来了解用户是否连接。但是当会话到达超时时，变量仍然存在，这扭曲了我的逻辑。我该怎么解决呢？

浏览 4提问于2014-07-04得票数 0

回答已采纳

1回答

请求模块可以工作，但FormRequest不能

python、scrapy、python-requests

我正在努力学习Scrapy。我尝试用Scrapy复制下面的post请求，但没有成功。我也尝试过scrapy.Request(method='POST')，但它也不起作用。 import requests, json headers = { 'accept': '*/*', 'accept-encoding': 'gzip, deflate, br', 'accept-language': 'en-US,en;q=0.9', 'content-length':

浏览 2提问于2020-02-15得票数 2

1回答

Scrapy contextfactory.py。iPython中的NameError。尝试使用扭曲的库

python、scrapy、twisted

我正在尝试在scrapy shell中运行一个fetch命令。错误指向contextfactory.py。扭曲的库已经包含在我的虚拟环境中了。如何解决此错误？ from twisted.internet.ssl import ClientContextFactory from twisted.internet.ssl import PrivateCertificate myClientCert = twisted.internet.ssl.PrivateCertificate.load(keyAndCert.read())

浏览 14提问于2020-05-26得票数 2

回答已采纳

1回答

在python中启动Twisted.internet.reactor

python、twisted

我正在尝试运行一个爬虫(用scrapy框架编写)，以便从python脚本而不是命令行工具运行。Scrapy是在扭曲的互联网框架上编写的，该框架有一个无法在过程中重新启动的反应器。我一定是在赶上spider_closed signal & the REACTOR HAS STOPPED的时候把它停了。它给出了以下错误消息： twisted.internet.error.ReactorNotRestartable 我的问题是“如何启动twisted.internet.reactor?” 我现在甚至不能从命令行工具运行我的爬行器。

浏览 1提问于2014-02-17得票数 1

2回答

Scrapy使用系统中的两个核心

scrapy、twisted

我正在使用他们的内部API运行scrapy，到目前为止一切都很好。但我注意到它并没有完全使用设置中提到的16的并发性。我已经将延迟改成了0，其他我能做的都改了。但是，看看正在发送的HTTP请求，很明显，scrapy并不是一直都在下载16个站点。在某些时候，它的下载只有3到4个链接。并且该队列在该时间点不是空的。当我检查核心使用情况时，我发现2个核心中有一个是100%的，另一个大部分是空闲的。这就是我知道上面构建scrapy的扭曲库是单线程的，这就是为什么它只使用单核的原因。有没有办法说服scrapy使用所有的核心？

浏览 15提问于2017-08-13得票数 0

1回答

python中带有scrapy和mongodb的异步HTTP服务器

python、mongodb、asynchronous、server、scrapy

我基本上是试图启动一个HTTP服务器，它将响应从一个网站的内容，我可以爬行使用Scrapy。为了开始爬行网站，我需要登录到它，并这样做，我需要访问一个数据库的凭据等。这里的主要问题是，我需要所有的东西都是完全异步的，到目前为止，我还在努力寻找一种组合，使所有东西都能正常工作，而不需要太多草率的实现。我已经让Klein + Scrapy工作了，但是当我实现DB访问时，我的头脑就变得一团糟了。有没有办法使PyMongo与扭曲或其他东西异步(是的，我见过TxMongo，但文档很糟糕，我想避免它)。我还找到了一个带有ad浸的实现，但是我想要一些更类似于PyMongo的东西)。从另一个角度来看，我确

浏览 0提问于2018-07-25得票数 0

回答已采纳

1回答

scrapy无法终止，但不断显示日志统计信息

python-3.x、scrapy、scrapy-spider

我写了一个爬虫，它爬行网站达到一定的深度，并使用scrapy的内置文件下载器下载pdf/docs文件。它工作得很好，除了一个url()。 scrapy_pdf.py import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from scrapy.shell import inspect_response # from scrapy_splash import SplashRequest from scrapy.http import Re

浏览 17提问于2018-11-02得票数 0

1回答

如何获得响应文本，即使有301状态？

python、python-3.x、web-scraping、scrapy

我用剪贴写了一个脚本，从网页中获取响应文本。问题是，我的脚本总是因为有None而打印301 status。，我是否可以从301开始控制状态，并在控制台中打印响应？以下是我尝试过的： import scrapy from scrapy.crawler import CrawlerProcess class ResponseSpider(scrapy.Spider): name = "transfermarkt" handle_httpstatus_list = [301] start_urls = ["https://www.transfer

浏览 0提问于2019-04-29得票数 1

回答已采纳

1回答

Scrapy:meta['proxies']还是meta['proxy']？

python、scrapy

我在scrapy方面是新手。我在scrapy爬虫中使用了一个自定义代理，但我发现如果我使用request.meta“代理”，爬虫会工作得很好，而不是使用request.meta“proxy”。这与不同如果我使用request.meta‘’proxy‘，这是我调试消息的一部分。 2018-09-07 15:48:45 [scrapy.core.engine] INFO: Spider opened 2018-09-07 15:48:45 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0

浏览 51提问于2018-09-07得票数 0

1回答

Scrapy不再工作-扭曲超时

python、python-2.7、scrapy、twisted

由于某种原因，Scrapy将不再在我的机器上运行。我试着升级scrapy，卸载它，重新安装它，但都没有成功。有谁能解释一下这件事吗？下面是跟踪信息： Slevins-iMac:goodstuff slevin$ scrapy crawl chees 2017-01-28 18:20:38 [scrapy.utils.log] INFO: Scrapy 1.3.0 started (bot: goodstuff) 2017-01-28 18:20:38 [scrapy.utils.log] INFO: Overridden settings: {'NEWSPIDER_MODULE

浏览 4提问于2017-01-29得票数 0

1回答

刮伤教程扭曲错误

python、scrapy

我对Scrapy很陌生，对python只有一个基本的理解。运行Scrapy教程时遇到错误。我安装了Windows 7操作系统、64位和32位Python2.7.12 我到目前为止已经采取的步骤按照安装页面执行步骤，并设置虚拟环境“scrapy” 激活虚拟环境安装了scrapy (所有的依赖项似乎都安装得很好，包括pywin，32位版本) 按照教程页运行步骤 scrapy startproject tutorial 创建文件quotes_spider.py，并在上给出代码从scrapy\脚本\教程中，我运行了scrapy crawl quotes并获得了以下

浏览 0提问于2016-11-05得票数 0

回答已采纳

1回答

用刮擦刮一页

python、scrapy

我有一个很长的URL流，我需要刮取和提取数据，我想使用刮除。假设我有一个扭曲的反应堆装置，我创建了蜘蛛 runner = CrawlerRunner(scrapy_settings) d = runner.crawl(spider_cls) 有没有办法把URL发送给蜘蛛，这样它就能处理它们了？

浏览 1提问于2016-05-31得票数 1

回答已采纳

4回答

在PyCharm中安装Scrapy库时出错

scrapy、pycharm

我可以安装其他包，但不能安装Scrapy。我得到以下错误： warning: build_py: byte-compiling is disabled, skipping. running build_ext building 'lxml.etree' extension error: Microsoft Visual C++ 10.0 is required (Unable to find vcvarsall.bat). 但是，已经安装了C++，我已经安装了很多次。我安装了x86和64位(不确定是不是10.0)，但我安装了2013-2017版本。

浏览 7提问于2017-06-01得票数 2

1回答

Scrapy在网页上显示加载

web-scraping、scrapy、scrapy-splash

我正在尝试抓取，但是页面在加载时被卡住了。我使用的是Scrapy==1.5.0 scrapy-splash==0.7.2 我甚至把等待时间改成了7秒。但问题依然存在。有什么解决方案吗？

浏览 2提问于2018-02-20得票数 0

1回答

如何使用pymongo在scrapy中发送随机用户代理

python、mongodb、scrapy、pymongo、faker

在scrapy中，我想为每个请求发送一个不同的用户代理。所以我在每个请求中放入了头：‘随机用户代理’。Scrapy在没有pymongo的情况下工作得很好。但当我用pymongo运行它时，它总是冻结。我不知道原因。如果你让我知道那就太好了。作为参考，当使用scrapy-fake-useragent中间件时，它在没有pymongo的情况下工作得很好，但当它与pymongo一起使用时，它继续冻结，因此不使用它。这段代码运行良好(没有pymongo) import scrapy from faker import Faker fake = Faker() class TesterSpider

浏览 11提问于2021-05-14得票数 0

1回答

抓取-动态等待页面加载- selenium + Scrapy

python、selenium、web-scraping、scrapy

最近，我用python和Selenium制作了一个webscraper，我发现做起来非常简单。该页面使用ajax调用加载数据，并且我首先等待一个固定的time_out来加载该页面。有一段时间起作用了。之后，我发现selenium有一个内置函数WebDriverWait，它可以使用wait.until()等待一个特定的元素加载。这让我的网刮刀跑得更快了。问题是，我仍然对结果不满意。我花了平均每页1.35秒的时间下载内容。我试图对此进行并行化，但时间并没有变得更好，因为如果驱动程序实例(使用Chrome或PhantomJS)的创建占用了大部分时间，那么创建时间就不会更好。所以我把自己变成了刮

浏览 5提问于2017-09-18得票数 3

回答已采纳

2回答

从脚本抓取总是会在抓取之后阻止脚本执行

python、twisted、scrapy

我正在按照这个指南从我的脚本中运行scrapy。以下是我的脚本的一部分： crawler = Crawler(Settings(settings)) crawler.configure() spider = crawler.spiders.create(spider_name) crawler.crawl(spider) crawler.start() log.start() reactor.run() print "It can't be printed out!" 它的工作方式应该是:访问页面，抓取需要

浏览 1提问于2013-02-09得票数 20

回答已采纳

1回答

刮集TCP连接超时

web-scraping、scrapy

我正试着通过Scrapy刮一个网站。然而，该网站有时极其缓慢，在浏览器中响应第一次请求几乎需要15-20秒。无论如何，有时候，当我尝试使用Scrapy爬行网站时，我总是会收到TCP超时错误。尽管网站在我的浏览器上打开得很好。这是一个信息： 2017-09-05 17:34:41 [scrapy.downloadermiddlewares.retry] DEBUG: Gave up retrying <GET http://www.hosane.com/result/spec ialList> (failed 16 times): TCP connection timed out:

浏览 1提问于2017-09-05得票数 3

回答已采纳

1回答

下载延迟和下载超时有什么区别？

python、scrapy

我对Scrapy请求的元头中的'download_timeout‘和'download_latency’之间的区别感到困惑。有什么关系？ Request( url = foo, callback = bar, headers = {'accept' : '*/*'}, meta={ 'download_timeout' :3, 'max_retry_times' : 40 }, )

浏览 13提问于2022-08-15得票数 -2

1回答

如何设置proxymesh与Scrapy？

python、scrapy、http-proxy

我有一些Scrapy代码，我想开始使用proxymesh。隐晦地说：对于scrapy爬行框架，必须设置http_proxy环境变量.然后 HttpProxyMiddleware。我理解如何设置http_proxy环境变量，但是如何“激活HttpProxyMiddleware”在文档中并不是完全显而易见的。我认为我需要在我的Scrapy项目中向settings.py添加以下内容： DOWNLOADER_MIDDLEWARES = { 'myproject.middleware.ProxyMeshMiddleware': 100, } 但是，我想我还需要添加一些

浏览 13提问于2017-01-22得票数 1

回答已采纳

1回答

刮痕停了几分钟

python、scrapy

正如您在日志中看到的，我暂停了一下。在23:31:45用了将近20秒的时间刮掉31页页面之前，他从23:31:45到23:33:34停顿了一下，并以正常模式继续工作。我如何解决这个问题或者提供更多关于这个问题的信息？某些设置 CONCURRENT_REQUESTS_PER_DOMAIN = 16 # Enabled only for check logs AUTOTHROTTLE_ENABLED = True AUTOTHROTTLE_MAX_DELAY = 0 日志记录 23:31:44 [scrapy.extensions.throttle] INFO: slot: None | c

浏览 2提问于2021-03-08得票数 1

回答已采纳

1回答

将抓取日志输出流式传输到websocket

python、websocket、scrapy、twisted

我正在尝试建立一个API，将运行时，通过websocket消息请求Scrapy网络蜘蛛。我想将日志记录输出转发到websocket客户端，这样您就可以看到--有时是相当长时间--运行的进程中发生了什么。完成后，我还将发送抓取的结果。因为可以在进程内运行Scrapy，所以我想这样做。我在这里找到了一种解决方案，可以将外部进程流式传输到websocket，但如果可以在服务器内运行Scrapy，这似乎是不正确的。我可以想象有两种方法可以在Twisted中工作:以某种方式使用LogObserver，或者定义一个LogHandler (可能是使用StringIO的StreamHandler )，

浏览 4提问于2015-11-27得票数 4

3回答

在Scrapy中，如何设置每个url的时间限制？

python、scrapy

我正在尝试抓取多个网站使用Scrapy链接提取器，并遵循为真(递归)。寻找一个解决方案，以设置时间限制爬行为每个网址在start_urls列表。谢谢 import scrapy class DmozItem(scrapy.Item): title = scrapy.Field() link = scrapy.Field() desc = scrapy.Field() class DmozSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["dmoz.org"

浏览 39提问于2016-07-28得票数 1

1回答

Scrapy:从python脚本中运行一个蜘蛛，并等待其执行结束。

python、django、scrapy、scrapy-spider

我创建了一个具有以下结构的小型Scrapy项目： scrapyProject/ ├── scrapy.cfg └── scrapyProject ├── __init__.py ├── items.py ├── pipelines.py ├── settings.py └── spiders ├── crawl_products.py └── __init__.py crawl_products.py包含蜘蛛products_spider。为了启动我正在使用的蜘蛛： scrapy crawl products_spid

浏览 4提问于2017-05-11得票数 2

1回答

如何使UI线程连续运行？

javascript、asynchronous、dom-events

据我所知，因为JavaScript是单线程的，所以类似于 setTimeout(0, function() { alert("Hello"); }); 不会阻塞UI线程，将等待直到UI线程出现中断，以便它能够“跳入”并运行。这是JavaScript的老话 “当没有事可做时，检查回调队列。但只有在没有事可做时才检查队列。” 我的意思是，有人能给我举一个例子，浏览器总是有一些事情要做，因此回调队列中的异步方法永远不会被执行？还是我对事件循环的理解完全扭曲了？

浏览 6提问于2016-01-22得票数 0

回答已采纳

1回答

抓取下载文件错误

error-handling、web-scraping、scrapy、http-status-code-301

我正在使用Scrapy中的文件管道从下载字幕文件。我得到了所有链接的列表，我的蜘蛛跟踪这些链接并将urls发送到管道。它可以开始工作，我可以下载第一个~100个文件，没有任何问题。但是，在此前后，链接似乎会创建错误： 2016-06-09 11:44:02刮伤警告:文件(代码: 301)：从这和我的代码有关吗？这些都在我的设置中： ITEM_PIPELINES = {'scrapy.pipelines.files.FilesPipeline': 1} FILES_STORE = 'C:/Users/Rohan/Documents/Fitroom/su

浏览 2提问于2016-06-09得票数 0