scrapy在第三次尝试后崩溃

Scrapy是一款用于数据抓取和网页爬虫的Python框架。它是基于Twisted异步网络框架开发的，可快速高效地爬取大规模的数据。Scrapy提供了简单易用的API和丰富的功能，可以自定义请求、数据解析、数据存储等操作，同时支持分布式和自动化部署。

Scrapy的主要特点和优势包括：

强大的爬虫能力：Scrapy支持并发请求和异步处理，能够高效地处理大量页面和数据。
可扩展性：Scrapy提供了插件式架构，可以方便地添加自定义的中间件、扩展和管道。
数据解析和提取：Scrapy内置了XPath和CSS选择器等强大的解析器，可以方便地从网页中提取所需的数据。
数据存储：Scrapy支持多种数据存储方式，包括文件、数据库、API等，可以根据需求选择适合的方式进行数据存储。
定时任务和调度：Scrapy提供了定时任务和调度功能，可以按需定时运行爬虫，并可通过设置优先级和并发数进行任务调度。
反爬虫处理：Scrapy提供了多种反爬虫处理策略，如随机User-Agent、IP代理池、Cookies管理等，可以有效应对网站的反爬虫机制。
分布式爬虫：Scrapy支持分布式爬取，可以在多个节点上同时运行爬虫，提高数据抓取的效率。

对于scrapy在第三次尝试后崩溃的情况，可能有以下几种原因和解决方法：

代码错误：检查代码中是否存在语法错误、逻辑错误或运行时异常，根据错误提示进行调试和修复。
爬取页面异常：尝试访问的页面可能出现异常，例如网络连接失败、网站反爬虫机制限制等。可以添加异常处理机制，如设置重试次数、更换User-Agent或使用代理IP等。
内存占用过高：Scrapy默认使用内存队列来管理请求和响应，如果处理大量数据时可能会导致内存占用过高。可以考虑使用分布式架构或使用其他队列管理工具来解决内存占用问题。
并发数过大：如果并发数设置过大，可能会导致系统资源不足，从而导致Scrapy崩溃。可以适当减小并发数，并根据服务器配置和网络状况进行调整。
数据存储异常：如果数据存储过程中出现异常，如数据库连接失败、写入异常等，可以检查存储相关的代码和配置，并确保数据库或存储服务正常运行。

以上是对于scrapy在第三次尝试后崩溃的一般处理方法。具体问题需要根据实际情况进行调试和处理。

通过ffmpeg进行Android视频裁剪

、、、

我已经从的github下载了视频裁剪代码。它第一次运行得很完美，但当我第二次尝试运行它时，代码毫无异常地崩溃了，然后当我在崩溃后第三次尝试运行它时，它又运行起来了！有人对这种行为有任何想法吗？我还在开发一个应用程序，其中有一个模块的裁剪视频。如果有人能帮助我，我将不胜感激。

浏览 0提问于2012-08-10得票数 7

1回答

用Scrapy / Splash抓取Google图像-被重定向

、、、

我正在尝试使用谷歌图片进行反向图像搜索的结果。我的起始网址是，它在浏览器中按预期工作。但是，当我试图通过Scrapy刮掉它时，请求会被重定向3次，如图所示；生成的网页如下所示而不是结果页面。这是我的Scrapy settings.py SPLASH_URL = 'http://splash:8050' DOWNLOADER_MIDDLEWARES = { 'scrapy_splash.SplashCookiesMiddleware': 723, 'scrapy_splash.SplashMidd

浏览 0提问于2017-05-17得票数 3

1回答

向UIPickerView添加名称时应用程序崩溃

、、、、

当我单击一个按钮时，UIAlertView会提示用户键入一个名称。然后这个名称被创建为一个新的'Customer‘对象，并插入到一个可变数组中。有一个单独的可变数组，名为“CustListByName”，它存储所有名称的列表。我遇到的问题是，当添加第二个或第三个名字时，应用程序崩溃。有时它在第二次尝试时发生，其他时候在第三次尝试时发生。除(lldb)外，调试器中没有给出任何信息。程序报告EXC_BAD_ACCESS，然后它将我转到一个屏幕上，上面有一堆汇编代码。崩溃发生在以下代码行中：本质上，它清除名称数组，然后根据对象数组重新填充它。我已经一步一步地学习了断点，但直到崩溃之前

浏览 0提问于2013-04-30得票数 0

2回答

在基本示例中，刮伤崩溃(不运行)

、、

我在Windows 7 x64上使用Python2.7 (Anaconda)。我通过pip安装了Scrapy。安装的版本为1.0.1。我正在尝试运行中的基本示例，即： import scrapy class StackOverflowSpider(scrapy.Spider): name = 'stackoverflow' start_urls = ['http://stackoverflow.com/questions?sort=votes'] def parse(self, response): for href

浏览 3提问于2015-07-17得票数 1

回答已采纳

2回答

Scrapy:使用特定的python版本

、、、

我试着在我的centOs中运行scrapy。由于centos附带安装了python2.6，而scrapy需要python2.7，所以我尝试创建虚拟环境并在其中运行scrapy，但仍然出现错误 Scrapy 0.24.4 requires Python 2.7. 以下是我关于启动爬行器的输出 (scrapyproject)[imadmin@IM03 tutorial]$ python --version Python 2.7.6 (scrapyproject)[imadmin@IM03 tutorial]$ scrapy gen_spider Scrapy 0.24.4 requires Pyt

浏览 0提问于2014-11-04得票数 3

1回答

Cypress long自动化脚本使Chrome浏览器崩溃，出现了W快照错误

、、

我在柏树上有浏览器崩溃的问题。我的自动化脚本是一个有点长的过程，由于它运行了几个场景。每次尝试运行第三种场景时，浏览器都会崩溃，并显示下面的屏幕。有时它会超时并抛出440个未知代码错误。如果我移动我的第一个场景，那么同样的行为。每次第一次和第二次执行完美，但是从第三次开始，所有测试都失败了。有没有人面临类似的问题？

浏览 0提问于2018-08-01得票数 12

回答已采纳

1回答

使用Splash截取某个URL的屏幕快照

、、

我正在尝试使用Scrapy Splash的render.png端点来截取以下网址的屏幕截图： https://www.laithwaites.co.uk/product/Kilikanoon-Baroota-Shiraz-2014/66877 在实践中，我使用python-requests发出请求，然而，即使当我在浏览器中进行测试时，它也会将cpu使用率推到100%以上(通过“top”测量)，挂起很长一段时间，最终迫使Splash崩溃。我猜它快没内存了。我尝试将maxrss从500增加到1500，但这没有帮助。我还尝试调整了render.png端点的等待/超时参数，但没有改变结果。如何使用

浏览 3提问于2017-05-23得票数 0

1回答

部署Scrapy时发生404错误

、、、、

我试图在Ubuntu16.04上部署Django+Scrapy项目。当我运行scrapyd-deploy时，正如中所描述的，-我得到： Packing version 1526639948 Deploying to project "first_scrapy" in http://my_ip/addversion.json Deploy failed (404): <full HTML code of '404.html' page> 当我运行scrapyd-deploy -l时-我看到了： default http://m

浏览 0提问于2018-05-18得票数 0

回答已采纳

1回答

哪些文件的名称来自结果dir(scrapy)命令？

、

通过下面的命令，我可以看到scrapy模块中的名称： >>>import scrapy >>>dir(scrapy) ['Field', 'FormRequest', 'Item', 'Request', 'Selector', 'Spider', '__all__', '__builtins__', '__doc__', '__file__', '__name__', '__

浏览 0提问于2018-07-28得票数 0

回答已采纳

1回答

混合崩溃(错误代码:内存不足)

我们对混音有意见。它在for循环中的第三次迭代中崩溃。当我们尝试运行验证方法时，它成功地运行了两个for循环迭代。然而，在第三次迭代中，混合崩溃。下面是我们代码的一部分： function verifyFairness (string memory clientSeed, string memory privateKey, uint minRange, uint maxRange, uint256[] memory results) public pure returns (bool) { string memory newPrivateKey = ""; fo

浏览 0提问于2021-04-12得票数 0

1回答

scrapy在第三次尝试后崩溃

、

我想使用代理来抓取一个网站，但在第三次尝试后，crowler崩溃了。这是我正在使用的代码。我有一个很大的代理数据库，我使用的是scrapy-rotating-proxies库。所以我得到了代理并将它们设置为ROTATING_PROXY_LIST。crowler启动并在一段时间后崩溃，没有检查下一个代理，也没有下载页面。 import scrapy,sqlite3 from scrapy.crawler import CrawlerProcess from rotating_proxies.policy import BanDetectionPolicy from rotating_proxi

浏览 34提问于2020-10-21得票数 0

1回答

从在Chrome dev工具中工作的表中提取<a>标记，但不是在scrapy shell上

、、、

我正在尝试提取论坛中所有帖子的标题() 我从chrome dev工具中提取了xpath，并能够在控制台上运行它，并看到预期的输出。但是，相同的xpath在scrapy shell中不起作用。附件是chrome devtools的工作演示 Scrapy Shell输出(未按预期工作)

浏览 2提问于2018-02-21得票数 0

1回答

防火墙防止在电子邮件验证之前创建帐户

、、

我正在致力于一个android项目，其中包括用户登录与电子邮件。但问题是这个。当我创建测试帐户时，它会立即出现在没有验证的firebase身份验证部分。但它也会发送验证邮件。我想阻止这一切。因为，例如，如果有人输入我的电子邮件地址，他们不能点击验证链接，因为它来到了我的邮箱。但是当我尝试用我的普通邮件地址注册时，应用程序就会崩溃，而且它不会再发送验证邮件了。我的目标是防止在没有验证的情况下创建帐户，并在第二次或第三次或任何尝试中发送验证电子邮件。

浏览 1提问于2018-09-08得票数 1

3回答

Phonegap|Android 4-从图片库拍照时应用程序有时会崩溃

、、

我使用以下代码在Phonegap (cordova 1.9.0)中获取来自图库或相机的照片，并将其包含在页面中： function getPhotoByGallery() { navigator.camera.getPicture(onPhotoSuccess, onFail, { quality : 50, destinationType: navigator.camera.DestinationType.FILE_URI, sourceType: navigator.camera.PictureSourceType.PHOTOLIBR

浏览 2提问于2012-07-13得票数 0

1回答

Scrapy FormRequest.from_response()方法

、

Im正在尝试使用Scrapy解析页面，为了显示隐藏的文本和价格，我在字段中输入了任意的邮政编码或随机数字： <input aria-label="Enter your zip code" role="textbox" name="searchTerm" class="form-control js-list-zip-entry-input" placeholder="ZIP Code" autocompletetype="find-a-store-search" tabindex="-

浏览 0提问于2016-11-30得票数 3

1回答

刮擦Mongodb重复密钥错误E11000 pymongo.errors.DuplicateKeyError: E11000

、、、

我是python，django，scrapy和mongodb的新手，我想做什么？尝试将数据从scrapy持久化到通过django创建的mongodb集合。这样，scrapy就可以从这个集合中读取数据并显示在页面上。到目前为止我做了什么？ django的模型 class Project(models.Model): title = models.CharField(max_length=100) desc = models.CharField(max_length=100) urls = models.CharField(max_length=100) 在项目迁移后生成

浏览 2提问于2019-12-31得票数 0

回答已采纳

1回答

抓取不从网页中提取链接，只有网页本身

、

import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule import protego class NirsoftSpider(CrawlSpider): name = 'sotw' allowed_domains = ['www.shadowofthewyrm.org'] start_urls = ['https://www.shadowofthewyrm.org/down

浏览 14提问于2022-04-08得票数 -1

回答已采纳

1回答

解析回调没有定义--简单的Webscraper (Scrapy)仍然没有运行

、、

我在谷歌上搜索了半天，但还是没能正常工作。也许你有洞察力？我试着开始我的刮刀不是从终端，而是从一个脚本。这在没有规则的情况下工作得很好，只需要生成正常的解析函数。一旦我使用规则并将“callback=”解析“”更改为“callback=”“parse_item”，任何事情都不再起作用。我尝试在我的解析函数中生成请求的基础上创建一个爬虫。结果是:我只刮了一个URL，但没有刮到域。制定规则似乎是可行的。因此，我实际上希望它能够运行，而不是在解析函数中处理输出。 import scrapy from scrapy.crawler import CrawlerProcess from bs4

浏览 2提问于2019-11-18得票数 2

回答已采纳

1回答

使用Scrapy将参数传递给回调函数，因此可以在以后崩溃时接收参数

、、

我试着让这个爬行器工作，如果请求单独抓取组件，它就能工作，但是当尝试使用Srapy回调函数来接收参数时，我会崩溃。其目标是在以格式写入输出json文件时填充多个页面和刮取数据：作者/专辑标题/歌词每个页面的数据都位于不同的网页上，所以我要使用Scrapy回调函数来实现这一点。另外，在Scrapy items.py中，上述每一项都定义为： import scrapy class TutorialItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() author

浏览 1提问于2016-12-07得票数 4

回答已采纳

3回答

Scrapy ImportError:无法导入名称xmlrpc_client

、、、

我正在尝试在Mac上使用scrapy，并且我已经成功地使用 pip install scrapy 在航站楼里。在那之后，当我尝试在Pycharm中“导入scrapy”时，遇到了上面的问题： Traceback (most recent call last): File "/Users/ziyuan/PycharmProjects/untitled/en.py", line 1, in <module> import scrape File "/Library/Python/2.7/site-packages/scrapy/__init__.py",

浏览 0提问于2016-02-26得票数 2

1回答

Scrapy: IndentationError:取消缩进不匹配任何外部缩进级别

、、

我在Scrapy splash上写了一个爬虫，我开始收到这个错误： File "C:\Users\Name\PycharmProjects\splash\project\project\spiders\scrapy.py", line 5 start_urls = [ ^ IndentationError: unindent does not match any outer indentation level 下面是我获得它的代码行： import scrapy from scrapy_splash import SplashRequest clas

浏览 25提问于2019-12-17得票数 1

1回答

有没有办法减少Scrapy的内存消耗？

、、、

我试图刮一个相当大的网站(约100万页)与Scrapy。蜘蛛工作很好，它能够刮几千页之前，不可避免地崩溃，因为内存不足。我尝试过的事情：使用-s JOBDIR=<DIRECTORY>：这给了我最初的改进，我能够爬行大约是前面方法的两倍的URL数量。然而，即使有了这个选项，Scrapy的内存消耗也会缓慢增加，直到它被内存不足的杀手杀死为止。防止不必要的功能，例如通过将日志限制从DEBUG提高到INFO来防止过多的输出。使用产语句而不是返回数组。将返回的数据保持在绝对最小值。在加强器机器上运行蜘蛛:这可以帮助我爬行更多，但不可避免的是，它会在稍后的某个时

浏览 5提问于2017-08-19得票数 7

2回答

目标C:计时器在第二次打开应用程序时崩溃

、、

我在头文件中声明了我的NSTimer。当点击play按钮时，它会打开计时器。下一次点击将禁用计时器。第三次点击会导致应用程序崩溃，没有出现错误消息。为什么会发生这种情况？ -(IBAction) play { if ([col1 isValid]) { [col1 invalidate]; } else { col1 = [NSTimer scheduledTimerWithTimeInterval:.8 target:self selector:@selector(playCol1) userInfo:nil repeats:YES]; }

浏览 0提问于2011-04-01得票数 2

回答已采纳

1回答

如何调用shell并将参数传递给爬行器

我习惯于这样做，以便检查HTML并找出xpath： $ scrapy shell http://www.domain.com/whatever 现在我有了一个爬虫，它必须接受一些参数。就像这样 $ scrapy crawl -a arg1=one MySpiderForDomainDotCom 而且我仍然想从命令行调用shell。但是现在scrapy尝试使用/加载我的爬行器(文档说它是这样做的)，我得到一个错误，说爬行器没有参数。我的问题是，当爬行器必须接收参数时，如何从命令行调用shell？我试过一些东西和组合，在网上搜索过，但什么都没有... PS: scrapy 0.22.2 PS2:

浏览 2提问于2014-03-20得票数 1

1回答

刮刮-无法将数据上传到s3

、

我正在使用刮除，从一个网站的数据正在运行良好，但我不能上传刮数据到亚马逊的s3。看一看刮擦的文档，这就是我的settings.py中的内容 FEED_URI = 's3://bucket/folder/data-%(time)s.csv' FEED_FORMAT = 'csv' AWS_ACCESS_KEY_ID = 'key-goes-here' AWS_SECRET_ACCESS_KEY = 'secret-key-goes-here' FEED_EXPORT_FIELDS = None FEED_STORAGES =

浏览 0提问于2018-06-19得票数 0

1回答

对多个MongoDB集合的抓取写入

、、、、

我尝试用pymongo和scrapy将不同的项目存储在不同的mongodb集合中。我应该如何创建一个管道: 1)当爬行器打开时启动pymongo连接的字典，2)通过名称处理和识别项，3)将项插入到给定请求中的一个集合中。我甚至不确定是否可以在scrapy中写入多个集合。任何有见地的人都将不胜感激！

浏览 7提问于2017-02-22得票数 1

回答已采纳

1回答

等待网页加载到Scrapy中

、、、

我正在使用scrapy脚本加载使用"yield“的URL。 MyUrl = "www.example.com" request = Request(MyUrl, callback=self.mydetail) yield request def mydetail(self, response): item['Description'] = response.xpath(".//table[@class='list']//text()").extract() return item URL似乎至少需要5秒才能

浏览 2提问于2015-02-27得票数 2

回答已采纳

1回答

无法使用scrapy response xpath捕获ul内的所有li元素

、、

我正在尝试使用scrapy抓取this website上可用的文章。我正在尝试使用以下代码。 class Langham_Crawler(scrapy.Spider): name = "Langham Hotels" def __init__(self, target_date, scraped_data_list, **kwargs): self.target_date = parser.parse(target_date).date() self.start_urls = ['https://www.langha

浏览 51提问于2021-03-17得票数 0

1回答

Firstcry.com刮板问题

、、、、

我正在尝试刮下面的网站- 。该网站使用AJAX (以XHR的形式)显示其搜索结果。现在，如果您看到我的代码，jsonresponse变量包含网站的json输出。现在，当我试图打印它时，它包含许多\ (反斜杠)。现在，如果您正确地看到了jsonresponse变量下面的代码，那么我已经注释了几行代码。这些都是我尝试删除所有反斜杠和这些- u'的尝试(在阅读了几个类似的问题之后，这里是堆栈溢出)。但是，在所有这些尝试之后，我无法删除 all 反斜杠和u'。现在，如果我不删除所有这些，我就无法使用它的键访问using响应，所以，对我来说，删除所有这些都是非常重要的。请帮我

浏览 1提问于2015-07-09得票数 0

回答已采纳

1回答

如何在Erlang/Elixir中自定义5秒后重启策略？

、

在Erlang/Elixir中，它可以当子进程崩溃时重新启动子进程。我有一个保存数据库连接的gen_server。如果连接不能实现，我想使进程崩溃，并在5秒后重新启动(或者更复杂的规则，例如第一次重启是100ms，第二次是500ms，第三次是1s…)。如何配置主控引擎来处理重启时间？默认情况下，gen_server将尝试无休止地重新启动。

浏览 0提问于2018-11-04得票数 0

3回答

无法运行'scrapy crawl quotes‘

、

无法使scrapy教程正常工作。我正在尝试学习scrapy，但我甚至无法运行教程。我曾尝试在python3.7和3.5.5中运行此程序，结果相同导入scrapy 类名称(scrapy.Spider)：QuotesSpider= "quotes“ def start_requests(self): urls = [ 'http://quotes.toscrape.com/page/1/', 'http://quotes.toscrape.com/page/2/', ] for url in ur

浏览 70提问于2019-01-24得票数 1

1回答

迁移不成功，DB就坏了。如何修复，或至少输出静态HTML没有插件？

、、

伙计们。所以，我开发了这个网站，当我尝试迁移时，它第三次崩溃了(我使用了几种技术，它们都在某个时候工作过，但没有使用这个网站)。页面/帖子列表是空的，尽管系统实际上显示了我以前创建的页面数。当我尝试编辑任何页面或帖子，甚至访问插件仪表板时，它都说我没有权限这样做。我可能使用Visual预览模式编辑页面，但有时无法保存更改，并且无法创建任何新页面。所以，现在，我正在尝试将当前的网站输出到HTML，这样我就可以使用一个新的Wordpress在确定的路径上工作，而我的客户却不知道(因为这个网站已经发布了，但是在HTML上)我正在做它，但是我不能使用任何插件，而且HTTrack似乎永远也做不到。有

浏览 0提问于2017-11-17得票数 0

1回答

让两个函数同时并行运行？

、、、

我有一个数组 myArray = array(url1,url2,...,url90) 我想并行执行这个命令3次。 scrapy crawl mySpider -a links=url 并且每次使用1个url， scrapy crawl mySpider -a links=url1 scrapy crawl mySpider -a links=url2 scrapy crawl mySpider -a links=url3 当第一个人完成他的工作时，他会得到另一个url，比如 scrapy crawl mySpider -a links=url4 我读了，然后和我尝试了一下： import t

浏览 11提问于2016-09-09得票数 0

回答已采纳

1回答

python scrapy转换为exe文件使用pyinstaller

、、

我正在尝试转换一个scrapy脚本到一个exe文件。main.py文件如下所示： from scrapy.crawler import CrawlerProcess from amazon.spiders.amazon_scraper import Spider spider = Spider() process = CrawlerProcess({ 'FEED_FORMAT': 'csv', 'FEED_URI': 'data.csv', 'DOWNLOAD_DELAY': 3,

浏览 2提问于2018-05-24得票数 2

2回答

我如何让scrapy管道用我的项目填充我的mongodb？

、、、

我如何让scrapy管道用我的项目填充我的mongodb？下面是我的代码目前的样子，它反映了我从scrapy文档中获得的信息。我还想提一下，我已经尝试过返回项目而不是放弃，以及尝试使用项目加载器。所有的方法似乎都有相同的结果。关于这一点，我想提到的是，如果我运行命令mongoimport --db mydb --collection mycoll --drop --jsonArray --file ~/path/to/scrapyoutput.json，我的数据库就会被填充(只要我让步并且不返回项)……我真的很想让这条管道正常工作。好的，下面是我的代码：这是我的蜘蛛 import

浏览 1提问于2017-02-27得票数 1

回答已采纳

1回答

Mac OS 10.10上的Scrapy尝试使用Python 3.4

、、

我在Yosemite上安装Scrapy时遇到了一些问题。我已经安装了所有的依赖项，但是当我尝试运行scrapy时，我得到了这个错误。 $ scrapy crawl my_crawler ---------- File "/Library/Frameworks/Python.framework/Versions/3.4/bin/scrapy", line 5, in <module> from pkg_resources import load_entry_point File "/Library/Frameworks/Python.framewor

浏览 2提问于2014-11-11得票数 0

1回答

NSZombieEnabled修复了我的应用？

、、

当我按下某个视图控制器，然后弹出它，然后重复看似随机的次数，应用程序最终崩溃，错误为EXC_BAD_ACCESS。这一点我每次都能可靠地复制。它主要发生在我第二次弹出视图控制器的时候，但有时也可能是第三次或第四次。因此，我决定设置NSZombieEnabled来查看问题所在。但启用此功能后，将无法复制崩溃。唯一改变的是，我在活动可执行文件的配置中选中了"NSZombieEnabled“旁边的复选框，应用程序就可以完美地工作了。你知道是什么原因造成的吗？谢谢

浏览 3提问于2010-11-12得票数 2

回答已采纳

1回答

Python 3.7安装Scrapy后崩溃

、、、、

Python3.7在虚拟环境中通过pip安装Scrapy之后崩溃。没有日志，只有一条消息说Python已经停止工作。我在Windows 8.1上。我怎么才能解决这个问题？

浏览 0提问于2018-09-13得票数 0

1回答

尝试在scrapy中抓取‘显示更多结果’href时出现重复结果错误

、、、

我正在尝试抓取一个有“显示更多结果”选项的网页。像这样设置限制xpath... (restrict_xpaths='//a[@href="#"]') 但是，由于结果显示在同一页上，scrapy希望再次抓取所有结果，并收到“重复结果”，并在运行爬虫程序时崩溃。我相信在阅读后，它可能与dont_filter选项有关？这是该网站的链接... http://www.skiddle.com/whats-on/London/?sort=18&from_date=15+Apr+2015&to_date=&radius=10&rkeep=&am

浏览 2提问于2015-04-16得票数 0

2回答

Scrapy错误--ImportError:未加载库

、、、、

我正在尝试使用的一个非常简单的演示程序对Scrapy进行我的第一个抓取操作，我得到了一个未加载的ImportError: Library，如下所示。 gchrist1$ scrapy crawl dmoz 2015-12-20 17:48:33 [scrapy] INFO: Scrapy 1.0.3 started (bot: scrapybot) 2015-12-20 17:48:33 [scrapy] INFO: Optional features available: ssl, http11, boto 2015-12-20 17:48:33 [scrapy] INFO: Over

浏览 8提问于2015-12-21得票数 2

1回答

Py2app因刮伤而失败

、、、

如果一直试图创建我的项目的独立版本。我已经能够创建安装文件和别名应用程序与py2app，没有任何问题。运行别名应用程序没有问题。但是，在创建独立文件时，应用程序不再运行。首先，打开应用程序时收到的错误如下： File "scrapy/__init__.pyc", line 10, in <module> File "pkgutil.pyc", line 616, in get_data File "importlib/util.pyc", line 83, in find_spec AttributeError: 'None

浏览 1提问于2018-06-13得票数 0

1回答

iPhone:尝试切换视图仅在第三个开关上生成EXC_BAD_ACCESS

、、

我已经实现了一个应用程序，它显示了一个地图上有很多别针。如果你按下一个引脚，你会看到另一个视图，它显示了引脚后面的数据。一个按钮会将您带回地图。我的问题是，在这个方法中，第三次触摸引脚时，程序会崩溃，并显示一个EXC_BAD_ACCESS： - (void) switchViews { if(self.details == nil){ Kundendetails *detailAnsicht = [[Kundendetails alloc] initWithNibName:@"ViewList" bundle:nil];

浏览 0提问于2010-02-15得票数 0

回答已采纳

1回答

刮蜘蛛精刮工艺不刮任何东西

、、

我有一只蜘蛛在亚马逊搜索信息。蜘蛛读取一个.txt文件，在该文件中我编写了它必须搜索的产品，然后输入该产品的亚马逊页面，例如：我使用keyword=laptop来更改要搜索的产品等等。我遇到的问题是蜘蛛不起作用，这很奇怪，因为一周前它做的还不错。另外，控制台上没有出现错误，爬行器启动，“爬行”关键字，然后停止。这是完整的蜘蛛 import scrapy import re import string import random from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import

浏览 1提问于2019-02-01得票数 2

回答已采纳

1回答

executeFetchRequest在第三次调用时崩溃

、、

我在Objective-C代码中遇到了一个奇怪的问题。我有一个视图控制器，在那里我可以在"viewWillAppear“中调用自己的loadData方法。直到视图第三次可见时，此操作才会生效。调用时，应用程序崩溃而没有任何异常或其他提示 NSArray *storeListArray = [managedObjectContext executeFetchRequest:fetchRequest error:&error]; 我检查了一下，managedObjectContext不是不小心在其他地方发布的。但事实似乎并非如此。fetchRequest是在上面的调用之前创建的。

浏览 2提问于2010-10-14得票数 4

回答已采纳

2回答

第一次文件在blueimp文件上传中未上载

、

我正在使用Blueimp JqueryFileUpload，当我试图上传我的第一个文件它没有上传。但是在我尝试了相同的文件或者其他文件之后。我不知道第一次上传有什么问题。在调试过程中，我可以发现，fileupload方法不是为第一次上传触发的，而是在连续上传之后进行的，比如第二次、第三次、第三次。其触发 $('#fileUpload').fileupload({ url: 'home/upload', dataType: 'json',

浏览 3提问于2013-10-16得票数 0

回答已采纳

2回答

将3个视图推送到堆栈后，UINavigationController崩溃

、

我有一个导航控制器，它的结构如下： Category Item Item Detail 我可以选择一个类别，然后选择一个项目来查看其详细信息。我可以这样做两次，例如，转到项目列表并选择另一个项目。如果我第三次尝试，应用程序崩溃，我在堆栈中得到objc_msgSend，但仅此而已。但是，我没有选择另一个项目，而是转到类别列表，选择一个不同的类别，我可以在该类别中选择两个项目，然后它也会崩溃。是什么导致了这种情况？谢谢

浏览 0提问于2010-04-27得票数 0

回答已采纳

2回答

Scrapy爬行器不会因使用CloseSpider扩展而终止

、、、

我设置了一个Scrapy爬行器来解析xml提要，处理大约20,000条记录。出于开发的目的，我想限制处理的项目数量。通过阅读我确定的Scrapy文档，我需要使用扩展。我遵循了如何启用它的指南-在我的爬虫配置中，我有以下内容： CLOSESPIDER_ITEMCOUNT = 1 EXTENSIONS = { 'scrapy.extensions.closespider.CloseSpider': 500, } 但是，我的爬行器从不终止-我知道CONCURRENT_REQUESTS设置会影响爬行器实际终止的时间(因为它将继续处理每个并发请求)，但它只设置为默认值16，而

浏览 0提问于2017-06-15得票数 4

1回答

动态内容抓取

、、

我们可以使用Scrapy从由Javascript加载的网页中获取内容吗？我正在尝试从页面中抓取使用示例，但是由于它们是使用Javascript作为JSON对象加载的，所以我无法使用Scrapy获取它们。你能提出什么是处理这些问题的最佳方法吗？

浏览 5提问于2016-11-22得票数 0

回答已采纳

2回答

如何修复错误"ModuleNotFoundError:没有名为‘scrapy.contrib’的模块“

、

当我试图运行我的项目时，我在scrapy控制台中得到了错误ModuleNotFoundError: No module named 'scrapy.contrib'。我注意到python linter在下面划线： from scrapy.contrib.spiders import CrawlSpider, Rule 这似乎是错误发生在那里。我该怎么解决这个问题呢？

浏览 1提问于2021-06-04得票数 0

1回答

刮痕爬行不爬行任何网址

、

这是我的第一个蜘蛛密码。当我在cmd中执行这段代码时。日志显示urls甚至没有被爬行，并且其中没有调试消息。在任何地方都找不到解决这个问题的办法。我不明白是怎么回事。有人能帮我做这个吗。我的代码： import scrapy class QuotesSpider(scrapy.Spider): name = "quotes_spider" def start_request(self): urls = ["http://quotes.toscrape.com/page/1/", "h

浏览 1提问于2021-06-19得票数 1

回答已采纳