如何在不同的Python脚本中调用Scrapy Spider

文章/答案/技术大牛

发布

1回答

如何在一个python脚本中运行不同的scrapy项目

python、scrapy、web-crawler

我是Scrapy的新手，在同一个脚本中调用多个爬虫项目时遇到了一些困难。我有三个抓取项目，分别抓取不同的网页，并将数据存储到SQLite中。但是我不知道如何使用一个Python脚本来管理这些项目。以下是我尝试过的内容: 1.我在官方文档中看到使用了CrawlerProcess，但是这段代码不能通过管道将数据存储到SQLite中。示例代码如下： import scrapy</

浏览 3提问于2016-04-21得票数 0

1回答

从当前脚本中添加擦伤中间件

python、scrapy、web-crawler

我已经在一个python脚本中安装了我的抓取爬虫：import csvfrom scrapy.http import FormRequest test = scrapy.Field() classSpider(<e

浏览 1提问于2016-03-04得票数 2

回答已采纳

1回答

在运行时环境(如cgi、wsgi )中调用scrapy

scrapy

我想模拟是否有给我提供HtmlXPathSelector (hxs)对象的url的刮伤实用程序？

浏览 5提问于2013-06-24得票数 1

2回答

从Python脚本中运行scrapy* - CSV导出程序不起作用*

python、python-2.7、export、twisted、scrapy

当我从命令行运行它时，我的刮取器工作得很好，但是当我试图在python脚本中运行它(使用使用Twisted的方法概述 )时，它不会输出它通常所做的两个CSV文件。我有一个创建和填充这些文件的管道，其中一个使用CsvItemExporter()，另一个使用writeCsvFile()。命令行末尾的输出表明，预期的页面数已被爬行，并且爬行器似乎已经正常完成。我没有收到任何错误信息。将打印语句和语法错误插入管道没有任何影响，因

浏览 3提问于2013-07-20得票数 6

回答已采纳

1回答

python、python-3.x、pandas、web-scraping、scrapy

我正在做一个项目，我需要在一个不同的python文件中调用我的Scrapy Spider，以便在处理之前更新之前抓取的数据。我不知道该如何做到这一点。我还在学习scrapy，所以如果你能确切地解释我应该做什么，那就太好了。我的文件结构如下： ? 这里的calculator.py是我要调用爬行器的外部文件。spidey.py如下所示： i

浏览 43提问于2020-12-17得票数 0

回答已采纳

1回答

Scrapy with Splash:没有名为scrapy_splash的模块

python、scrapy、splash-screen

我正在学习如何在scrapy中使用splash。我正在做这个教程：。$ scrapy crawl spider1DOWNLOADER_MIDDLEWARES = {'scrapy_splash.SplashMiddl

浏览 19提问于2017-01-11得票数 0

1回答

-第一个任务后的“流程完成”，不会运行以下作业。

python、scrapy、scheduled-tasks、scheduler、scrapy-spider

我使用Python ()实现了一个网络爬虫。现在我想自动运行这些进程。我查看了模块Schedule (，)，并编写了以下代码：import timefrom scrapers.scrapy</em

浏览 5提问于2018-03-16得票数 0

1回答

如何将来自不同项目的蜘蛛与python脚本中不同的管道调用？

python、api、windows-7、scrapy、scrapyd

在不同的REsale、REbuy和RErent项目中，我有三个不同的蜘蛛，每个蜘蛛都有自己的管道，将它们的输出定向到服务器上的各种MySQL表。当使用scrapy crawl调用时，它们都运行正常。最终，我想要一个脚本，它可以作为一个服务运行在我的windows 7机器上，它可以以不同的时间间隔运行蜘蛛。自动取款机，我卡在擦伤的API上了。我甚至

浏览 3提问于2013-11-10得票数 0

回答已采纳

1回答

如何让Scrapy在python项目中爬行？

python、scrapy

我想在这个url上保存信息，我按照Scrapy教程学习了如何使用这个工具。但是，有没有一种方法可以在MyScrapClass.crawl()这样的Python项目中启动爬行，而不是使用linux命令scrapy crawl MyScrapProject？

浏览 1提问于2016-03-21得票数 0

4回答

在刮刮中运行多个蜘蛛

python、scrapy、web-crawler

例如，如果我有两个包含不同的，那么就可以使用scrapy中的。现在，我想写两个单独的蜘蛛各一个，并希望同时运行这两个蜘蛛。

浏览 8提问于2012-06-08得票数 8

回答已采纳

2回答

从python脚本调用scrapy而不是创建JSON输出文件

python、json、web-crawler、scrapy

下面是我用来调用scrapy的python脚本，答案是 reactor.stop()from scrapy import log,signals from scrapy.contrib.exporter import JsonItemExporterfrom scrapy.xlib.

浏览 4提问于2013-03-19得票数 3

1回答

从项目目录外部运行的scrapy引发异常

python、scrapy

我在下面的目录中有一个刮擦的项目“教程”项目目录结构如下所示。我想通过我的自定义python脚本runspiders.py运行这个蜘蛛。脚本从scrapy项目文件夹内运行时，蜘蛛将正确运行。C:\wamp64\www\tutorial>python runspiders.py 但是当自定义python脚本从项目文件夹外部运行时，scrapy会引

浏览 9提问于2016-12-14得票数 2

4回答

从脚本中抓取爬虫

python、python-2.7、scrapy

我想从脚本而不是scrap crawl运行爬行器有什么需要帮忙的吗？

浏览 1提问于2014-02-10得票数 23

5回答

在脚本文件函数中获取Scrapy* crawler输出/结果*

python、scrapy、web-crawler、twisted、scrapy-spider

我使用脚本文件在scrapy项目中运行爬行器，并且爬行器记录爬虫的输出/结果。但是我想在脚本文件中使用爬行器输出/结果，在某些函数中，.I不想将输出/结果保存在任何文件或DB中。下面是从获取的脚本代码from scrapy.crawler import CrawlerRunner from scrapy.util

浏览 3提问于2016-10-25得票数 12

5回答

使用Visual Studio进行抓取调试

python、visual-studio-2012、scrapy

我是Scrapy和Python的新手，我很喜欢它。可以使用Visual Studio调试scrapy项目吗？如果可能，如何实现？

浏览 0提问于2014-07-21得票数 4

3回答

抓取:爬行多个蜘蛛，共享相同的项、管道和设置，但具有不同的输出。

python、web-scraping、scrapy、scrapy-spider

我试图使用Python脚本运行多个蜘蛛，该脚本基于官方文档中提供的代码。我的scrapy项目包含多重爬行器(Spider1、Spider2、等)，它爬行不同的网站，并将每个网站的内容保存在不同的JSON文件中(output1.json、output2.json等)。在不同网站上收集的项目具有相同的</

浏览 2提问于2017-07-25得票数 3

回答已采纳

2回答

对抓取爬行器的递归调用

web-scraping、scrapy

如何在完成后重新启动相同的爬行器，以便它可以获取下一个要处理的urls列表。由于我的数据库太大，我不能一次通过所有的网站。有没有办法在蜘蛛处理完100个网站后调用它？请帮我解决这个问题，因为我对scrapy还不熟悉。或者，是否有任何选项可以安排爬行器在指定的时间间隔后运行？在当前代码中，我可以从域获取urls并将其存储在数据库中。但我需要一直运行蜘蛛。有没有办法只运行一次，它就会一直运行，直到没有网站可处理。请帮帮忙。

浏览 4提问于2016-05-02得票数 1

2回答

Python ->使用刮伤蜘蛛作为函数

python、web-scraping、scrapy

所以我在spiders.py中有下面的抓取蜘蛛 name = "clips" yield { } 但关键的一点是，我希望将

浏览 11提问于2022-01-27得票数 0

回答已采纳

1回答

Scrapy:在没有爬虫的情况下以脚本方式发送帖子

python、scrapy

/usr/bin/env python3 print(failure) print(response) callback=callback, errback=errb

浏览 2提问于2020-01-11得票数 0

5回答

在本地运行Scrapy中的所有爬行器

python、web-crawler、scrapy

有没有办法在不使用Scrapy守护进程的情况下运行Scrapy项目中的所有爬行器？过去有一种方法可以用scrapy crawl运行多个爬行器，但这种语法被删除了，Scrapy的代码也发生了很大的变化。我尝试创建自己的命令：from scrapy.utils.misc import load_object from <

浏览 0提问于2013-03-22得票数 17

回答已采纳

点击加载更多

如何在一个python脚本中运行不同的scrapy项目

从当前脚本中添加擦伤中间件

在运行时环境(如cgi、wsgi )中调用scrapy

从Python脚本中运行scrapy* - CSV导出程序不起作用*