给出了从代码中运行scrapy爬虫的许多方法:
import scrapy
from scrapy.crawler import CrawlerProcess
class MySpider(scrapy.Spider):
# Your spider definition
...
process = CrawlerProcess({
'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'
})
process.crawl(MySpider)
process.
我正在学习爬虫,在一些基本的爬虫之后,我尝试从github下载谷歌学者爬虫大师,看看它是如何运行的,在几个我可以修复的错误之后,我遇到了一个ModuleNotFoundError: No module named 'proxy'错误(middleware.py文件,from proxy import PROXIES行是问题)。
这段代码有一些问题,其中包含python 3.x版本中不再支持/建议的解决方案,包括后来被重命名/移动的模块,但我无法确定这是否也是这种情况,希望能得到帮助。
我有一个运行多个Python爬虫实例的脚本,Crawler是int /root/crawler/batchscript.py
在/root/crawler/,我有一个刮擦的爬虫。
爬虫工作得很好。
batchscript.py看起来像这样,(只发布相关代码)
from scrapy.settings import Settings
from scrapy.utils.project import get_project_settings
from amazon_crawler.spiders.amazon_scraper import MySpider
process = CrawlerPr
我试图在一个vps上运行一个爬虫(使用scrapyjs,它使用python-gtk2)。在运行爬行器时,我得到了错误
/root/myporj/venv/local/lib/python2.7/dist-packages/gtk-2.0/gtk/__init__.py:57: GtkWarning: could not open display
如何在无头设置中运行此程序?
我想知道从另一个python脚本运行爬虫的最好方法是什么。我的scrapy项目由4个不同的爬虫组成,它们都创建了帮助其他蜘蛛工作的文件,其中一些必须读取一些文件才能工作。这部分已经完成了,但是是单独的(独立于控制台运行爬行器)。 例如,我如何才能做这样的事情? if (productToSearchIsBlue):
#Make one spider crawl
else:
#Make another spider crawl 我的最终计划是将完整的程序上传到云上,并让它自动运行,这能做到吗? 我找到了这个问题的一些答案,但它们太老了,可能是另一个版本的scrapy。
我正在尝试从安装在USB棒上的WinPython上运行一个抓取网络爬虫,这样爬虫就可以在任何windows计算机上使用,而不需要在桌面上安装python。
我已经安装了WinPython (32位,2.7.6.4),并使用pip安装了除pyOpenSSL之外的所有依赖包--为此我下载了二进制文件。在那之后,我安装了scrapy。但是,每当我在命令提示符中键入scrapy时,都会出现一条错误消息:
'scrapy' is not recognized as an internal or external command, operable program or batch fil