Python crawler问题

是指使用Python编写的网络爬虫程序中遇到的问题。网络爬虫是一种自动化程序，用于从互联网上获取信息。Python是一种流行的编程语言，具有丰富的库和工具，使其成为开发网络爬虫的理想选择。

在开发Python爬虫时，可能会遇到以下问题：

反爬虫机制：许多网站会采取反爬虫措施，如限制访问频率、验证码、动态内容加载等。为了应对这些机制，可以使用代理IP、随机User-Agent、延时请求等方法来模拟人类行为，降低被封禁的风险。
动态网页内容获取：某些网页使用JavaScript动态加载内容，传统的爬虫无法直接获取到完整的页面数据。可以使用Selenium等工具模拟浏览器行为，或者分析网页的Ajax请求，直接获取动态加载的数据。
数据解析与提取：爬取到的网页通常是HTML或JSON格式的数据，需要进行解析和提取有用的信息。可以使用Python的库，如BeautifulSoup、Scrapy等来解析HTML，或者使用json库解析JSON数据。
高效并发处理：爬取大量网页时，需要考虑并发处理的效率。可以使用多线程、多进程或异步编程来提高爬取速度。
数据存储与管理：爬取到的数据需要进行存储和管理。可以使用数据库（如MySQL、MongoDB）或文件（如CSV、JSON）来保存数据，并结合Python的相关库进行操作。
爬虫策略与规则：为了遵守网站的规则和法律法规，需要制定合理的爬虫策略。可以设置爬虫的访问频率、遵守robots.txt协议、处理异常情况等。

Python爬虫在各个领域都有广泛的应用，例如：

数据采集与分析：爬虫可以用于采集各类网站上的数据，如新闻、论坛、社交媒体等，用于数据分析和挖掘。
搜索引擎优化：爬虫可以用于抓取网页内容，进行关键词提取和分析，帮助网站优化排名。
价格比较与监测：爬虫可以用于抓取电商网站上的商品信息，进行价格比较和监测，帮助用户找到最佳购买选项。
舆情监测与分析：爬虫可以用于抓取新闻、社交媒体等网站上的信息，进行舆情监测和分析，帮助企业了解市场动态和用户反馈。

腾讯云提供了一系列与爬虫相关的产品和服务，包括：

云服务器（CVM）：提供弹性的虚拟服务器，可用于部署爬虫程序。
云数据库MySQL版（CDB）：提供稳定可靠的MySQL数据库服务，用于存储爬取到的数据。
云存储（COS）：提供高可靠、低成本的对象存储服务，用于存储爬取到的文件和图片。
人工智能平台（AI Lab）：提供丰富的人工智能算法和模型，可用于数据分析和挖掘。
云安全中心（SSC）：提供全方位的安全防护和监控，保护爬虫程序和数据的安全。

更多关于腾讯云产品的详细介绍和使用方法，请访问腾讯云官方网站：https://cloud.tencent.com/

页面内容是否对你有帮助？

有帮助

没帮助

无法将scrapy模块作为库导入

、

我正在尝试从python脚本运行爬行器，下面是一个抓取的文档： from twisted.internet import reactor from scrapy.crawler import Crawler from scrapy import log, signals from testspiders.spiders.followall import FollowAllSpider from scrapy.utils.project import get_project_settings spider = FollowAllSpider(domain='scrapinghub.co

浏览 2提问于2014-04-17得票数 0

2回答

在Python 3中使用Scrapy时扭曲的导入错误

、、、、

在Python3中使用Scrapy时，我遇到了以下错误。我使用的是Ubuntu16.04，安装python3-twisted并没有解决这个问题。 File "/home/fran/.local/lib/python3.5/site-packages/scrapy/crawler.py", line 150, in crawl crawler = self._create_crawler(crawler_or_spidercls) File "/home/fran/.local/lib/python3.5/site-packages/scrapy/craw

浏览 0提问于2016-06-19得票数 0

回答已采纳

2回答

使用Selenium运行ChromeDriver和FirefoxDriver时出现的问题

、

已尝试将驱动程序添加到正确的路径。在代码中提到了路径，但使用chromedriver却得到了运行时错误。看不到代码有什么问题。怎么了？已尝试将路径添加到代码。导入selenium和webdriver。已将驱动程序放置在python目录中。 from selenium import webdriver #to open the page in Chrome.firefox driver = webdriver.Chrome("executable_path=D:\Python\Crawler\chromedriver_win32") driver.get("htt

浏览 29提问于2019-10-11得票数 0

2回答

如何导入设置以覆盖它

、、

这是我的代码 class Test(Spider): self.settings.overrides['JOBDIR']= "seen" 我得到了： File "C:\Python27\lib\site-packages\scrapy\spider.py", line 46, in settings return self.crawler.settings File "C:\Python27\lib\site-packages\scrapy\spider.py", line 41, in crawler

浏览 5提问于2014-08-18得票数 3

2回答

Python爬虫:连接超时

、、

我正在尝试实现一个简单的web爬虫，我已经编写了一个简单的代码来开始:有两个模块fetcher.py和crawler.py。以下是这些文件： fetcher.py： import urllib2 import re def fetcher(s): "fetch a web page from a url" try: req = urllib2.Request(s) urlResponse = urllib2.urlopen(req).read() except urllib2.UR

浏览 1提问于2013-01-23得票数 0

回答已采纳

2回答

运行命令"scrapy crawl quotes“时，scrapy教程中出现无效语法错误

、、、

我试图运行这里给出的代码，但是我得到了下面的错误： Deeps-MacBook-Pro:tutorial project$ scrapy crawl quotes 2018-07-24 17:16:24 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tutorial) 2018-07-24 17:16:24 [scrapy.utils.log] INFO: Versions: lxml 4.2.3.0, libxml2 2.9.4, cssselect 1.0.3, parsel 1.5.0, w3lib 1.19.0, Twisted

浏览 35提问于2018-07-24得票数 1

1回答

Scrapy - TypeError:此构造函数不带参数

、、

在尝试运行我的刮取程序时，我一直收到以下错误: TypeError:此构造函数不带参数。我四处寻找，但找不到任何东西来帮助解决我的问题。我不知道我是否只是有一个错误，我错过了或类似的东西，但任何帮助将不胜感激。附加的代码是middlewares.py中给出错误的部分，而不是整个文件。 # middlewares.py import random from copy import copy class ProfileMiddleware: @classmethod def from_crawler(cls, crawler, *args, **kwargs):

浏览 0提问于2019-05-23得票数 1

回答已采纳

1回答

Python Scrapy一直返回“无效语法”

、

我对scrapy非常陌生，今天是我第一次使用它。我在最基本的代码中遇到了一个问题。我一直收到一个错误，说是invalid syntax。这是我的代码，下面是我得到的错误。我是在终端中运行这个，而不是python本身。 # -*- coding: utf-8 -*- import scrapy class QuotesSpider(scrapy.Spider): name = 'quotes' allowed_domains = ['toscrape.com'] start_urls = ['http://toscrape.co

浏览 0提问于2018-09-12得票数 2

1回答

ModuleNotFoundError: MacOs上没有命名为‘scrapy’的模块“和"bash: scrapy:命令未找到”

、、、、

大家早上好, 首先，我想说得很清楚，我曾经问过这个问题，如果已经回答了，我就会解决这个问题。我发现：已经做了一年多了，答案并没有解决任何与我相关的问题，因为我是写它的人。我觉得我的MacOs有问题。当我像在上写这段代码时，在安装python3和scrapy之后，它根本不工作使用 brew install python3 还有刮伤 pip install scrapy 然后，我使用了刮除网站的代码： import scrapy class BlogSpider(scrapy.Spider): name = 'blogspider' start_urls =

浏览 0提问于2018-07-18得票数 0

2回答

如何将爬行的数据从Scrapy存储到FTP作为csv？

、、

我的刮痕settings.py from datetime import datetime file_name = datetime.today().strftime('%Y-%m-%d_%H%M_') save_name = file_name + 'Mobile_Nshopping' FEED_URI = 'ftp://myusername:mypassword@ftp.mymail.com/uploads/%(save_name)s.csv' 当我运行我的蜘蛛抓取my_project_name时出错.我可以创建一条管道吗？ \scrapy\

浏览 3提问于2021-04-28得票数 0

1回答

使用-t csv -o data.csv时出现擦伤错误

、、

我让我的scrapy机器人在两个不同的系统上运行。其中一个工作正常，而另一个不工作。它们是一模一样的复制品。当我使用-t csv -o data.csv时，我得到以下回溯。 Traceback (most recent call last): File "/home/scraper/.python/bin/scrapy", line 4, in <module> execute() File "/home/scraper/.python/lib/python2.7/site-packages/scrapy/cmdline.py", l

浏览 4提问于2014-01-17得票数 0

1回答

来自python脚本的爬行器

、、

根据documentation ，我正在尝试从python脚本运行scrapy def CrawlTest(): spider = PitchforkSpider(domain='"pitchfork.com"') crawler = Crawler(Settings()) crawler.configure() crawler.crawl(spider) crawler.start() log.start() reactor.run() # the script will block here 但是当我

浏览 5提问于2016-09-26得票数 0

回答已采纳

1回答

ImportError:没有名为“蜘蛛”的模块

、

在命令行上，我执行以下简单尝试来调用scrapy： scrapy version 我得到以下错误： $ scrapy version Traceback (most recent call last): File "/Users/nathanielford/virtualenvironments/crawler/bin/scrapy", line 11, in <module> sys.exit(execute()) File "/Users/nathanielford/virtualenvironments/crawler/lib/pyth

浏览 0提问于2016-12-07得票数 5

回答已采纳

2回答

从Python运行的刮伤

、、、

我试图从Python中运行Scrapy。我正在看这段代码，其中()： from twisted.internet import reactor from scrapy.crawler import Crawler from scrapy.settings import Settings from scrapy import log from testspiders.spiders.followall import FollowAllSpider spider = FollowAllSpider(domain='scrapinghub.com') crawler = Crawl

浏览 8提问于2013-08-07得票数 3

回答已采纳

1回答

如何通过scrapinghub使用peewee

、、

我想使用peewee将我的数据保存到远程机器上。当我运行我的爬虫程序时，我发现了以下错误， File "/usr/local/lib/python2.7/site-packages/scrapy/commands/crawl.py", line 57, in run self.crawler_process.crawl(spname, **opts.spargs) File "/usr/local/lib/python2.7/site-packages/scrapy/crawler.py", line 163, in crawl return

浏览 1提问于2017-04-15得票数 0

1回答

将蜘蛛名称传递给线程类

、、

我在尝试穿线和刮擦。但是，我不知道我做错了什么。只需将蜘蛛名称传递给线程类&获取KeyError。代码如下： import threading from PyQt4 import QtCore, QtGui from scrapy.crawler import CrawlerRunner from twisted.internet import reactor, defer from scrapy.utils.project import get_project_settings from scrapy.utils.log import configure_logging from m

浏览 5提问于2017-04-19得票数 0

回答已采纳

1回答

Linux服务器上的Scrapy KeyError，但不是Windows上的

、、、、

我的Scrapy在我的本地机器Windows上运行得很好。然后我尝试在我的AWS Linux服务器上运行它，但我得到了以下结果 Traceback (most recent call last): File "run<spider_name>.py", line 12, in <module> spider_name).split()) File "/usr/lib/python2.7/site-packages/scrapy/cmdline.py", line 142, in execute _run_print

浏览 12提问于2017-02-17得票数 0

回答已采纳

4回答

在Python中运行Scrapy任务

、

当我从命令行“一次性”运行Scrapy脚本时，它似乎工作得很好，但如果我尝试在同一python会话中运行代码两次，我会收到以下错误： "ReactorNotRestartable“ 为什么？有问题的代码(最后一行抛出错误)： crawler = CrawlerProcess(settings) crawler.install() crawler.configure() # schedule spider #crawler.crawl(MySpider()) spider = MySpider() crawler.queue.append_spider(spider) # star

浏览 0提问于2011-11-03得票数 10

回答已采纳

1回答

运行scrapy教程示例时导入错误(scrapy爬行dmoz / scrapy.core.downloader.handlers.s3.S3DownloadHandler) )

、、

我正在运行本教程中的示例。我正在运行Python2.7.8。我用pip下载Scrapy和其他必需的软件包。我相信我正确地遵循了这个教程，但我不能运行蜘蛛。我以前读过关于同一个问题的文章，但其他人仍然无法解决这个问题。我很感谢你的帮助。 C:\tutorial>scrapy crawl dmoz 2014-10-22 02:14:56-0400 [scrapy] INFO: Scrapy 0.24.4 started (bot: tutorial) 2014-10-22 02:14:56-0400 [scrapy] INFO: Optional features available: s

浏览 2提问于2014-10-22得票数 0

回答已采纳

1回答

运行python脚本Phantomjs和Selenium时的超时问题

、、、

我正在使用Phontomjs和Selenium运行python脚本。我正面临超时的问题。它在20-50分钟后停了下来。我需要一个解决方案，这样我就可以在没有超时问题的情况下运行我的脚本。请问问题在哪里，我该如何解决？ The input file cannot be read or no in proper format. Traceback (most recent call last): File "links_crawler.py", line 147, in <module> crawler.Run() Fi

浏览 4提问于2015-11-20得票数 0

2回答

AttributeError:在使用scrapy时，“模块”对象没有属性“数据库”

、、

我试图在我的项目的根目录中运行scrapy shell，但是我一直收到一个关于某种数据库设置的模糊错误。我不确定这是否是SQLAlchemy thing...or，我的模式定义有什么问题吗？如果我从项目路径之外的任何其他目录运行scrapy shell http://some_website.com，则没有问题。试图启动外壳： me@me:~/my_spider$ scrapy shell http://some_website.com 2015-12-13 15:15:58-0800 [scrapy] INFO: Scrapy 0.24.4 started (bot: my_bot) 2

浏览 0提问于2015-12-13得票数 2

回答已采纳

2回答

crontab返回错误

、

我正在尝试用Linux crontab运行一些爬虫程序。这应该转到Python环境，其中包含 pyenv shell jake-crawler 这是我的crontab -e */10 * * * * /home/ammt/apps/crawler/scripts/bat_start.sh 这将每10分钟运行一次。当我键入以下命令时，此命令行工作正常 (jake-crawler) [jake@KIBA_OM crawler]$ /home/jake/apps/crawler/scripts/bat_start.sh [DEBUG|run.py:30] 2017-09-24 19:55:49,

浏览 2提问于2017-09-24得票数 0

1回答

Cronjob:在虚拟env中在服务器上运行Python脚本

、、

我在网上浏览了无数的问题和答案。然而，我无法使我的代码工作。很抱歉像其他人一样提出了这个问题。我的目录中有一个python脚本： test_codes/test_mail/test_crawler.py 我有我的名家： .virtualenvs/test_crawler/bin/python 所以我设立了一个这样的职位： * * * * * .virtualenvs/test_crawler/bin/python test_codes/test_mail/test_crawler.py > /test_codes/test_mail/cronlogs.log 2>&1

浏览 2提问于2022-04-20得票数 1

1回答

如何使用pip在Scrapinghub上安装中间件

、、、

我有一个很粗糙的项目，它通过pip使用中间件安装。更具体地说，。设置文件#-编码: utf-8 -- # Scrapy settings for batdongsan project # # For simplicity, this file contains only settings considered important or # commonly used. You can find more settings consulting the documentation: # # http://doc.scrapy.org/en/latest/topics/settings.

浏览 4提问于2017-09-02得票数 0

1回答

无法在Scrapy Cloud上加载代理列表

、

模块im使用指定的"“设置，如果链接到pc上现有的txt磁贴，则在PC上可以正常工作。我尝试了几种时间不同的方式在settings.py文件中的剪贴云。除了上传到"“之外，我还将文件"proxylist.txt”添加到与项目设置相同的文件夹中。我将名称替换为: PROXY_LIST = '‘或PROXY_LIST = 'proxylist.txt’或PROXY_LIST = '/proxylist.txt‘PROXY_LIST = '../proxylist.txt’ 如果我在我的PC上像PROXY_LIST = 'prox

浏览 2提问于2017-05-29得票数 0

2回答

刮除-没有名为mail.smtp的模块

、

系统: Ubuntu 14.04 我使用命令sudo pip install scrapy安装了scrapy。我遵循的教程定位为。当我在scrapy crawl dmoz步骤上运行命令时，我得到以下错误： 2015-07-04 15:28:58 [scrapy] INFO: Scrapy 1.0.1 started (bot: tutorial) 2015-07-04 15:28:58 [scrapy] INFO: Optional features available: ssl, http11 2015-07-04 15:28:58 [scrapy] INFO: Overridden s

浏览 0提问于2015-07-04得票数 9

回答已采纳

5回答

运行Scrapy但它出错:没有名为_util的模块

、、

我已经安装了Scrapy，并在python中导入了它，一切看起来都很好。但是，当我在中尝试一个示例时，它会导致错误。我运行scrapy crawl swspider，然后得到： > 2018-05-14 14:24:16 [scrapy.utils.log] INFO: Scrapy 1.5.0 started (bot: tutorial) > 2018-05-14 14:24:16 [scrapy.utils.log] INFO: Versions: lxml 3.2.1.0, > libxml2 2.9.1, cssselect 1.0.3, parsel 1.4.0

浏览 0提问于2018-05-14得票数 9

回答已采纳

3回答

在我的pythonpath中，scrapy不能导入模块

、、、

我有一个功能性的刮擦项目，然后我决定清理它。为了做到这一点，我把我的数据库模块从我的项目的刮掉部分，我不能再包括它了。现在这个项目是这样的： myProject/ database/ __init__.py model.py databaseFactory.py myScrapy/ __init__.py settings.py myScrapy/ __init__.py pipeline.py spiders/

浏览 6提问于2014-11-20得票数 2

回答已采纳

1回答

当任何文件发生更改时，重新启动Docker容器内的Python脚本

、、、、

我有一个简单的脚本，比如 print('hey 01') 我已经将它停靠如下： FROM python:3.8 WORKDIR /crawler_app COPY requirements.txt . RUN pip install -r requirements.txt COPY . . CMD ["python", "-u", "boot_up.py"] 我还有一个撰写文件，如下所示： version: "3.7" services: db: image: mongo:latest

浏览 32提问于2020-09-08得票数 0

1回答

从脚本中运行Scrapy :模块未找到错误- projectname.items不是一个包

、

我试着运行多个爬虫，就像中说的那样。脚本是通过调用scrapy crawl crawler运行的。现在，通过python crawler.py调用它，我得到了以下错误：从crawler.items导入LinkItem ModuleNotFoundError:没有名为“爬行器”的模块；“爬虫”不是一个包 import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from scrapy.crawler import CrawlerP

浏览 3提问于2017-09-28得票数 1

回答已采纳

1回答

无法导入名称_parse_proxy (urllib2)

、

我试着在Python 2中使用Scrapy，我得到了这个错误， File "/Library/Python/2.7/site-packages/twisted/internet/defer.py", line 1386, in _inlineCallbacks result = g.send(result) File "/Library/Python/2.7/site-packages/scrapy/crawler.py", line 95, in crawl six.reraise(*exc_info) File "/Libr

浏览 10提问于2017-08-21得票数 0

1回答

scrapy项目未执行

、、

我通过pip在我的mac上安装了scrapy，并成功地安装了它，还安装了最新版本的python。到目前一切尚好。我找到了一个我正在尝试运行的项目：不推荐使用的代码存在一些问题(ScrapyDeprecationWarning:不推荐使用模块scrapy.contrib.spiders，请改用scrapy.spiders ) 我能修好的，然而，在尝试运行它时，我得到了以下错误： Traceback (most recent call last): File "/usr/local/bin/scrapy", line 11, in <module>

浏览 1提问于2016-04-29得票数 2

2回答

没有名为“Twisted”的模块

、、

我刚刚安装了Python，开始用Scrapy做一些实验。找到了一个教程，第一次安装Miniconda，与此，我能够安装Scrapy。现在的问题是，我试图运行的软件也需要Twisted。所以我安装了扭曲的pip。扭曲似乎已经安装正确，但我仍然收到一个错误，当运行脚本，扭曲模块是找不到的。 Python 3.6.3 (v3.6.3:2c5fed8, Oct 3 2017, 17:26:49) [MSC v.1900 32 bit (Intel)] on win32 Type "copyright", "credits" or "license()"

浏览 4提问于2017-12-16得票数 4

回答已采纳

1回答

刮伤ImportError:无法从'twisted.web.client‘导入名称'HTTPClientFactory’(未知位置)

、、、、

以前，当我在VSCode终端中运行这个命令时，没有发现任何错误。 scrapy crawl ma -a start_at=1 -a end_and=2 -a quick_crawl=false 但现在，我不知道为什么会有这个错误 2022-07-20 10:10:14 [log.log_scrapy_info] INFO : Scrapy 2.2.1 started (bot: regulation_crawler) 2022-07-20 10:10:14 [log.log_scrapy_info] INFO : Versions: lxml 4.9.1.0, libxml2 2.9.14,

浏览 65提问于2022-07-20得票数 2

1回答

为什么我得到的'_SIGCHLDWaker‘对象在Scrapy中没有'doWrite’属性？

、、、、

我在芹菜中使用了Scrapy爬行器，我随机得到了这种错误。 Unhandled Error Traceback (most recent call last): File "/usr/lib/python2.7/site-packages/twisted/python/log.py", line 103, in callWithLogger return callWithContext({"system": lp}, func, *args, **kw) File "/usr/lib/python2.7/site-packages/twi

浏览 1提问于2017-02-20得票数 4

1回答

bash -如果进程已运行超过一个小时，则终止该进程。

、、、

我有这个bash脚本，它每5分钟在Ubuntu服务器上运行一次python程序，如果还没有运行，我想让它在运行超过一个小时的情况下杀死程序，并重新运行它。 #!/bin/bash if pgrep -f "/home/user/crawler/panel/crawler/scans.py" then echo "script running" # Command when the script is runnung else echo "script not running" /home/user/crawler

浏览 0提问于2022-11-07得票数 1

回答已采纳

1回答

如何解决启动scrapy shell时出现的错误？

、、

当我执行scrapy shell '‘时，发生了以下错误，我遵循了scrapy文档中的说明 Traceback (most recent call last): File "/usr/local/bin/scrapy", line 11, in <module> sys.exit(execute()) File "/usr/local/lib/python2.7/dist-packages/scrapy/cmdline.py", line 150, in execute _run_print_help(parser,

浏览 9提问于2018-09-03得票数 0

回答已采纳

1回答

无法使用bash - cron将目录更改为脚本。

、、、、

我有一个运行多个Python爬虫实例的脚本，Crawler是int /root/crawler/batchscript.py 在/root/crawler/，我有一个刮擦的爬虫。爬虫工作得很好。 batchscript.py看起来像这样，(只发布相关代码) from scrapy.settings import Settings from scrapy.utils.project import get_project_settings from amazon_crawler.spiders.amazon_scraper import MySpider process = CrawlerPr

浏览 3提问于2016-11-17得票数 0

回答已采纳

1回答

Scrapy，Scrapinghub和Google云存储:在scrapinghub上运行蜘蛛时的键错误'gs‘

、、、、

我正在使用Python 3进行一个刮伤项目，并将蜘蛛部署到scrapinghub中。我还使用Google来存储官方文档中提到的刮过的文件。当我在本地运行蜘蛛时，这些蜘蛛运行的非常好，并且这些蜘蛛被部署到scrapinghub上，没有任何错误。我使用scrapy:1.4-py3作为剪贴的堆栈。在上面运行蜘蛛时，我得到了以下错误： Traceback (most recent call last): File "/usr/local/lib/python3.6/site-packages/twisted/internet/defer.py", line 1386, i

浏览 0提问于2018-02-22得票数 1

回答已采纳

1回答

通过命令行运行外部文件导入Django应用程序

、、

这么简单的问题，但我找不到答案。我有一个python脚本位于我的Django应用程序中-在我的django项目中。我正在使用PyCharm IDE，并且本地开发工作良好，我使用CTRL + ALT + R运行脚本，如下所示： from location.crawlers.crawler_cities import * 问题是，当我必须在我的Live中这样做时，我不知道如何导入它，我正在这样做：激活虚拟环境转到项目文件夹运行python (在这里，我认为问题是在虚拟服务器之外运行python，而不是安装在虚拟服务器本身中的python )。从location.craw

浏览 2提问于2015-12-15得票数 0

回答已采纳

1回答

如何修复scrapy spider的“PROXIES is error”错误

、、、

我试图通过使用代理来运行一个scrapy spider，但每次运行代码时都会遇到错误。这是针对Mac，python 3.7，scrapy 1.5.1的。我已经尝试了设置和中间件，但没有效果。 class superSpider(scrapy.Spider): name = "myspider" def start_requests(self): print('request') urls = [ 'http://quotes.toscrape.com/page/1/',

浏览 45提问于2019-02-15得票数 1

回答已采纳

1回答

安装了刮水器，但不能运行工作台或外壳。

、

我终于安装了刮擦，但无法让它运行长凳或外壳。以下是控制台中返回的内容： (scrapy_env) MacBook-Pro:Virtualenvs iSagui$ scrapy bench 2018-02-19 14:46:26 [scrapy.utils.log] INFO: Scrapy 1.5.0 started (bot: scrapybot) 2018-02-19 14:46:26 [scrapy.utils.log] INFO: Versions: lxml 3.4.2.0, libxml2 2.9.4, cssselect 1.0.3, parsel 1.4.0, w3lib 1.

浏览 0提问于2018-02-19得票数 0

回答已采纳

1回答

我可以在项目目录之外执行scrapy(python)爬行吗？

、、、

文档说我只能在项目目录中执行爬网命令： scrapy crawl tutor -o items.json -t json 但我真的需要在我的python代码中执行它( python文件不在当前项目目录中) 有没有符合我要求的方法？我的项目树： . ├── etao │ ├── etao │ │ ├── __init__.py │ │ ├── items.py │ │ ├── pipelines.py │ │ ├── settings.py │ │ └── spiders │ │ ├── __init__.py │ │

浏览 2提问于2012-03-02得票数 1

回答已采纳

4回答

AttributeError：“module”对象没有属性“”update_settings“”scrapy 1.0.5“”

、、、

crawler在命令行中运行良好，并显示以下错误： 2016-03-30 03:47:59 [scrapy] INFO: Scrapy 1.0.5 started (bot: scrapybot) 2016-03-30 03:47:59 [scrapy] INFO: Optional features available: ssl, http11 2016-03-30 03:47:59 [scrapy] INFO: Overridden settings: {'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Window

浏览 3提问于2016-03-30得票数 5

1回答

JENKINS的构建失败

、、、

在JENKINS.The中调度作业时，我面临的问题如下:在终端(Mac)中，使用和不带SUDO(必须输入密码)工作很好。没有数独，我就会犯“不允许操作”的错误。下面是我在JENKINS获得的构建语句和错误，有人能帮我解决吗？ export PYTHONPATH=${PYTHONPATH:-"/Users/it/Documents/google_crawler"} cd /Users/it/Documents/google_crawler sudo python3 PLA_Google_continious_execution.py 另外，"sudo python3

浏览 1提问于2020-03-05得票数 0

1回答

TypeError:在多线程web爬网程序中无法调用“str”对象

我正在尝试编写一个python网络爬虫，并使其多线程。我遇到的主要问题是使用ThreadPoolExecutor库并发运行代码。 def crawl(self, url): for link in self.get_links(url): if link in self.visited: continue print("Scraping URL: {}".format(link)) #if not visited add to visited set O(1) time self.visited.add(l

浏览 0提问于2020-03-07得票数 0

1回答

无法使用cx_Freeze创建独立的二进制抓取爬行器

、、、、

关于我的工作环境的简短描述:Win7 x64，Python2.7 x64，scrapy 0.22，cx_Freeze 4.3.2。首先，我开发了一个简单的爬虫蜘蛛，它工作得很好。然后，使用核心的scrapy API，我创建了一个外部脚本main.py，它可以运行爬行器，它也可以根据需要工作。以下是该脚本的代码： # external main.py using scrapy core API, 'test' is just replaced name of my project from twisted.internet import reactor from scrapy.

浏览 1提问于2014-03-30得票数 5

1回答

使用SeleniumRequest时面临擦伤性硒问题

、、、、

我编写了一个非常小的脚本，可以使用scrapy和selenium结合使用库，从网页中解析不同餐馆的名称。我的settings.py文件包含： from shutil import which SELENIUM_DRIVER_NAME = 'chrome' SELENIUM_DRIVER_EXECUTABLE_PATH = which("chromedriver") 我的蜘蛛包含：(在爬虫过程中使用中间件引用) import scrapy from scrapy.utils.project import get_project_settings from sc

浏览 0提问于2019-05-21得票数 0

回答已采纳

2回答

从Scrapy中的单个类实例化多个蜘蛛

、、

为了在一个非常大的项目上节省时间和重复代码行，我一直试图从单个类定义中实例化Scrapy中的多个蜘蛛。我在文档中没有发现这是一个标准实践，但我也没有发现任何不能或不应该这样做的迹象。然而，这是行不通的。以下是我正在尝试的： from scrapy.spider import CrawlSpider class ExampleSpider(CrawlSpider): def __init__(self, name, source, allowed_domains, starturls): self.name = name self.custom_set

浏览 2提问于2018-04-01得票数 2

回答已采纳

1回答

错误“不支持以根用户身份运行而不支持无沙箱”。

、、、

我试图为我的项目()实现刮刮-傀儡库。我根据来自库的文档实现PuppeteerMiddleware 下面是我运行的代码： import asyncio from twisted.internet import asyncioreactor asyncioreactor.install(asyncio.get_event_loop()) import scrapy from scrapy.crawler import CrawlerRunner from twisted.internet import defer from twisted.trial.unittest import Test

浏览 23提问于2020-04-21得票数 8

回答已采纳