我使用以下代码从python脚本运行我的爬虫程序:
import scrapy
from scrapy.crawler import CrawlerProcess
process = CrawlerProcess()
process.crawl(MySpider)
process.start() # the script will block here until the crawling is finished
我的MySpider返回一个对象。
如何从中获取返回值?请记住这是Scrapy 1.0。我找到的所有示例都是针对旧版本的Scrapy。
上面的代码来自:
在一些堆栈溢出问题中,我看到了一些公认的答案,其中scrapy.spider超类的__init__方法被用户定义的爬行器覆盖。例如:。
我的问题是,这样做的风险是什么?超类的__init__如下所示:
class Spider(object_ref):
"""Base class for scrapy spiders. All spiders must inherit from this
class.
"""
name = None
custom_settings = None
def __in
我试图抓取一些网站使用刮刮。下面是一个示例代码。方法解析没有被调用。我试图通过一个反应堆服务运行代码(代码提供)。所以,我从有反应堆的startCrawling.py运行它。我知道我错过了什么。你能帮帮忙吗。
谢谢,
Code-categorization.py
from scrapy.contrib.spiders.init import InitSpider
from scrapy.http import Request, FormRequest
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from s
我是SEO专家,不太喜欢编码。但是想要尝试用Scrapy模块在Python中创建一个坏链接检查器,它将爬行我的网站,并向我展示404代码的所有内部链接。
到目前为止,我已经成功地编写了以下代码:
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from crawler.items import Broken
class Spider(CrawlSpider):
name
我在使用Scrapy时遇到了问题,由于某种原因,它没有进入我的parse方法,我不知道为什么会这样。我尝试过不同的选择,但都没有成功。
这就是我的代码现在的样子。具体地说,有两个print语句,parse()方法中的一个没有被调用。
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from scrapy import log
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.link
我对python编程和使用scrapy很陌生。我已经设置了我的爬虫,到目前为止,它一直在工作,直到我到达我想知道如何下载图像。我得到的错误是不能导入名称NsiscrapePipeline。我不知道我做错了什么,我也不理解一些文件,因为我是新的。请帮帮忙
项目档案
from scrapy.item import Item, Field
class NsiscrapeItem(Item):
# define the fields for your item here like:
# name = Field()
location = Field()
stock_n
只是尝试scrapy和尝试让一个基本的蜘蛛工作。我知道这可能只是我遗漏了一些东西,但我已经尝试了我能想到的所有方法。
我得到的错误是:
line 11, in JustASpider
sites = hxs.select('//title/text()')
NameError: name 'hxs' is not defined
我的代码目前非常基础,但我似乎仍然找不到哪里出了问题。谢谢你的帮助!
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelec
我正在尝试使用CrawlerRunner()从脚本启动一个剪贴画,以便在AWS Lambda中启动。
我在Stackoverflow中看了钩针库的解决方案,但它对我不起作用。
链接:
代码如下:
import scrapy
from scrapy.crawler import CrawlerRunner
from scrapy.utils.project import get_project_settings
from scrapy.utils.log import configure_logging
# From response in Stackoverflow: https://st
我使用scrapy 0.16从LinkedIn中提取数据。
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.http import Request
from scrapy import log
from linkedin.items import
我正在用Scrapy编写一个网络抓取程序,我需要设置它来共享cookie,但是我仍然对网络抓取和Scrapy相当陌生,所以我不知道如何做到这一点。我不知道我是否需要在设置中做一些事情,或者是中间件或者其他什么,所以任何帮助都是非常感谢的。
settings.py
# Name of project
BOT_NAME = 'LoginSpider'
# Module where spider is
SPIDER_MODULES = ['LoginSpider.spiders']
# Mode where to create new spiders
NEWSPID