如何在scrapy中访问通过-s传递的命令行参数？

在Scrapy中，可以通过使用settings模块来访问通过-s传递的命令行参数。settings模块是Scrapy框架的一个核心组件，用于管理和访问Scrapy的配置设置。

要访问通过-s传递的命令行参数，可以按照以下步骤进行操作：

在Scrapy项目的根目录下的settings.py文件中，添加需要使用的命令行参数的默认值。例如，如果要传递一个名为myarg的参数，默认值为default_value，可以在settings.py文件中添加以下代码：

MYARG = 'default_value'

在Spider类中，可以通过self.settings.get()方法来获取命令行参数的值。例如，要获取myarg参数的值，可以在Spider类的__init__方法中添加以下代码：

from scrapy import Spider

class MySpider(Spider):
    name = 'myspider'

    def __init__(self, myarg=None, *args, **kwargs):
        super(MySpider, self).__init__(*args, **kwargs)
        self.myarg = myarg or self.settings.get('MYARG')

在上述代码中，myarg参数是通过-a选项传递给Spider的，而self.settings.get('MYARG')则获取了settings.py文件中定义的MYARG参数的值。

在命令行中运行Scrapy时，可以通过-s选项来传递命令行参数的值。例如，要将myarg参数设置为custom_value，可以使用以下命令：

scrapy crawl myspider -a myarg=custom_value

通过上述步骤，就可以在Scrapy中访问通过-s传递的命令行参数。在Spider类中，可以使用self.myarg来获取参数的值，并在爬虫逻辑中进行相应的处理。

请注意，上述代码中的settings.py文件是Scrapy项目的默认配置文件，用于存储全局配置设置。如果需要在不同的环境中使用不同的配置，可以创建多个配置文件，并在运行Scrapy时通过-s选项指定要使用的配置文件。

相关·内容

k8s中通过aws sdk访问s3遇到的坑

背景公司有一套基于k8s的paas系统，现在pod中安装了aws 命令行工具 RUN apk add py-pip && pip install awscli 可以使用命令直接get、...put文件，如下：由于java使用命令行时可能会出现卡死现象，所以这里想使用aws提供的sdk来直接上传下载文件。...默认有两种方式，一种是程序中配置key： BasicAWSCredentials awsCredentials = new BasicAWSCredentials(accessKey, awsSecretKey...java.lang.IllegalArgumentException: profile file cannot be null 原因：这里是没找到配置文件，~/.aws/credentials 解决方案：在dorker中需要直接使用下面方式来初始化...上的文件路径是否正确，举个例子：s3://bucket_name/aa/bb/mm.csv 这里的fileName参数应该传“aa/bb/mm.csv”；报错三：/data/xx/xx/aa.csv

2.1K2 0

Scrapy框架的使用之Selector的用法

框架中运行，而是把Scrapy中的Selector单独拿出来使用了，构建的时候传入text参数，就生成了一个Selector选择器对象，然后就可以像前面我们所用的Scrapy中的解析方式一样，调用xpath...Scrapy Shell 由于Selector主要是与Scrapy结合使用，如Scrapy的回调函数中的参数response直接调用xpath()或者css()方法来提取数据，所以在这里我们借助Scrapy...这个过程其实是，Scrapy发起了一次请求，请求的URL就是刚才命令行下输入的URL，然后把一些可操作的变量传递给我们，如request、response等，如下图所示。 ?...通过这个Selector对象我们可以调用解析方法如xpath()、css()等，通过向方法传入XPath或CSS选择器参数就可以实现信息的提取。...在第二行代码中，我们还传递了一个参数当作默认值，如Default Image。这样如果XPath匹配不到结果的话，返回值会使用这个参数来代替，可以看到输出正是如此。

2K4 0

Python爬虫从入门到放弃（二十四）之 Scrapy登录知乎

我猜测是可能知乎识别了这是一个爬虫，所以让每次登陆都需要验证码，其实这个时候你正常通过浏览器登陆知乎并不会让你输入验证码，所以这里我们需要获去验证码并将验证码传递到请求参数中，我们分析登录页面就可当登录页需要输入验证码的时候...r=1503303312357&type=login 这个时候我们登录的时候传递的参数中就会增加captcha参数 ?...scrapy登录知乎我们上面已经通过非框架的模式即requests模块的方式成功登录了知乎，现在就是把上面的代码功能在scrapy中实现，这里有一个非常重要的地方，上面的代码中为了会话维持，我们通过：...session = requests.session() 那么我们如何在scrapy中实现呢？...) 原本scrapy中的scrapy.Request会保存访问过程中的cookie信息其实这里面也是用也是cookiejar，这里通过yield 的方式实现了与会话的维持我们通过调试登录，如下,同样也登录成功

1.4K8 1

《Learning Scrapy》（中文版）第11章 Scrapyd分布式抓取和实时分析

在上一章中，我们学习了Scrapy的性能和以及处理复杂的问题以提高性能。在本章中，我将展示如何在多台服务器上进一步提高性能。我们会发现抓取通常是一个并行问题；因此，我们可以水平延展至多台服务器。...Scrapy默认是不知道批次的，所以我们必须给设定一个值。scrapyd的schedule.json API的特点之一是，每个不是设置的参数或已知的参数都被传递给了爬虫。...默认时，爬虫的参数成为了爬虫的属性，然后在爬虫的属性中寻找未知的FEED_URI参数。因此，将一批参数传递给schedule.json，我们就可以在FEED_URI中使用它，以避免冲突。...最后是将DISTRIBUTED_START_URL和这一批次的子页URL编译为JSON，因为JSON是最简洁的文本格式。笔记：用命令行将大量数据传递到Scrapy并不可取。...你还学到了Scrapy复杂的结构，以及如何发挥出它的最大性能。通过抓取，你可以在应用中使用庞大的数据资源。我们已经看到了如何在移动应用中使用Scrapy抓取的数据并进行分析。

1.1K2 0

scrapy爬虫框架（二）：创建一个scrapy爬虫

在命令行中输入如下命令（必须在爬虫项目的文件夹里）： scrapy genspider spidername "domain" #spidername是要创建的爬虫的名字，必须是唯一的，而且不能和爬虫项目名相同...#domain是要爬取的网站的 host，即你所要爬取的网站的域名,如：www.baidu.com 创建好爬虫文件后，打开爬虫项目下的spiders文件夹，用编辑器打开我们刚刚创建的爬虫文件。...文件里已经定义好了start_urls，这是我们运行爬虫时要访问的链接。注意这是一个列表，可以放入多个url。...当爬虫运行时就会一个一个地访问 start_urls里的链接，然后将返回的响应做为参数传递给 parse函数。在 parse函数里，我们可以来对网页中的信息进行提取。...，用 yield 关键字将 item传递给 pipelines.py进行进一步的处理三、对提取到的信息进行储存 pipelines.py文件获得item后将会调用管道函数来对item进行处理，这里我们把电影的信息保存到

1.9K2 0

Scrapy 爬虫框架学习记录

创建项目安装完 scrapy 后，新建一个爬虫的目录，然后在命令行窗口进入该目录，输入以下命令： scrapy startproject projectname 该目录会包含以下内容： projectname...spiders 里面定义的类，必须继承 scrapy.Spider 这个类，以及定义一些初始的请求。比如，如何跟踪页面中的链接，以及如何解析下载的页面内容以提取数据。...启动爬虫要让爬虫工作，请转到项目的顶级目录并在命令行窗口输入以下命令，启动爬虫： scrapy crawl quotes ## quotes 是 spider 的 name 将会有下面这样的结果：...收到每个响应后，它会实例化 Response 对象并调用与请求相关的回调方法（在本例中为 parse 方法），将响应作为参数传递。...提取数据推荐在 scrapy shell 中学习提取数据，可以通过以下方式： scrapy shell "http://quotes.toscrape.com/page/1/" ?

5813 0

《Learning Scrapy》（中文版）第5章快速构建爬虫一个具有登录功能的爬虫使用JSON APIs和AJAX页面的爬虫在响应间传递参数一个加速30倍的项目爬虫可以抓取Excel文件的爬虫总结

我们用Scrapy中的类FormRequest来做。这个类和第3章中的Request很像，但有一个额外的formdata，用来传递参数。...例如一些网站在执行POST请求时，需要通过从表单页面到登录页面传递某种形式的变量以确定cookies的启用，让你使用大量用户名和密码暴力破解时变得困难。 ?...你必须访问表单、登录页，然后传递数值。和以前一样，Scrapy有内建的功能可以解决这个问题。我们创建一个和之前相似的NonceLoginSpider爬虫。...在响应间传递参数许多时候，你想把JSON APIs中的信息存储到Item中。为了演示，在我们的例子中，对于一个项，JSON API在返回它的名字时，在前面加上“better”。...Scrapy提供了一种便捷的向爬虫传递参数的方法。如果我们使用-a参数，例如，-a variable=value，就创建了一个爬虫项，可以用self.variable取回。

4K8 0

python爬虫 scrapy爬虫框架的基本使用

Scrapy框架是通过命令行来创建项目的，创建项目的命令如下： scrapy startproject practice 命令执行后，在当前运行目录下便会出现一个文件夹，叫作practice，这就是一个...通过命令行运行，将抓取的内容导出。...默认情况下，被调用时 start_urls 里面的链接构成的请求完成下载执行后，返回的响应就会作为唯一的参数传递给这个函数。该方法负责解析返回的响应、提取数据或者进一步生成要处理的请求。...构造请求时需要用到 scrapy.Request。这里我们传递两个参数——url 和 callback，这两个参数的说明如下： url：它是请求链接 callback：它是回调函数。...当指定了该回调函数的请求完成之后，获取到响应，引擎会将该响应作为参数传递给这个回调函数。回调函数进行解析或生成下一个请求，回调函数如上文的 parse() 所示。

1.6K3 0

【Python爬虫实战】Scrapy 翻页攻略从入门到精通的完整教程

本文将详细介绍 Scrapy 发起翻页请求的原理与实现方式，包括如何通过 Scrapy 框架进行翻页请求、如何自定义请求参数，以及如何处理多页面的数据提取。...一、翻页请求的基本思路要提取所有页面的数据，最直接的方式就是通过翻页请求，访问每一页的 URL 并提取数据。...page=2 或 &start=25 的查询参数。构造翻页请求：使用 scrapy.Request(url, callback) 来创建一个新的请求，将其传递给引擎。...（二）使用 meta 参数在不同解析函数中传递数据有时候，我们需要将一些数据从一个解析函数传递到另一个解析函数。Scrapy 提供了 meta 参数，可以用来在请求之间传递数据。...同时，Scrapy 还提供了强大的数据传递机制（如 meta 参数）和优化手段（如重写 start_requests 方法），使得分页抓取的实现更加灵活和高效。

2081 0

Scrapy框架的使用之Scrapyrt的使用

Scrapyrt为Scrapy提供了一个调度的HTTP接口。有了它我们不需要再执行Scrapy命令，而是通过请求一个HTTP接口即可调度Scrapy任务，我们就不需要借助于命令行来启动项目了。...如果传递的Spider名称不存在，则返回404错误。 url：爬取链接，字符串类型，如果起始链接没有定义就必须要传递这个参数。...如果传递了该参数，Scrapy会直接用该URL生成Request，而直接忽略start_requests()方法和start_urls属性的定义。...它定义了Scrapy执行请求的Request的最大限制，如定义为5，则表示最多只执行5次Request请求，其余的则会被忽略。...它定义了Scrapy执行请求的Request的最大限制，如定义为5，则表示最多只执行5次Request请求，其余的则会被忽略。 request：Request配置，JSON对象，必传参数。

2.2K3 0

scrapy爬虫框架（三）：爬取壁纸保存并命名

首先，我们先过一遍 scrapy爬虫的创建顺序：第一步：确定要在pipelines里进行处理的数据，写好items文件第二步：创建爬虫文件，将所需要的信息从网站上爬取下来，并传递给pipelines...文件处理第三步：pipelines接收spiders传递过来的数据，并做出相应的处理，如：壁纸的下载和保存第四步：一定要记得在settings开启pipelines 在开始之前，我们先按照上面的步骤来分析一下代码怎么写...一、创建scrapy爬虫项目打开命令行，依次输入如下命令： #创建scrapy爬虫项目 scrapy startproject bizhi_zol #打开新创建的爬虫项目 cd bizhi_zol #...@href').extract()[0] #获取壁纸下载页面并将item作为参数传递给getLoadUrl request = scrapy.Request(load_page...，results参数保存了图片下载的相关信息，我们将它打印出来看看： [(True, {'url': 'https://desk-fd.zol-img.com.cn/t_s1920x1200c5/g5/

5942 0

Scrapy 入门教程

,settings等等都是存储数据的变量，可以通过命令行查看和操作它们。...如，通过css选择器找到页面中的title标签。...在爬虫中提取数据命令行的提取数据方法可以应用到爬虫中，改进我们到爬虫 import scrapy class QuotesSpider(scrapy.Spider): name = "quotes...这个特性可以通过DUPEFILTER_CLASS参数配置。...给爬虫传递参数可以用－a选项给爬虫传参数，比如 scrapy crawl quotes -o quotes-humor.json -a tag=humor 这个参数会被传到爬虫的__init__方法里

8022 0

爬虫篇 | 高级爬虫( 二):Scrapy爬虫框架初探

创建爬虫项目在电脑上新建一个Scrapy项目，在命令行中切换到要存储的位置....，每个初始URL响应后返回的Response对象，会作为唯一的参数传递给该方法，该方法负责解析返回的数据(reponse data),提取数据(生成item) 以及生成需要进一步处理的URL的Request...在命令行中进入目录csdnspider中，注意这里目录应该是于scrapy.cfg 同级，运行命令: scrapy cralw csdn 其中csdn是我刚刚在爬虫模块定义的name....在csdnspider类的parse()方法中，其中一个参数是response，将response传入的Selector(response)中就可以构造出一个Selector对象。...Item Pipeline组件，分配给每个类的整型值确定了它们运行的顺序，item按数字从低到高的顺序通过Item Pipeline，通常数字定义范围是0-1000 激活完成后，执行命令行scrapy

1.6K2 0

爬虫课堂（二十三）|使用Splash爬取动态页面（1）

在之前的章节中，爬取的都是静态页面中的信息，随着越来越多的网站开始用JS在客户端浏览器动态渲染网站，导致很多需要的数据并不能在原始的HTML中获取，再加上Scrapy本身并不提供JS渲染解析的功能，那么如何通过...一、搭建Splash服务如何在Scrapy中调用Splash服务？Python库的scrapy-splash是一个非常好的选择，下面就来讲解如何使用scrapy-splash。...上述代码中，用户只需使用scrapy_splash.SplashRequest替代scrapy.Request提交请求即可完成JS渲染，并且在SplashRequest的构造器中无须传递endpoint...下面介绍下SplashRequest构造器方法中的一些常用参数。 url 与scrapy.Request中的url相同，也就是待爬取页面的url。...args 传递给Splash的参数，如wait（等待时间）、timeout（超时时间）、images（是否禁止加载图片，0禁止，1不禁止）等。

2.3K7 0

高级爬虫( 二):Scrapy爬虫框架初探

9731 0

Pycharm 调试代码显示错误行_pycharm远程调试

scrapy 是通过 scrapy 的解释器 scrapy.exe 完成，所以官方教程中提供的执行命令： scrapy crawl quotes -o quotes.json。...设置为 H:\Python\Python36\Lib\site-packages\scrapy\cmdline.py， cmdline.py 是 scrapy 提供的命令行调用脚本，此处将启动脚本设置为...cmdline.py，将需要调试的工程作为参数传递给此脚本。...设置为 crawl quotes -o quotes.jl，参数命令参照官方文档提供的爬虫执行命令：scrapy crawl quotes -o quotes.json，与之不同的是设置参数时不包含 scrapy...如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

1.4K2 0

《Learning Scrapy》（中文版）第9章使用Pipelines

我们还可以添加参数?size=100以看到更多的结果。通过添加q= URL搜索中的参数，我们可以在全域或特定字段搜索关键词。相关性最强的结果会首先显示出来。...在爬虫的init()中，将它们传递到adbapi.ConnectionPool()，它使用adbapi的底层结构，初始化MySQL连接池。第一个参数是我们想要引入的模块的名字。...任何情况下，如果Redis的连接不能使用用connection.set()，它就会抛出一个例外。在这个错误处理中，我们把传递的错误当做参数，我们让它trap()任何ConnectionError。...不这样做，转而使用reactor.callFromThread()，它也可以将函数当做参数，将任意其余参数传递到函数。...第二个参数是可执行文件的名字，第三个参数args，让二进制命令行参数成为字符串序列。

1.5K2 0

Python爬虫之scrapy模拟登陆

发送请求之前先读取本地cookie 2.1 实现：重构scrapy的starte_rquests方法 scrapy中start_url是通过start_requests来进行处理的，其实现代码如下 #...()) print(result_list) pass 注意： scrapy中cookie不能够放在headers中，在构造请求的时候有专门的cookies参数，能够接受字典形式的...github.com/session 找到请求体的规律：分析post请求的请求体，其中包含的参数均在前一次的响应中否登录成功：通过请求个人主页，观察是否包含用户名 3.1.2 代码实现如下...COOKIES_DEBUG=TRUE 能够在终端看到cookie的传递传递过程 ---- 小结 start_urls中的url地址是交给start_request处理的，如有必要，可以重写start_request...函数直接携带cookie登陆：cookie只能传递给cookies参数接收 scrapy.Request()发送post请求 ----

1.5K2 0

Scrapy入门到放弃02：了解整体架构，开发一个程序

而爬虫程序的新建也是通过命令行操作。...# domain就是域名，例如百度域名就是www.baidu.com scrapy genspider [SpiderName] [domin] 在本scrapy项目任何目录下的命令行中执行此命令，都会在...Request使用的参数如下顺序排列： url：要请求的url callback：处理响应的回调函数 meta：字典，通过响应传递kv数据给回调函数 dont_filter：默认为False，即开启url...爬虫程序启动 Scrapy爬虫程序的启动主要有两种方式。命令行启动第一种就是在scrapy项目目录下的命令行下启动。...IDE启动我们在开发过程中通常使用第二种启动方式，这也是符合我们常规启动程序的方式。新建一个python程序，引入命令行工具执行爬虫启动命令。

6011 0

Scrapy从入门到放弃2--模拟登入

1.8K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云