使用从未更新过的meta的Scrapy pass值

python、web-scraping、scrapy、python-requests、scrape

我已经获得了数据，并尝试使用meta={}传递该值。但是当我使用转到下一个函数的yield scrapy.Request时，问题就出现了。我被发送到下一个函数是一个新的URL，并使用meta传递JSON值。我得到了新的URL，但没有使用JSON数据，JSON从未更新过。只是传递了相同的值。我不

浏览 27提问于2020-01-19得票数 0

回答已采纳

3回答

将变量赋予具有产量的回调函数

python、scrapy

在Scrapyclass UtamapSpider(scrapy.Spider):现在，我想向parse_each传递一些额外的参数。所以，我想做的就是这样。, callback=self.parse_each(99)) #example pass value `99` def parse_each(self,response,myvalue

浏览 4提问于2021-12-17得票数 1

回答已采纳

1回答

使用LinkExtractors从以前的页面中抓取信息

python、scrapy

我想知道是否可以使用LinkExtractors从以前的页面中抓取信息。这个问题与我以前的问题有关from scrapy.linkextractors import LinkExtractor from scrapy.crawler import CrawlerProcessfrom scrapy.sp

浏览 5提问于2022-02-09得票数 0

回答已采纳

1回答

抓取一组可能包含下一页的链接。

python、selenium-webdriver、web-scraping、scrapy

我想： class mySpider(scrapy.Spider): ...例如，我有10个链接(从1号到10号)，我的蜘蛛只能得到第10号链接的下一页。我不知道这个问题是否是因为我的蜘蛛的结构问题。以下

浏览 0提问于2018-02-04得票数 6

1回答

不使用response.meta的项目加载器

python、scrapy、scrapy-spider

我希望将两个项加载到一个项目加载器中，通过response.meta命令进行实例化。不知何故，标准：不工作(即没有保存或写入值，它就像从未创建过的“item”)，但是使用完全相同的表达式： response.xpath, meta={'loader' : loader}, callback=self.parse_listin

浏览 0提问于2017-01-26得票数 1

回答已采纳

2回答

鸡皮芹菜`update_state`

python、scrapy、celery、scrapy-pipeline

我有以下设置(Docker)： How are you using celery with scrapy? Scra

浏览 2提问于2017-06-12得票数 0

回答已采纳

1回答

在本地使用scrapinghub抓取中心的splash

python、scrapy、scrapy-splash、scrapinghub、splash-js-render

我在scrapinghub上得到了splash的暂停，我想从我的本地机器上运行的脚本中使用它。//medium.com/' yield Request(url, callback=self.afterlogin,metaf.write(str(response.body)) 我没有收到错误，但我也不确定splash是否正常工作，此外，除了服务器ip之外，scraping还提供了一个密码

浏览 47提问于2019-07-14得票数 3

1回答

如何使用Scrapy从多个链接页中抓取和刮取一组数据

python、scrapy

我想要做的是刮取公司的信息(thisisavailable.eu.pn/company.html)，并将所有董事会成员的数据从不同的页面中添加到董事会中。"2": { "code": "222222222" }我搜索过Googlepass class p

浏览 0提问于2017-03-06得票数 0

1回答

通过代理修改/更新公网IP

python、scrapy、web-crawler、google-crawlers

我正在使用Scrapy抓取谷歌，我想改变我的IP从代码。我从输出中获得了与本地相同的公共IP，即使响应的meta中的代理正在更改。如果我转到该虚拟机并从该站点获得响应，它将显示我在request.meta['proxy'] = ip中使用虚拟机IP，但从代码中它仅显示本地公共IPclass ProxyMiddleware(object): def pro

浏览 2提问于2018-12-04得票数 0

2回答

Scrapy:如何一个接一个地运行两个爬虫？

python、scrapy

它们使用不同的管道。如何确保它们按顺序运行？

浏览 1提问于2014-12-11得票数 3

3回答

刮擦不改变代理

python、proxy、scrapy

'.format(proxy['ip']) user_pass = base64.encodestring['proxy'] print response.body 但是当我测试它时，我看到Scrapy只用5示例输出(只

浏览 3提问于2016-02-23得票数 3

回答已采纳

1回答

物品装载机在刮擦中不能正常工作

python、scrapy

我试着研究项目加载器，下面的代码不能正常工作:它只给我"start_url“值，而不是"SUBJECT”和"CREATOR2“值(它们根本不出现，不只是一个空槽)。我搞不懂它为什么这么做。我需要使用项目加载器，特别是用于"CREATOR2“值，这个值有时在xpath上，有时在另一个上。()]') l.add_xpath('SUBJECT&#

浏览 0提问于2016-05-16得票数 3

回答已采纳

1回答

如何从scrapy-splash中获取200以外的状态代码

python-3.x、scrapy、scrapy-splash、splash-js-render

={'handle_httpstatus_all': True}) yield scrapy.Request(url, self.parse, meta={'handle_httpstatus_all': True,'splash={'handl

浏览 14提问于2017-10-19得票数 3

回答已采纳

1回答

update_post_meta不处理数组数据(不确定我遗漏了什么)

php、ajax、jquery、post-meta

这里是我试图实现的目标：本质上，我试图创建一个插件，只需从插件管理页面编辑页面上的所有元描述。我是这样做的，使用以下逻辑-打印所有的metas从数据库在一个页面上。AJAX使用jQuery从上述页面获取所有页面ids和值。在提交时-将所有更新的值推送到数据库中各自的位置，并更新这些元描述。我不确定我是否在概念层面上有错误的代码，或者我是否缺少一些基本的东西，但下

浏览 0提问于2019-07-24得票数 0

2回答

scrapy使用代理的ssl握手失败

python、proxy、scrapy

我正在尝试在一个粗糙的项目上设置一个代理。我遵循了这个的te指令import base64 request.headers['Proxy-Authorization'] = 'Basic ' + e

浏览 2提问于2018-05-01得票数 1

回答已采纳

2回答

抓取菜单(按层次划分)

python、web-scraping、scrapy

我得到了很好的结果，但是N3类别在输出json上分别显示在最后。N1 -> N2，N1 -> N2，我想得到所有三个具体级别的类别。每个N1与他们的N2和每个N2与他们的N3。所以我需要的结构是：N1-N2-N3 (N1类海绵状动物)…import urlparse import scrapyclass ReadySpider(scrapy.Spid

浏览 3提问于2017-05-05得票数 1

回答已采纳

1回答

Scrapy: TypeError：“请求”对象不可迭代

python、python-2.7、scrapy、scrapy-spider

我正在用Scrapy (1.1.2)制作蜘蛛来报废产品。我设法让它工作起来，并刮了足够多的数据，但是现在，我希望每个元素向product page和废品提出新的请求，例如产品描述。首先，这是我最后的工作代码class ProductScrapSpider(Spider): allowed_domainsif next_page: url = response.urljoin(next_page[0

浏览 0提问于2016-09-09得票数 1

回答已采纳

3回答

是否可以通过带有Scrapy的代理访问https页面？

python、https、scrapy、proxies

我可以通过Scrapy中的代理成功地访问http页面，但我不能访问https站点。我研究过这个话题，但对我来说还不清楚。是否可以通过带有Scrapy的代理访问https页面？我需要补点什么吗？如果可以确认这是一个标准的功能，我可以跟进更多的细节。希望这是一件容易的事。': 'username:password'}]import scrapy c

浏览 2提问于2015-08-12得票数 2

8回答

Scrapy和代理

python、scrapy

如何利用python web抓取框架Scrapy的代理支持？

浏览 2提问于2011-01-17得票数 47

回答已采纳

1回答

设置代理隐藏我的IP地址，以便使用scrapy抓取网页

web-scraping

我正在使用scrapy抓取网站，现在我需要设置代理来处理已经发送的请求。有没有人能帮我在scrapy应用中解决这个代理问题。请提供任何样本链接，如果你有这样做。我需要解决方案，这是从哪个IP的请求。

浏览 0提问于2012-03-22得票数 5

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

将变量赋予具有产量的回调函数

使用LinkExtractors从以前的页面中抓取信息

抓取一组可能包含下一页的链接。

不使用response.meta的项目加载器

鸡皮芹菜`update_state`

在本地使用scrapinghub抓取中心的splash

如何使用Scrapy从多个链接页中抓取和刮取一组数据

通过代理修改/更新公网IP

Scrapy:如何一个接一个地运行两个爬虫？

刮擦不改变代理

物品装载机在刮擦中不能正常工作

如何从scrapy-splash中获取200以外的状态代码

update_post_meta不处理数组数据(不确定我遗漏了什么)

scrapy使用代理的ssl握手失败

抓取菜单(按层次划分)

Scrapy: TypeError：“请求”对象不可迭代

是否可以通过带有Scrapy的代理访问https页面？

Scrapy和代理

设置代理隐藏我的IP地址，以便使用scrapy抓取网页

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐