Scrapy -如何将数据从产生的请求返回到主解析方法？ - 腾讯云开发者社区

web-scraping、scrapy、scrapy-spider

这是一个简单的抓取蜘蛛 import scrapy class ExampleSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["https://www.dmoz.org"] start_urls = ('https://www.dmoz.org/') def parse(self,response): yield scrapy.Request(self.start_urls[0],callback=self.parse2)

浏览 1提问于2016-08-15得票数 8

回答已采纳

1回答

解析中的scrapy回调未调用

python、scrapy

我正在尝试刮伤，结果被卡住了。我希望这个脚本能够运行回调。 import scrapy from scrapy.spiders import Spider class ASpider(Spider): name = 'myspider' allowed_domains = ['wikipedia.org','en.wikipedia.org'] start_urls = ['https://www.wikipedia.org/'] def parse(self, response):

浏览 5提问于2016-05-31得票数 1

回答已采纳

1回答

函数，返回值返回到哪里？

python、web-scraping、scrapy、scrapy-spider

我是“飞毛腿”的新手，如果这个问题微不足道，我很抱歉。我从官方网页上读到了“刮刮”上的文件。当我翻阅文档时，我遇到了这个例子： import scrapy from myproject.items import MyItem class MySpider(scrapy.Spider): name = ’example.com’ allowed_domains = [’example.com’] start_urls = [ ’http://www.example.com/1.html’, ’http://www.example.com/2.html’, ’http:/

浏览 1提问于2014-10-04得票数 7

回答已采纳

1回答

如何以不同的值多次提交一份表单？

python、web-scraping、web-crawler、scrapy

背景总的来说，我对使用Scrapy和webscraping非常陌生，我正在尝试访问目标网页，填充那里的表单，提交表单并从返回到条目的页面中刮取数据。完成这些步骤后，我想回到目标网页，用不同的信息填充表单，刮掉已经返回的新数据，并将这些数据附加到这些相同的项中。我有什么下面的代码填写目标表单，抓取返回的页面以获取信息，并将该信息放置到项中。 import scrapy from AirScraper.items import AirscraperItem class airSpider(scrapy.Spider): name = "airSpider"

浏览 0提问于2015-05-12得票数 0

1回答

刮除下一页上的字段，然后返回旧页。

python、python-2.7、web-scraping、scrapy

我想从网站上抓取数据：，我希望我的请求对于更有经验的Scrapy用户来说是非常简单和直接的。问题:我试图为每个review.By数据抓取数据，**我指的是主标题、副标题、用户名、日期和评论。**但我无法得到审查，因为我想要的是进入嵌入主标题的链接，然后得到整个审查，而不是第一页上的简短评论，并对每一次审查都这样做。我的蜘蛛班： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.spider import BaseSpider from scrapy.contrib.linkextractors.sgml imp

浏览 6提问于2015-01-16得票数 2

3回答

CrawlSpider如何知道如何处理已生成的请求对象？

python、scrapy

在Scrapy文档中，此代码用于说明如何将信息传递给回调函数。我的问题是，这个代码中的CrawlSpider类是如何执行生成的请求对象的？这是简单的编码行为吗？此外，是否使用yield而不是return来保持函数运行，并准备好在刮多个urls时接受更多的Response对象？如果只刮掉一个url，返回Request对象的效果会一样好吗？如果这些都是基本问题，我很抱歉，我以前没有使用过Python或Scrapy。 def parse(self, response): request = scrapy.Request('http://www.example.com/index.ht

浏览 4提问于2022-06-11得票数 0

回答已采纳

2回答

保存Scrapy 'start_urls‘并将其正确存储在数据帧中

python、pandas、dataframe、scrapy

我正在使用刮刮一些网站的数据。但我无法正确地获得我的数据。这是我的代码的输出(参见下面的代码)：在命令行中： scrapy crawl myspider -o items.csv 输出： asin_product product_name ProductA,,,ProductB,,,ProductC,,, BrandA,,,BrandB,,,BrandC,,, ProductA,,,ProductD,,,ProductE,,, BrandA,,,BrandB,,,Br

浏览 0提问于2019-04-01得票数 0

回答已采纳

1回答

难以将requests.models.Response转换为scrapy.selector.unified.Selector

scrapy

这段代码 import requests url = 'https://docs.scrapy.org/en/latest/_static/selectors-sample1.html' response = requests.get(url) 获取一个requests.models.Response实例，我可以从其中使用scrapy提取数据 from scrapy import Selector sel = Selector(response=response) sel.xpath('//div') A post gives a great访问网站的方式。这

浏览 13提问于2020-07-02得票数 0

回答已采纳

2回答

抓取蜘蛛从链接中随机抓取数据为什么？

python、scrapy

首先，我从网站上抓取了所有的硬币链接，并要求那些链接。但是scrapy没有串行地请求从链接list.after请求这些链接抓取数据成功，但当保存到csv文件时，它使一个完整的抓取项目后每一次都是一个空行。我期待它将从链接列表中串行请求，它不会使任何空白row.how我能做到吗？我使用的是python 3.6和scrapy版本1.5.1 我的代码： import scrapy class MarketSpider(scrapy.Spider): name = 'market' allowed_domains = ['coinmarketcap.com

浏览 3提问于2018-12-02得票数 0

1回答

抓取递归爬行，并从每个页面获取数据。

python、recursion、scrapy

一系列json页面通过页面上的最后一个id彼此链接。页面的url是example.com/20/id，所以我想抓取第一个页面，保存数据，获取该页面的最后一个id，然后爬行另一个页面：example.com/40/new_id等等，每次都有20个结果。我不知道有多少页，所以我会停止时，没有身份证。这应该是一个简单的递归，但我不知道如何做到这一点，并在同一时间保存数据。我对这一点很困惑： yield scrapy.Request(url, self.parse) 在我看来，应该恢复到没有id，但它只运行了2次。 import scrapy import json import logging

浏览 5提问于2017-09-08得票数 0

回答已采纳

2回答

使用Scrapy从页面上项目列表的多个项目中提取信息

python、scrapy、web-crawler、extraction

是否可以使用Scrapy从数据列表中的所有数据记录中提取一些数据，因此对于列表视图页面的每个链接，它打开链接(详细信息页面)，选择想要的信息，返回列表视图，选择下面的第一个项目(链接)，对所有项目和所有页面执行相同的工作(例如100页，每页有10条记录)。也就是说，如果我选择分页我有多个项目列表，爬虫需要进入每一个项目，打开详细信息视图抓取需要的信息，然后回到第一页(从第一个附件)，转到另一个链接，并重复每一页的每一个项目的工作。我知道Scrapy可以很容易地从第一页抓取所需的数据，例如所有项目的价格和标题，但是否可以打开该项目，刮掉一些在详细信息页面中可见的信息，然后回来再为

浏览 7提问于2019-08-26得票数 0

2回答

从selenium/browser切换到单一蜘蛛的默认机制

python、ajax、selenium、web-scraping、scrapy

我遇到过带有Ajax隐藏元素的页面，我需要爬行这些元素。我发现了这个简洁的教程，它展示了如何在没有对服务器的额外调用的情况下使用Selenium来完成此操作(我也是这样)。然而，这个和其他来源提到了为此目的使用Selenium的性能成本。在本例中，驱动程序是在构造函数中启动的，所以我假设对蜘蛛的所有请求都将通过Firefox进行？我只涉及到一小部分Ajax调用，其余的都是标准的Scrapy爬行。在完成部分任务后，在单个蜘蛛中从Selenium/Browser切换到默认的Scrapy机制是否可行？如果是这样的话，我应该怎么做呢？ def __init__(self): self.d

浏览 5提问于2015-11-20得票数 0

回答已采纳

2回答

如何理解scrapy.Request中的回调函数？

python、callback、scrapy

我正在使用Python第二版阅读Web抓取，并希望使用Scrapy模块从网页中抓取信息。我从文档中获得以下信息：回调(可调用)-该函数将以该请求的响应(一旦下载)作为其第一个参数来调用。有关更多信息，请参见将其他数据传递给下面的回调函数。如果请求没有指定回调，那么将使用蜘蛛的parse()方法。注意，如果在处理过程中引发异常，则将调用errback。我的理解是：传入url并重新定位，就像在请求模块中一样。 resp = requests.get(url) 传递用于数据解析的resp 解析(Resp) 问题是：我没看到resp是从哪里传入的为什

浏览 4提问于2020-07-04得票数 0

回答已采纳

1回答

如何将响应传递给我的解析函数？

python、web-scraping、scrapy

我正在使用cloudscraper来抓取一个cloudflare保护的url，它的工作方式是： scraper = cloudscraper.create_scraper() response = scraper.get(url).text 如何将这个响应以scrapy形式传递给我的parse函数？我可以以某种方式将它放在scrapy.Request()中吗？

浏览 0提问于2021-02-04得票数 0

3回答

递归使用刮除phpBB论坛

python-2.7、xpath、web-scraping、scrapy、screen-scraping

我试着用刮伤来爬行一个基于phpbb的论坛。我的知识水平是相当基础的(但不断提高)。提取论坛帖子第一页的内容或多或少是容易的。我成功的刮刀是： import scrapy from ptmya1.items import Ptmya1Item class bastospider3(scrapy.Spider): name = "basto3" allowed_domains = ["portierramaryaire.com"] start_urls = [ "http://portierramaryaire

浏览 2提问于2015-10-08得票数 2

2回答

Scrapy在搜索长长的urls列表时遇到困难

python、scrapy

我正在抓取一个很大的urls列表(1000-ish)，在设定的时间之后，爬虫被困在爬行0页/分钟。爬行时，问题总是出现在同一地点。从MySQL数据库中检索urls列表。我对python和scrapy相当陌生，所以我不知道从哪里开始调试，我担心由于我缺乏经验，代码本身也有点乱。任何指向问题所在的指针都是值得感谢的。我过去常常一次检索整个urls列表，爬虫工作得很好。然而，我在将结果写回数据库时遇到了问题，我不想将整个大的url列表读取到内存中，所以我将其更改为一次迭代数据库中的一个url，这就是问题发生的地方。我相当确定url本身不是问题所在，因为当我尝试从有问题的url开始爬行时，它可以正

浏览 19提问于2019-01-14得票数 2

1回答

如何解决使用scrapy时的排序问题？

python、python-3.x、scrapy

我相信这是一个简单的问题，我愿意学习更多。事情是，我想通过网址抓取网站标题。其目的是预测在线新闻的受欢迎程度，数据来自UCI机器学习存储库。这是the link。我按照Scrapy的教程修改了"quotes spider“中的代码，如下所示。在终端中运行"scrapy crawl quotes“之后，我使用"scrapy crawl quotes -o quotes.json”将所有的标题保存到JSON中。有158人失踪。我有39,486个URL，但有39,644个网站标题。此外，每个网站的顺序并不适合每个URL。例如，最终的标题对应于倒数第三的URL。你能帮我找

浏览 36提问于2019-04-01得票数 2

回答已采纳

2回答

为什么爬行器没有为这个站点返回任何响应？

python、web-scraping、web-crawler、scrapy

我正在使用scrapy来删除，但是当我运行爬行器时，我没有看到任何响应。我尝试了reddit.com和quora.com，它们都返回了数据(开始爬行)，但不是我想要的站点。这是我的简单爬虫： from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider from scrapy.spiders import Rule class FirstSpider(CrawlSpider): name = "jobs" allowed_domains = [&

浏览 1提问于2015-12-14得票数 1

1回答

如何在scrapy中执行请求postrequest

python、post、scrapy、scrapy-spider

我想从一个post请求开始我的抓取爬虫 import requests data = { 'lang': 'en', 'limit': '10', 'offset': '0', 'path': '/content/swisscom/en/about/news', 'query': '' } s_url = 'https://www.

浏览 0提问于2018-10-11得票数 0

1回答

无法使用刮伤登录

python、scrapy

我正在尝试刮一个我必须先登录的页面，但是由于某种原因，在我使用FormRequest之后，刮除会爬上另一个没有什么关系的页面。请参阅下面的代码： # coding: utf-8 import scrapy from scrapy.http import Request, FormRequest usuario = 'myemail' senha = 'mypassword' urllogin = 'https://ludopedia.com.br/login' urlnotificacoes = 'https://ludopedia.c

浏览 1提问于2017-07-25得票数 0

回答已采纳

1回答

scrapy crawler出错

python、scrapy

以下是错误消息： 2013-01-20 22:45:02+0700 [scrapy] INFO: Scrapy 0.16.3 started (bot: scrapybot) 2013-01-20 22:45:02+0700 [scrapy] DEBUG: Enabled extensions: LogStats, TelnetConsole, CloseSpider, WebService, CoreStats, SpiderState 2013-01-20 22:45:02+0700 [scrapy] DEBUG: Enabled downloader middlewares: Htt

浏览 3提问于2013-01-20得票数 1

1回答

Splash - Scrapy - HAR数据

python、scrapy、scrapy-splash、scrapinghub、splash-js-render

总的来说，我知道如何使用Scrapy和x-path来解析html。但是，我不知道如何获取HAR数据。 mport scrapy from scrapy_splash import SplashRequest class QuotesSpider(scrapy.Spider): name = 'quotes' allowed_domains = ['quotes.toscrape.com'] start_urls = ['http://quotes.toscrape.com/js'] def start_req

浏览 32提问于2020-01-17得票数 3

2回答

如何使用Scrapy创建Twitter爬虫？

twitter、scrapy、web-crawler

我试过使用Scrapy从Pinterest这样的网站上抓取数据，这些网站不需要登录会话进行数据抓取，但如何使用Scrapy抓取和爬行Twitter，因为要访问Twitter追随者和其他数据，我们需要首先登录。

浏览 0提问于2014-12-18得票数 2

1回答

Python :如何抓取一个页面以获得将用于刮另一个页面的信息，等等？

javascript、python、selenium、scrapy、screen-scraping

我需要构建一个python脚本，它的目标是在“显示更多”按钮中检索一个数字。然后，这个数字将被用作一个参数，以请求一个URL，该URL将返回包含数据+数字的JSON。最后一个数字将用作参数，以请求URL，该URL将返回包含数据+数字的JSON，等等。这个过程一直持续到JSON返回空数据+一个数字。当数据为空时，刮板应停止。我用过Scrapy，但这不管用。Scrapy是异步的，根据我的情况，我需要等待第一个JSON结果给我下一个信息，这样我就可以刮第二个URL，等等。你建议我用什么作为Python库？我读过Selenium做这项工作，但它比Scrapy慢得多。

浏览 1提问于2016-12-18得票数 1

回答已采纳

2回答

我如何知道哪个浏览器被用来在Scrapy框架中爬行？

python、selenium、web-scraping、scrapy、web-crawler

我的背景是：正如你所知道的，Chrome，Firefox，Safari上的网站HTML结构是非常不同的。因此，当我使用CSS-Selector从HTML结构中获取元素标记中的数据时，有时这个标记已经在Chrome浏览器中有了，而另一个则没有。因此，我只想专注于一个浏览器，以减少我的工作量。当我使用Scrapy框架从urls抓取数据时，我不知道Scrapy将使用哪个浏览器来抓取数据。因此，我也不知道返回哪种HTML响应体。我检查了响应，我发现，有时结构是相同的，从Chrome，但有时它不是。看起来Scrapy框架使用了许多不同的web浏览器来抓取数据。我想要的：我只想

浏览 0提问于2018-12-05得票数 0

回答已采纳

2回答

我如何从有下一个按钮的网站刮擦，如果它滚动？

python、scrapy

我正试着从一个叫做商示波器的网站上搜集所有的数据。但是，当我试图运行我的代码时，它只是得到一个随机引用。它至少应该从那个页面中获取所有的数据，但它只需要一个。另外，如果我从第1页得到数据，我想要的是从所有页面中获取数据。那么如何解决这个错误(应该从page1获取所有数据)？如何使用下一页中的所有数据？ items.py文件 import scrapy class QuotetutorialItem(scrapy.Item): title = scrapy.Field() author = scrapy.Field()

浏览 0提问于2019-04-15得票数 0

1回答

如何立即执行Scrapy请求，并在parse方法中获得返回的响应？

web-scraping、scrapy

如何立即执行Scrapy请求并在parse方法中获得返回的响应？我需要从另一个链接获取一些信息，并将其与我从原始链接(在parse方法中)获得的当前信息组合在一起。因此，我需要能够执行scrapy请求并获得返回的响应。

浏览 2提问于2017-12-17得票数 0

1回答

为什么刮破的爬虫停了？

scrapy

我已经写了一个爬虫使用刮除框架来解析一个产品网站。爬行器突然停在中间，没有完成完整的解析过程。我对此做了大量的研究，大多数的答案都表明我的爬虫被网站屏蔽了。有什么机制可以让我发现我的蜘蛛是被网站阻止了，还是它自己停下来了？下面是蜘蛛的信息级日志条目。 2013-09-23 09:59:07+0000 [scrapy] INFO: Scrapy 0.18.0 started (bot: crawler) 2013-09-23 09:59:08+0000 [spider] INFO: Spider opened 2013-09-23 09:59:08+0000 [spider] INFO

浏览 2提问于2013-09-24得票数 4

1回答

scrapy回调函数是否指向生成请求的相同函数？

python、scrapy

我正在使用Scrapy爬行一个网站。我有类似于此的代码： class mySpider(scrapy.Spider): def start_requests(self): yield SplashRequest(url=example_url, callback=self.parse, cookies={'store_language':'en'},

浏览 0提问于2019-02-16得票数 0

回答已采纳

1回答

如何使用scrapy抓取多个页面？(两个级别)

scrapy

在我的网站上，我创建了两个简单的页面:这是他们的第一个html脚本： test1.html： <head> <title>test1</title> </head> <body> <a href="test2.html" onclick="javascript:return xt_click(this, "C", "1", "Product", "N");" indepth="true"> <span>

浏览 1提问于2014-07-25得票数 0

1回答

如何在使用Scrapy爬行数据时处理身份验证和验证码

python、authentication、scrapy、web-crawler、recaptcha

我正在尝试使用从抓取一堆文本消息，但目前在执行抓取之前，我被困在身份验证阶段。更具体地说，我无法通过目标网站的登录屏幕，其中有一个reCAPTCHA复选框，如下图所示。问题是，它总是被重定向回原始登录链接，以及机器人复选框的验证错误。我在社区中搜索了所有类似的问题，并尝试使用从浏览器复制带有身份验证会话的cookie的解决方案(在我手动登录后)，以便我可以在Scrapy中使用它们，但它仍然不起作用。到目前为止，我的代码如下： import ... class CrawlerSpider(scrapy.Spider): name = "test" allowe

浏览 0提问于2020-03-16得票数 0

2回答

如何将.onload结果返回主函数

javascript、api

我有一个跨平台请求调用，它在xhr.onload函数中获取数据，如何将数据返回到主函数？ makeCorsRequest(email) { var xhr = this.createCORSRequest(email); xhr.send() xhr.onload = function() { var text = xhr.responseText; return text //I want to return this on the makeCorsRequest function after the .send() is do

浏览 0提问于2018-03-22得票数 0

1回答

Scrapy跳过一个方法

python、scrapy-spider

我正在抓取本地page_source文件。Scrapy完全跳过了parse_nextfile()函数。它非常适合parse()函数。我不知道为什么会这样？ from scrapy import Spider from scrapy.loader import ItemLoader from linkedin.items import LinkedinItem import glob, os class ProfilesSpider(Spider): name = 'profiles' allowed_domains = ["file://127.0.

浏览 17提问于2017-06-28得票数 0

回答已采纳

1回答

Scrapy无法抓取第1页

scrapy、scrapy-spider

我想让我的蜘蛛抓取网站每一页上的列表。我使用了CrawlSpider和LinkExtractor。但当我查看csv文件时，第一页(即起始url)上的任何内容都没有被刮掉。抓取的项目从第2页开始。我在Scrapy shell上测试了我的爬虫，它看起来很好。我不知道问题出在哪里。下面是我的爬虫代码。请帮帮忙。非常感谢! import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from shputuo.items_shputuo import

浏览 1提问于2015-12-14得票数 1

1回答

如何使用Scrapy0.24爬行站点并仅解析与RegEx匹配的页面

python、regex、scrapy

我在Windows 64位计算机上的Python2.7.9上使用了Scrapy 0.24。我试图告诉scrapy从一个特定的URL http://www.allen-heath.com/products/开始，从那里只从url包含字符串ahproducts的页面收集数据。不幸的是，当我这样做时，根本就没有数据被刮掉。我做错了什么？下面是我的代码。如果有更多的信息，我可以提供帮助的答案，请问，我会做一个编辑。这是我的爬虫日志的一个pastebin：。谢谢。 import scrapy import urlparse from allenheath.items import Product

浏览 0提问于2015-05-04得票数 3

回答已采纳

1回答

Scrapy: CrawlSpider在为其他域工作时不对特定域执行回调

python、web、web-scraping、scrapy

我试图从中删除NBA的历史数据。使用下面的代码，回调不会执行。但是，当我将oddsportal.com更改为nba.com时，没有问题。我不知道这是为什么。建议？ import scrapy from scrapy.loader import ItemLoader from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from nba_scrapper.items import NbaScrapperItem import re class GetGame

浏览 2提问于2022-07-14得票数 0

1回答

Scrapy不提出事后请求。

python、ajax、scrapy

我编写了我的Scrapy蜘蛛，它应该用AJAX处理一些站点。理论上，它应该可以正常工作，而且当我在Scrapy中手动使用它时，它应该可以正常工作，但是当我运行"scrapy爬行.“时，它就可以工作了。我没有在日志中看到任何帖子请求，也没有任何项目被刮掉。它可以是什么，问题的根源是什么？ import scrapy from scrapy import Request, FormRequest import json class ExpertSpider(scrapy.Spider): name = "expert" allow

浏览 1提问于2016-10-08得票数 0

回答已采纳

2回答

如何用Scrapy抓取整个网站？

web、web-scraping、scrapy

我无法抓取整个网站，Scrapy只能在表面抓取，我想抓取更深的部分。我已经用谷歌搜索了5-6个小时，但没有任何帮助。我的代码如下： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import HtmlXPathSelector from scrapy.item import Item from scrapy.spider import BaseSpider from

浏览 0提问于2013-03-19得票数 11

3回答

将变量赋予具有产量的回调函数

python、scrapy

在Scrapy 首先，我有两个函数：parse()被调用，parse_each()在parse()中被调用 class UtamapSpider(scrapy.Spider): def parse(self, response): yield scrapy.Request(url=each_url, callback=self.parse_each) def parse_each(self,response): 现在，我想向parse_each传递一些额外的参数。所以，我想做的就是这样。 class UtamapSpider(scrapy.Spider):

浏览 4提问于2021-12-17得票数 1

回答已采纳

1回答

如何使用Scrapy在页面中爬行？

python、web-scraping、scrapy

我使用Python和Scrapy来回答这个问题。我试图抓取网页A，它包含指向网页的链接列表-- B1、B2、B3、.每一个B页面都包含一个指向另一个页面的链接，C1、C2、C3、.，其中包含一个图像。所以，使用Scrapy，在伪代码中的思想是： links = getlinks(A) for link in links: B = getpage(link) C = getpage(B) image = getimage(C) 然而，当我试图在Scrapy中解析多个页面时，我遇到了一个问题。这是我的代码： def parse(self, response):

浏览 1提问于2013-06-10得票数 5

回答已采纳

1回答

为什么Scrapy中的数据没有完全加载视图(响应)？

web-scraping、scrapy

我正试着用Scrapy从Youtube上收集一些评论。但是，当我进入scrapy shell模式并使用view(response)打开它时，除了加载旋转器之外，我找不到任何注释。 scrapy shell https://www.youtube.com/watch?v=kkl7-NzqxWo view(response) 在注释部分显示无限旋转器。我怎样才能同时加载评论以便我可以刮掉它们呢？

浏览 1提问于2018-12-01得票数 0

回答已采纳

2回答

从爬行器返回嵌套结构

scrapy、scrapy-spider

我正在研究如何让scrapy返回一个嵌套的数据结构，因为我能找到的唯一例子就是处理平面结构。我正在尝试抓取一个论坛，它由一个线程列表组成，每个线程都有一个帖子列表。我可以成功地抓取线程列表和帖子列表，但我不确定如何将所有帖子附加到线程中，而不是将所有帖子混杂在一起。最后，我的目标是输出如下： <thread id="1"> <post>Post 1</post> <post>Post 2</post> </thread> <thread id="2">

浏览 5提问于2015-08-12得票数 2

1回答

Scrapy:重复的项目字段，因为有多个for循环

python、scrapy

我的问题与几乎完全相同但是我有两个For循环，所以创建一个新的条目将导致我丢失第一个刮过的页面中的数据。基本结构是：知道第一个网址。循环通过已知的urls - For loop for data and next url - For loop for more data and next url - Even more data and next url. - Even more data and next url. - Yield 每页有10-40条数据，但我有一个简单的代码，它可以查找1-2个数据。

浏览 0提问于2019-08-20得票数 0

回答已采纳

2回答

在登录后刮取urls列表

scrapy

要刮除的站点有多个具有多个页面的项目，并且需要登录。我试过： def start_request(self): return [scrapy.FormRequest(, callback=self.logged_in)] def logged_in(self, response): with open(...) as f: for url in f.readlines(): return scrapy.Request(url, callback=self.parse) def parse(self, response): ..

浏览 6提问于2016-03-11得票数 1

1回答

使用刮除器从flipkart上刮取数据

python-2.7、selenium、web-scraping、scrapy

为此，我尝试从flipkart.com中获取一些信息，我正在使用Scrapy。我需要的信息是flipkart上的每一个产品。我从scrapy.contrib.spiders导入CrawlSpider规则中为我的蜘蛛使用了以下代码 from scrapy.contrib.linkextractors import LinkExtractor from scrapy.selector import HtmlXPathSelector from tutorial.items import TutorialItem class WebCrawler(CrawlSpider): name

浏览 2提问于2014-12-07得票数 2

回答已采纳

1回答

Scrapy不会回调默认'parse‘之外的其他函数

python、python-3.x、scrapy

allowed_domains = ["textfiles.com/100"] start_urls = ['http://textfiles.com/100/'] def parse(self,response): link=response.css('a::attr(href)').extract() for i in link: temp="http://www.textfiles.com/100/"+i data=scrapy.Request(temp,callback=se

浏览 3提问于2018-07-08得票数 1

1回答

抓取请求url来自哪个url响应

scrapy

对于Scrapy，我们可以得到response.url，response.request.url，但是我们怎么知道response.url，response.request.url是从哪个父url中提取出来的呢？谢谢你，肯

浏览 26提问于2019-03-14得票数 1

1回答

Heroku上的刮伤爬虫返回503服务不可用

python、heroku、web-scraping、scrapy、http-status-code-503

我有一个抓取抓取器，可以从网站上抓取数据，并将刮过的数据上传到远程MongoDB服务器。我想把它托管在heroku上，让它在很长一段时间内自动刮起。我使用刮除-用户代理在不同的用户代理之间旋转。当我在我的pc上本地使用scrapy crawl <spider>时，蜘蛛正确地运行并将数据返回到MongoDB数据库。然而，当我在heroku上部署项目时，我在heroku日志中得到了以下行： 202-12-22T12:50:21.132731+00:00应用程序1: 2020-12-22 12:50:21 scrapy.downloadermiddlewares.retry调试:重试

浏览 2提问于2020-12-22得票数 1

回答已采纳

0回答

查找条带支出中包含的费用

php、stripe-payments、php-7

给定条带返款(po_1BRxlK...)，我如何确定此返款中包含哪些费用？现在，API中的余额事务看起来完全是一团糟。我已经尝试搜索两次支付之间的所有费用，但由于费用的持有期，可能会有几个日期的转移。您建议如何将支出与费用相匹配？我可以看到，在条纹仪表板中，您可以看到支出中的所有交易，所以我假设可以通过API以某种方式获得相同的数据。提前谢谢。

浏览 2提问于2017-12-18得票数 5

回答已采纳

1回答

使用Python和Scrapy的IMDB刮刀

python、scrapy、web-crawler、scraper

好吧，我对编程很陌生，我觉得最好的学习方法就是编程。我的部分工作是在IMDB上搜索一部电影，粘贴导演、作家、(前四位)演员，并在Excel电子表格中链接到IMDB页面。我的最终目标是拥有一个带有电影标题和年份的CSV，让刮刀从CSV中获取这些变量，搜索IMDB，提取数据，并将数据导出到一个新的CSV中。我已经阅读和研究了大约一个星期。我已经成功地通过了Scrapy教程，但我有困难从那里到预期的目的。如何将CSV中的值导入到蜘蛛脚本中？我想应该是这样的： name = COLUMN1 COLUMN1= COLUMN2 class imdb_spider(scrapy.Spider)：

浏览 3提问于2015-01-16得票数 0

回答已采纳