CSS选择器带有Scrapy Python的HTML_python scrapy css选择器不是常量格式抓取_点击带有css选择器的按钮(python) - 腾讯云开发者社区

html、css、scrapy

我使用scrapy选择器来提取下面的html并将其加载到项目加载器中。如何提取td的文本，其中这个td包含一个带有类sweetness的div 也就是说，我想提取文本Dry。 HTML代码： <tr> <td> <div class="grape"> </div> Cabernet Sauvignon </td> <td> <div class="sweetness"> &l

浏览 0提问于2020-04-08得票数 1

1回答

无法解析选择器？

javascript、python、scrapy、splash-screen、scrapinghub

我目前在centos中使用scrapy + splash + python。我编写了以下代码，用于从提取内容。无法从java脚本弹出窗口提取数据，例如"href="javascript:void(0);“任何人都会引导我爬行。蜘蛛代码： def parse(self,response): selector = Selector(response) links = [] for link in selector.css('div.job_list div.cont > span.style.display:bloc

浏览 4提问于2014-11-11得票数 0

回答已采纳

1回答

使用scrapy、python提取url的标题。

python、scrapy

我刚接触Scrapy，Python。我需要提取urls的标题，而不是上下文。下面的代码提取上述内容以及title.Kindly帮助提前谢谢你。 class BlogSpider(scrapy.Spider): name = 'bg' start_urls = ['https://blog.scrapinghub.com', 'https://scrapinghub.com/'] def parse(self, response): for title in response.css

浏览 1提问于2017-02-07得票数 1

1回答

无法使用scrapy正确获取python中的元素

python、parsing、web-scraping、scrapy

我刚接触scrapy/python，你能帮我吗？我试着用scrapy在这个网站上获取每个工作室的名称，但仍然没有结果，所以我不能超越标签。下面是我的代码： import scrapy class OffSpider(scrapy.Spider): name = "offs" start_urls = ['https://oficinasonline.com.br/oficinas/busca?state_id=26'] def parse(self, response): for off in response.css(

浏览 3提问于2018-07-25得票数 0

1回答

即使使用正确的语法，Scrapy响应也返回“无”。

python、scrapy

我正试着把这个项目的名字放在这样的字典里： import scrapy class TerrorSpider(scrapy.Spider): name = 'terror' start_urls = ['http://books.toscrape.com/catalogue/category/books/travel_2/index.html'] def parse(self, response): for filme in response.css('h3 a'): yield

浏览 3提问于2022-10-31得票数 0

1回答

我的scrapy项目没有将数据存储在文件中

python、web-scraping、scrapy

我刚开始使用scrapy。我正在整理我的动漫排行榜前50名的动漫，并用它做一些事情。我的爬虫包含以下代码： import scrapy class AnimeSpider(scrapy.Spider): name="animelist" start_urls=[ 'https://myanimelist.net/topanime.php' ] def parse(self,response): for anime in response.css('tr.rankinglist

浏览 0提问于2018-11-09得票数 1

1回答

“我的蜘蛛侠不爬行，”爬了0页，刮了0件东西，似乎找不到出什么问题了

python、python-3.x、web-scraping、scrapy

在我的控制台上运行“抓取爬行newegg”时，我会碰到“爬行0页(0页/分钟)，刮0项(0项/分钟)”。我已经尝试过查找许多修复程序，但它们都没有起作用。任何帮助都很感谢，谢谢。 # web scrapes newegg page for product price import scrapy class NeweggSpider(scrapy.Spider): name = 'newegg' start_urls = [ 'https://www.newegg.com/team-32gb-288-pin-ddr4-sdram/p/N8

浏览 8提问于2022-08-29得票数 0

1回答

如何只抓取文本？

python、scrapy

代码： import scrapy class BlogSpider(scrapy.Spider): name = 'bijouterie' start_urls = ['https://www.example.com'] def parse(self, response): for post in response.css('#engine-results .drs'): yield {'title': post.css('a.moodalbox.re

浏览 6提问于2020-09-06得票数 0

回答已采纳

1回答

抓取子元素-抓取CSS选择器的错误部分

python、scrapy

我正在尝试从下面的标签中抓取“"Brick Bank”“ <a href="/sets/10251-1/Brick-Bank"><span>10251: </span> Brick Bank</a> 下面是我的Scrapy Spider对象:导入scrapy class SpiderSpider(scrapy.Spider): #we take the Spider class provided by Scrapy and make a subclass out of it called BrickSetSpider.

浏览 4提问于2018-08-21得票数 0

2回答

爬行0页(0页/分钟)，刮0项

python、python-2.7、web-scraping、scrapy、screen-scraping

你好漂亮的程序员！我面临着一个我无法resolve.Please帮助我的问题。我正试着用刮一个，但是我在all.Please没有得到任何结果--帮助我，我会非常感谢你。我试过不同的东西，但work.PLEASE帮不了我。 P.S :我在刮破的壳上查过了 import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from olx.items import OlxItem class ElectronicsSpider(CrawlSpider

浏览 0提问于2018-07-10得票数 0

回答已采纳

1回答

不知道如何使用刮伤的itemLoaders

scrapy、scrapy-spider

我正在努力学习如何使用itemLoaders，有人能告诉我我做错了什么吗？？我想提前感谢你。 import scrapy from items.items import ItemsItem from scrapy.loader import ItemLoader class ItemspiderSpider(scrapy.Spider): name = 'itemspider' allowed_domains = ['yellowpages.com'] start_urls = ['https://www.yellowpages

浏览 1提问于2017-07-05得票数 1

回答已采纳

2回答

Scrapy运行，但没有输出任何内容

python、scrapy

我是新刮，我试图从sephora获得一个产品信息。理想情况下，我想通过所有的护肤品，虽然我有困难在第一阶段。我想弄清楚为什么这没有任何信息？另外，scrapy中的响应参数为我提供我需要的数据。 # -*- coding: utf-8 -*- import scrapy class sephora_try_mousturizer(scrapy.Spider): name = 'sephora_m' allowed_domains = ['www.sephora.com'] start_urls = ['https://w

浏览 0提问于2018-11-23得票数 0

回答已采纳

1回答

刮擦:错误:蜘蛛错误处理

python、scrapy

我是python和scrapy的新手。我试图运行现有代码，但在每个地址上都出现了这个错误： > 2015-07-02 01:52:19 [scrapy] DEBUG: Crawled (200) <GET http://www.tripadvisor.com/ShowUserReviews-g187147-d197524-r281927613-Hotel_Mirific_Opera-Paris_Ile_de_France.html> > (referer: > http://www.tripadvisor.com/Hotel_Review-g187147-

浏览 1提问于2015-07-01得票数 2

1回答

我正在通过scrapy-splash抓取bet3000 livescore体育网站，该网站有javascript启用的站点，这给了我错误。

python、web-scraping、scrapy、scrapy-splash

这个蜘蛛文件从scrapy.spiders导入蜘蛛从scrapy_splash导入SplashRequest从..items导入GameItem class Splash1Spider(Spider): name = 'scrapy_splash_1' start_urls = ['https://www.livescore.bet3000.com'] def start_requests(self): for url in self.start_urls: yield SplashRequest

浏览 2提问于2020-11-27得票数 0

2回答

Scrapy:修改响应中的元素和字段

python、python-2.7、scrapy、lxml

我对Scrapy、Python和面向对象编程比较陌生，所以如果我遇到任何术语错误或不清楚的地方，我深表歉意。我正在尝试编写一个爬虫，当它从响应中抓取项目时，它还将创建响应的修改版本以保存到文件中。例如，我正在尝试修改“src”链接，使其指向本地保存的抓取文件。目前，我正在使用Scrapy的选择器抓取数据，并使用lxml修改响应。但是，我希望使用Scrapy的方法来进行修改，而不是使用lxml，因为同时使用Scrapy选择器和lxml实际上意味着在响应中查找相同的元素需要加倍的代码。我在下面添加了一些代码来说明我的观点。一切都发生在爬虫解析函数中。 def parse(self，respo

浏览 2提问于2015-07-19得票数 6

1回答

href是空的，如何得到URL？

javascript、python、html

我在用Python/Scrapy。当我试图找到“下一页”按钮的网址时，我发现按钮的href属性是空的。按钮就能用了。是否可以通过xPath或CSS选择器获得链接？ HTML如下所示： <a data-testid="pagination-next-page" class="button small right shadowbox no-margin" ng-click="togglePage(page + 1)" href=""><span>Seuraava</span> <i class

浏览 4提问于2017-06-08得票数 0

回答已采纳

1回答

Scrapy脚本提供了TypeError(“无法混合str和非str参数”)

python、string、xpath、scrapy、scrape

嗨，我是编程新手，遇到这个看似非常常见的问题，但老实说，我所看到的答案都没有对我的情况有所帮助。我的代码是： import json import scrapy class MoreKeysSpider(scrapy.Spider): name = 'getoffers' def __init__(self): with open(r'C:\Users\magnu\brickset-scraper\postscrape\postscrape\prod.json', encoding='utf-8') as d

浏览 15提问于2021-03-22得票数 1

回答已采纳

1回答

无法在scrapy中使用css选择器抓取下一个同级

python、python-3.x、web-scraping、scrapy、css-selectors

我正在尝试获取预算使用scrapy实现它的css选择器。当我使用xpath时，我可以得到它，但是对于css选择器，我就迷路了。我甚至可以在使用<code>D0</code>的情况下使用BeautifulSoup获取内容。我已经尝试过了： <code>A1</code> 我使用css选择器得到的输出： <code>A2</code> 预期输出： <code>A3</code> html的相关部分： <code>A4</code> <code>C5</code

浏览 16提问于2020-08-06得票数 0

1回答

如何用Scrapy抓取Yellowpages

python、scrapy

我正在尝试抓取黄页，但出现了一个错误，即在“爬虫名称”中没有属性响应。我目前在linux，ubuntu和python 2.7.3上工作。代码如下： import scrapy from scrapy.spider import Spider from scrapy.http import FormRequest, Request from scrapy.selector import HtmlXPathSelector class yellowpages(scrapy.Spider): name = 'yellowpages' allowed_domains

浏览 1提问于2014-07-07得票数 0

1回答

Python是否有可能进入每个产品页面并刮取数据？

python、web-scraping、scrapy

我对python和web抓取很陌生，我想知道是否有可能用刮伤从产品页面中抓取。示例:我在amazon.com上搜索监视器，我希望scrapy转到每个产品页面并从那里刮取，而不是只是从搜索结果页面中抓取数据。我读过一些关于xpath的文章，但我不确定是否可以使用这个方法，而且我发现的所有其他资源似乎都在使用其他东西，比如漂亮的汤等等。我正确地拥有了一个从搜索结果页面中抓取的刮擦项目，但是我想将它改进为从产品页面中刮取。编辑：以下是我根据您的建议修改的spider.py： class TestSpiderSpider(scrapy.Spider): name = 'testscra

浏览 3提问于2020-11-10得票数 0

回答已采纳

2回答

使用Scrapy Splash将响应存储为文件

python、web-scraping、scrapy、scrapy-splash、splash-js-render

我正在使用Splash创建我的第一个scrapy项目，并使用来自的测试数据，我希望将每个页面的引号作为一个单独的文件存储在磁盘上(在下面的代码中，我首先尝试存储整个页面)。我有下面的代码，它在我不使用SplashRequest时工作，但是在下面的新代码中，当我在Visual代码中“运行和调试”这段代码时，磁盘上没有存储任何东西。此外，self.log不写入我的视觉代码终端窗口。我刚开始玩Splash，所以我肯定我错过了什么，但是什么？已经检查了和。 import scrapy from scrapy_splash import SplashRequest class QuoteItem(s

浏览 5提问于2020-10-14得票数 4

回答已采纳

3回答

在本地HTML文件上使用scrapy内置选择器

python、python-3.x、scrapy

我有一些本地HTML文件，需要从中提取一些元素。我习惯于在xpath和css以及.extract()和.extract_first()中使用内置选择器来编写Scrapy和提取元素。有没有可以做到这一点的库？我检查过BeautifulSoup和lxml，但它们的语法与Scrapy不同。例如，我想做这样的事情： sample_file = "../raw_html_text/sample.html" with open(sample_file, 'r', encoding='utf-8-sig', newline='') as

浏览 17提问于2020-02-22得票数 1

回答已采纳

1回答

在保存到磁盘之前，如何更改由Scrapy爬行的网页的一部分？

python、scrapy

在Scrapy蜘蛛的parse()方法中，我们可以在response上使用css()方法来获取所需的信息。例如，我们可以使用response.css("#container")获取以下HTML片段。 <div id="container"> <div class="sep">test</div> ... </div> 在保存到磁盘上之前，我们如何更改HTML片段的一部分？例如，我希望将<div class="sep">的文本内容更改为1234，以便最终需要

浏览 0提问于2020-10-12得票数 0

回答已采纳

1回答

刮擦飞溅获取部分数据

python、web-scraping、scrapy、scrapy-splash

当我运行刮刀时，我会发现这个错误： 2022-09-19 23:17:00 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.justforsport.com.ar/top-mujer-reebok-ts-ubf-seamless-rojo/p> (referer: https://www.justforsport.com.ar/mujer?page=7) Traceback (most recent call last): File "C:\Users\User\Desktop\

浏览 4提问于2022-09-20得票数 0

回答已采纳

1回答

在python (jupyter notebook)中使用scrapy拉取特定数据？

python、pandas、scrapy

我正在尝试使用jupyter notebook运行一个爬虫来获取特定的数据-在这种情况下，结果应该从链接的下拉列表中获取"21个服务“。我有以下代码： import scrapy from scrapy.crawler import CrawlerProcess class DCspider( scrapy.Spider ): name = "dcspider" def start_requests( self ): urls = [ 'https://www.bodybuilding.com/store/alpha-l

浏览 57提问于2020-01-01得票数 0

1回答

刮云蜘蛛请求在GeneratorExit中失败

python、web-scraping、scrapy

我有一个Scrapy多级蜘蛛，它在本地工作，但是在每次请求时在云中返回GeneratorExit。下面是解析方法： def parse(self, response): results = list(response.css(".list-group li a::attr(href)")) for c in results: meta = {} for key in response.meta.keys(): meta[key] = response.meta[key] yield res

浏览 1提问于2018-04-04得票数 1

回答已采纳

1回答

我的代码不起作用，但一切似乎都正常。

python、web-scraping、scrapy、scrape

你好，我试图从下面的代码中抓取一些信息，但不是刮掉website.The输出中的任何信息： {'BOT_NAME': 'superlig', 'NEWSPIDER_MODULE': 'superlig.spiders', 'REQUEST_FINGERPRINTER_IMPLEMENTATION': '2.7', 'SPIDER_MODULES': ['superlig.spiders'], 'TWISTED_REACTOR': 'tw

浏览 11提问于2022-11-01得票数 0

1回答

蜘蛛爬行中的错误，用户代理不工作

python、web-scraping、scrapy、user-agent

我对Python上的web抓取非常陌生。目前正试图翻阅亚马逊的最新书籍。与许多教程一样，我使用了随机用户代理中间件，如本所示。起初，我设法爬上了网页。然而，在过去的几天里，python只返回"Spider错误处理“。也许是因为Amaz0n阻塞了用户代理，或者我的代码中缺少了一些我找不到的东西。以下是终端返回的内容： 2020-10-22 01:37:59 [scrapy.utils.log] INFO: Scrapy 2.3.0 started (bot: scrapyamazon) 2020-10-22 01:37:59 [scrapy.utils.log] INFO: Vers

浏览 2提问于2020-10-21得票数 0

回答已采纳

1回答

如何刮除此链接的所有页面

python、scrapy

我想刮这个链接的所有页面，。我尝试过不同的方法，但我没有找到任何解决办法。下面是我的代码 import scrapy class jobisjobSpider(scrapy.Spider): enter code here name = 'jobisjob' allowed_domains = ['jobisjob.co.uk'] start_urls = ['http://www.jobisjob.co.uk/search?directUserSearch

浏览 1提问于2016-06-23得票数 0

1回答

Scrapy:如何在不重新下载html的情况下重现结果？

python、web-scraping、scrapy、reproducible-research

在使用Scrapy将HTML下载到我的硬盘后(例如，使用带有字段HTML的内置项目导出器，或者将所有HTML文件存储到一个文件夹中)，我如何使用Scrapy再次从硬盘读取数据并执行管道中的下一步？有没有类似于项目导入器的东西？

浏览 10提问于2017-06-20得票数 0

1回答

Scrappy选择器上的Scrappy迭代

python、json、api、scrapy、css-selectors

我正在尝试抓取一个使用调用HTML的API的网站，因此为此，我需要抓取API，然后从API抓取HTML结果我已经使用这篇文章设法获得了API响应，并从中获得了HTML。 resp = json.loads(response.text) selector= scrapy.Selector(text=resp['results'], type="html") 而且它工作得很好，当我试图从页面获取属性时，我可以使用CSS或Xpath选择器来获取项我现在要做的就是遍历选择器 for item in selector:

浏览 10提问于2020-12-16得票数 1

1回答

选择器response.xpath和response.css之间的输出差异是什么？

python、xpath、css-selectors、scrapy

我在python工作，在Scrapy库的帮助下制作爬虫。当我使用选择器response.xpath和response.css获取数据时，结果就不同了。就像我使用xpath时一样，它没有显示结果，如果我用css替换xpath，那么它将显示结果。请帮助我理解这个概念。 xpath查询 img = response.xpath('//div[@class="product-images"]//img/@src').extract() css查询 img = response.css('div.product-images img::attr(src)

浏览 1提问于2017-08-01得票数 1

1回答

在scrappy中剥离文本

python-3.x、web-scraping、scrapy、data-mining

我在试着运行spyder提取房地产广告信息。我的代码： import scrapy from ..items import RealestateItem class AddSpider (scrapy.Spider): name = 'Add' start_urls = ['https://www.exampleurl.com/2-bedroom-apartment-downtown-4154251/'] def parse(self, response): items = RealestateItem()

浏览 0提问于2020-10-04得票数 0

2回答

基本HTML页面没有输出的残缺选择器

scrapy

我很难让基本的(非常基本的) html页面用我正在使用的Scrapy爬虫输出任何东西，希望有人能带我走上正确的道路。我试图抓取的html示例： <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> <head> <link rel="shortcut icon" href="../images/favicon.ico"> <meta http-equiv="Content-Type" content="t

浏览 0提问于2015-01-24得票数 0

1回答

问题，删除以前的数据

python、web-scraping、scrapy

在使用scrapy和try产命令时，我在python中面临一个问题。如果我只在' name‘上运行下面的脚本，它将按预期返回该页面上的完整名称列表，但是当我将价格添加到脚本中时，对于缺货项没有价格，因此它返回“无价格”，但也会从输出中删除该名称。我真的不明白它为什么要这么做，我在下面添加了两个执行的屏幕截图(一个是用名字运行的，另一个是用名称和价格运行代码的)。 import scrapy class TescoSpider(scrapy.Spider): name = 'tesco' start_urls = ['https://www.te

浏览 2提问于2022-08-03得票数 1

回答已采纳

3回答

Scrapy和xpath查找文本“？”的<a>

python、xpath、web-scraping、scrapy

我有一个蜘蛛，它必须找到带有“-the”内部的“next”链接-从这个HTML： <div id="content-center"> <div class="paginador"> <span class="current">01</span> <a href="ml=0">02</a> <a href="ml=0">03</a> <a href="m

浏览 5提问于2017-07-21得票数 0

回答已采纳

1回答

为什么在Python中运行时，我的刮掉的JSON导出不能工作？

python、terminal、scrapy、web-crawler

我已经创建了一个python脚本，我希望能够从运行python文件开始，而不是使用终端。我一直在用以下方法- os.system("scrapy crawl preorder") 但是，当我添加JSON导出( scrapy )时，它正常运行，但没有创建JSON文件。在终端中运行时，相同的命令可以工作。 os.system("scrapy crawl preorder -O test.json") 那么，为什么JSON导出不能工作呢？这是完整的密码- import scrapy, os from scrapy.crawler import CrawlerPr

浏览 4提问于2022-10-20得票数 -1

1回答

不能刮瓷砖；Python字典返回'None‘

python、web-scraping、scrapy

我正试着从Indeed.com上找个职位。这是我的代码： import scrapy class JobsNySpider(scrapy.Spider): name = 'jobs_ny' allowed_domains = ['www.indeed.com'] start_urls = ['https://www.indeed.com/jobs?q=analyst&l=New%20York,%20NY&vjk=b588911bd50d7ab1'] def parse(self, respon

浏览 1提问于2022-02-10得票数 0

回答已采纳

1回答

我怎么才能解决这个问题，它不回短信？

web-scraping、scrapy、scrapy-splash

我是刮这个网站，我在提取文本上有问题。我试过各种方法，但都没有用 import scrapy from scrapy_splash import SplashRequest class QuotesSpider(scrapy.Spider): name = "hi" start_urls = [ 'https://cadres.apec.fr/home/mes-offres/recherche-des-offres-demploi/liste-des-offres-demploi.html?motsCles=commercial&

浏览 1提问于2019-08-07得票数 1

2回答

Scrapy:谁能告诉我为什么这段代码不能让我抓取后面的页面？

python、scrapy

我是一个初学者，正在学习如何在Python中使用Scrapy进行网络抓取。有人能指出哪里出了问题吗？我的目标是抓取所有后续的页面。 from indeed.items import IndeedItem import scrapy class IndeedSpider(scrapy.Spider): name = "ind" allowed_domains = ["https://www.indeed.com"] start_urls = ['https://www.indeed.com/jobs?q=analytics+in

浏览 27提问于2021-04-25得票数 3

1回答

如何从xpath中抓取业务名称并获取csv文件

python、scrapy

i am trying to scrape yellow page by using scrapy and python getting all other result right but not getting the business name 尝试更改xpath，甚至尝试css选择器，但没有得到正确的结果

浏览 20提问于2020-04-05得票数 0

回答已采纳

3回答

Scrapy有可能从原始HTML数据中获取纯文本吗？

python、html、web-scraping、scrapy、web-crawler

例如： scrapy shell http://scrapy.org/ content = hxs.select('//*[@id="content"]').extract()[0] print content 然后，我得到以下原始HTML代码： <div id="content"> <h2>Welcome to Scrapy</h2> <h3>What is Scrapy?</h3> <p>Scrapy is a fast high-level scre

浏览 0提问于2013-07-18得票数 18

回答已采纳

1回答

在使用Scrapy刮取数据时重复数据

web-scraping、scrapy、duplicates

python 我正在使用刮刮从一个网站的数据，我想刮图形卡标题，价格和他们是否在股票。问题是，我的代码循环了两次，而不是使用10产品，而是得到了20。 import scrapy class ThespiderSpider(scrapy.Spider): name = 'Thespider' start_urls = ['https://www.czone.com.pk/graphic-cards-pakistan-ppt.154.aspx?page=2'] def parse(self, response):

浏览 0提问于2020-09-06得票数 0

回答已采纳

3回答

scrapy:将html字符串转换为HtmlResponse对象

python、web-scraping、scrapy

我有一个原始的html字符串，我想将其转换为scrapy HTML response对象，这样我就可以使用选择器css和xpath，类似于scrapy的response。我该怎么做呢？

浏览 8提问于2014-12-06得票数 28

回答已采纳

1回答

根据id的一部分和拆分属性值快速查找元素

scrapy、css-selectors

我是Scrapy的新手，我正在尝试创建一个CSS选择器，它根据id的一部分找到一个元素，并拆分它的value属性以获得第n个项目。到目前为止，我一直在使用简单的选择器，就像这样： item['url'] = response.url # get url item['address'] = response.css('span.address::text').get().strip() # get address 但是，现在我想选择这个元素(所有id以mger开头的元素)，并拆分其value属性中的值： <input typ

浏览 12提问于2020-12-17得票数 0

回答已采纳

2回答

使用scrapy从javascript html标记访问json数据的regex。

python、web-scraping、scrapy、scrapy-shell

我刚开始学习自动取款机( atm )，我正在尝试访问页面html上的JSON数据，并将它们放入python中，然后再使用数据，所以我尝试了一些失败的东西，如果有人能帮助我的话，我会很感激的。我找到了所需标记的response.css，其结果在scrapy中如下所示： response.css('div.rich-snippet script').get() '<script type="application/ld+json">{\n some json data with newline chars \n }\n ]\n}

浏览 13提问于2021-10-10得票数 0

回答已采纳

2回答

使用Scrapy抓取一些文本

python、scrapy

我试图从网站上收集货币对欧元的汇率的网络刮刀，我能够获得实际汇率工作，但我也希望它刮实际货币(如美元，日元等)。在那里遇到了问题。我计算出实际的货币存储在"currency“类中，但不知道如何让刮板来拾取它。我的代码如下： class CurrencySpider(scrapy.Spider): name = 'currency' start_urls = [ 'https://www.ecb.europa.eu/stats/policy_and_exchange_rates/euro_reference_exchange_rat

浏览 0提问于2020-05-02得票数 0

1回答

通过刮擦的项目加载器传递选择器

python、scrapy、screen-scraping

所以在抓取的时候，我在寻找一个元素，它是html代码中两个不同元素的组合。我正在考虑使用ItemLoaders of scrapy来消除这可能产生的丑陋代码。要达到这些元素，可以使用以下选择器： main_element = response.css('css_to_main') element_one = main_element.css('css_to_one::text').get() element_two = main_element.css('css_to_two::text').get() final_element = eleme

浏览 3提问于2022-01-21得票数 0

回答已采纳

1回答

如何在刮刮中使用Itemloaders时遍历选择器列表？描述中的细节

python、web-scraping、scrapy、scrapy-spider

我正在努力搜集属于联合国会员国的国家及其详细情况的清单。这里是我的方法，不使用项目加载器在这里，我得到了一个家长标签，包含了所有联合国成员的详细信息--，如姓名、加入日期、网站、电话号码和联合国总部。并非所有国家都有网站、电话号码和儿童详细信息。我正在通过父标记运行一个循环，逐个提取详细信息，并将其存储在一个变量中，然后将tha变量分配给items。 import scrapy from learn_scrapy.items import UNMemberItem class UNMemberDetails(scrapy.Spider): name = 'UN_deta

浏览 0提问于2018-03-30得票数 1

1回答

为什么scrapy不返回任何“标题”项目？

python、scrapy

我正在尝试爬行，因为scrapy为"Title“项返回None，这是作业名。css选择器在shell中工作得很好，其他项也可以工作。我试图更改选择器或添加延迟，但似乎没有任何效果。有谁有主意吗？下面的代码。 import scrapy from jobscraping.items import JobscrapingItem class GetdataSpider(scrapy.Spider): name = 'getdata2' start_urls = ['https://www.jobs.ch/de/stellenangebote/ad

浏览 3提问于2021-03-28得票数 0

回答已采纳