使用getall()获取xPath属性

使用getall()获取xPath属性是指使用某种编程语言的相关库或框架中的getall()方法来获取指定元素的xPath属性。

xPath（XML Path Language）是一种用于在XML文档中定位元素的语言。它使用路径表达式来选取XML文档中的节点或节点集。xPath属性是指一个元素在XML文档中的路径，用于唯一标识该元素。

使用getall()获取xPath属性的步骤如下：

首先，需要导入相应的库或框架，并创建一个可以操作XML文档的对象。
加载目标XML文档到该对象中。
使用xPath表达式选择要获取xPath属性的元素。
调用getall()方法，传入xPath表达式作为参数，获取元素的xPath属性。

以下是Python语言中使用lxml库来获取xPath属性的示例代码：

from lxml import etree

# 加载XML文档
xml_data = '''
<root>
  <element1>Value 1</element1>
  <element2>Value 2</element2>
</root>
'''
root = etree.fromstring(xml_data)

# 使用xPath表达式选择要获取xPath属性的元素
elements = root.xpath('//element1')

# 获取元素的xPath属性
xPath_attr = elements[0].getroottree().getpath(elements[0])
print("xPath属性:", xPath_attr)

在上述示例代码中，我们首先导入了lxml库，并创建了一个可以操作XML文档的root对象。然后，通过xPath表达式选择了名为element1的元素，并调用getall()方法获取了该元素的xPath属性。

xPath属性的应用场景包括但不限于以下几种情况：

在XML文档中定位元素并获取其xPath属性，用于数据处理或分析。
在Web自动化测试中，通过xPath属性定位HTML元素并进行操作。
在爬虫开发中，使用xPath属性从HTML或XML页面中提取有用的信息。

在腾讯云产品中，没有直接提供与xPath属性相关的服务或产品，但可以借助云服务器、数据库、函数计算等基础服务，结合自己的开发逻辑来实现对xPath属性的获取与应用。

请注意，以上回答仅为参考，具体答案和推荐的腾讯云产品可能会根据实际情况和需求有所不同。

页面内容是否对你有帮助？

有帮助

没帮助

Python3抓取一个页面的所有信息

、、、

我的蜘蛛： import scrapy class LinkSpider(scrapy.Spider): name = "page" start_urls = [ 'https://www.topart-online.com/de/Blattzweige-Blatt-und-Bluetenzweige/l-KAT282?seg=1' ] def parse(self, response): yield{ 'ItemSKU': response.

浏览 9提问于2020-07-27得票数 0

回答已采纳

3回答

使用xpath Scrapy从列表中提取要素

、、、

我一直在尝试从该获取所有属性信息和功能有一个列表，但是，当我尝试用xpath只获取其中一个时，我无法检索任何内容。以下是我尝试过的方法： response.xpath('//div[@id="property-info-col1"]/text()').getall() response.xpath('//div[@class="col-md-6"]').getall() response.xpath('//*id[@class="property-info-col1"]').getall()

浏览 0提问于2021-03-24得票数 0

1回答

使用scrapy提取和构造表数据

、

我对python和scrapy很陌生，我想我会尝试一个简单的评论站点来抓取。虽然大多数的网站结构是直接的，我有困难提取内容的评论。这部分在视觉上显示为3组(良(good)、悪(bad)、感(印象)字段右侧的文本)，但由于使用泛型div，我在提取这些内容并将其与审阅者或评审部分相关联时遇到了困难，、/n和其他格式。任何帮助都将不胜感激。这是我尝试过的抓取它们的站点和代码，有一些结果。 (1)： response.xpath('//tr//td[@valign="top"]//text()').getall() 这将返回整个评论集，但它包含换行符标记，更有问题

浏览 6提问于2020-08-31得票数 0

回答已采纳

1回答

一种刮行不均的刮板

、、

我试着在这里http://www.abyznewslinks.com/allco.htm页面刮表，但我在死胡同，并想问更有经验的人应该如何刮表，这是我设法写的代码https://pastebin.com/zZMfxSeR。我需要将这些字段作为输出CSV - country_region、media_name、media_url、media_type、media_focus、language、media_format中的列。现在，我将列中的所有元素都列在一个单元格中，用逗号分隔，而不是将每个元素分隔成行，这就是我的目标。我应该先按列进行迭代，还是其他什么？ class Abyzrowbyrow

浏览 11提问于2020-09-14得票数 0

1回答

使用xpath text()函数从子元素/节点提取所有文本

、、、

我正在使用刮除，并希望得到所有的文本为儿童节点。我奉命去拿课文 response.xpath('//div[@class="A"]/text()').get() 我期待的结果是：“1-120 u” <div class="A"> <span id="B" class="C"> <span>1 </span>-110o</span> <span id="B"> <span>1 <

浏览 0提问于2021-03-15得票数 0

回答已采纳

3回答

刮除:从列表中删除行提要/n

、

考虑到抓取/python甚至编程，我是一个绝对的新手，但我需要学习和理解它。我创建了一个小蜘蛛，它爬行一个网站，并从网站中提取一些信息，并将其聚合到一个csv文件中。到目前为止，我已经获得了相当成功的输出，然而，我有一个网站内容本身的问题。站点项的xpath选择器以列表的形式生成内容；不过，我希望它将其转换为没有行提要等的单个字符串。我知道，规范化的空格和条带()将是可行的，但是它们只删除前导/尾随行提要，从而将['']作为输出。我很难在代码中实现一个循环，该循环在列表上迭代，最后将一个字符串放在一起，可以在csv中正确保存。有人能帮我吗？这是蜘蛛： import scrap

浏览 1提问于2020-07-09得票数 0

回答已采纳

1回答

将所有行捕获到一个CSV行中

、

我正在尝试用Scrapy生成一个CSV文件，它正在工作，但不像预期的那样。我有一个html表，它有多个行，我希望CSV中也有相同的行。但是，下面的代码将所有HTML行转换为单个CSV行。码 class DemoSpider(scrapy.Spider): name = "DemoSpider" def start_requests(self): urls = [] for page in range(1, 2): url = "https://directory.easternuc.com/pu

浏览 2提问于2020-04-06得票数 0

1回答

Scrapy和解释代码输出中get()和getall()的区别

、、、、

这里有人能帮我吗？我有这段代码，但是当我使用get()时，它只捕获每个页面的第一个产品，JSON文件就像我想要的那样。当我使用getall()时，它接受了我需要的所有产品，但是JSON文件是不同的。例如，我有50页和50产品每页，总共2500件产品。在get()方法中，它只需要50，在getall()方法中它需要全部，但是使用一个奇怪的JSON文件。我希望获得与get()方法相同的JSON输出，但捕获所有产品，就像getall()方法一样我将附上JSON文件的代码和打印 # -*- coding: utf-8 -*- import scrapy from scrapy.excepti

浏览 0提问于2020-10-17得票数 0

回答已采纳

1回答

如何从@class xpath响应中选择span中的特定元素

、

我正在学习在scrapy中使用xpath，但是我要抓取的html是相当复杂的。我尝试过用html、css和xpath选择一些东西，但我达到了这个目的： response.xpath('//span[starts-with(@class,"Animal-")]').getall() 它返回： [u'<span class="Animal-1" title="Dogs" legs="4" tail="true"></span>', u'<span

浏览 29提问于2019-09-11得票数 0

回答已采纳

1回答

AttributeError：'list‘对象没有'replace’Selenium Python属性

、、、

我在使用replace()函数时遇到属性错误 AttributeError: 'list' object has no attribute 'replace' 我正在尝试用一个空字符串替换[和'。 owner_address = response.xpath('XPATH Expression').getall().replace("[", "").replace("'", "") owner_address_region = response.xpath(

浏览 70提问于2020-08-23得票数 1

回答已采纳

3回答

提供所有匹配元素的Scrapy xpath

我有一个HTML文件，我想从其中提取特定DIV下的锚点href值。HTML文件如下所示 <html> <head> <title>Test page Vikrant </title> </head> <body> <div class="mainContainer"> <a href="https://india.net" class="logoShape">India</a>

浏览 16提问于2022-03-29得票数 0

回答已采纳

2回答

我不明白为什么这个XPath选择器不能工作。

、、、、

我正在学习使用刮伤和玩XPath选择器，并决定通过从craigslist抓取职位来练习。下面是craigslist页面中单个职务链接的html，我试图从以下页面中刮取职务名称： <a href="https://orangecounty.craigslist.org/sof/d/trabuco-canyon-full-stack-net-developer/7134827958.html" data-id="7134827958" class="result-title hdrlnk">Full Stack .NET C# Deve

浏览 4提问于2020-06-27得票数 1

回答已采纳

1回答

抓取:如何从页面上的所有标签中获取信息？

、、、

在这个上，我需要从所有选项卡(配置文件、评论、电话号码和方向)获取信息。 wellness.py def profile(self, response): services = response.xpath('.//span[contains(text(),"Services")]') education = response.xpath('.//span[contains(text(),"Education")]') training = response.xpath('.//span[conta

浏览 3提问于2020-03-09得票数 0

回答已采纳

1回答

在刮伤时更正Xpath

、、

我只想使用Xpath从category获取数据。页面链接：这是我的输出： ['Digital Product', ',', 'Finance', ',', 'Landing Page', ',', 'Thaleah Fat', ',', '23 Feb 2022 by', 'Rob Hope']} 这是网页中数据的一个例子：这是我的密码： from scrapy.http import Request import s

浏览 3提问于2022-03-05得票数 -1

回答已采纳

2回答

用刮擦刮除每一个表数据

、、、、

Introduction 在使用了几个星期的scrapy之后，我仍然有一些问题，需要解决的是，一些xpath表达式。大多数情况下，我在提取表格和"ul和li“标签的数据方面有很大的问题。示例网页我试着获取数据：有一个名为"Productdata“的表，我需要每一行，但我没有得到其中的任何一行。我试过这样的方法：response.xpath('//*[@id="2"]/tr/td/text()').getall()，response.xpath('//table[@class="table table-striped"]

浏览 4提问于2020-08-11得票数 0

回答已采纳

3回答

抓取信息时不可成形的列表错误

、、

我正在尝试提取信息，但是它们会给我不可成形列表的错误--这些是页面链接 import scrapy from scrapy.http import Request from scrapy.crawler import CrawlerProcess class TestSpider(scrapy.Spider): name = 'test' start_urls = ['https://rejestradwokatow.pl/adwokat/list/strona/1/sta/2,3,9'] custom_settings = {

浏览 6提问于2022-06-30得票数 0

回答已采纳

2回答

如果内容中有不同的标签，我如何抓取所有内容？

、、

我有一个爬虫，我想要抓取一篇我感兴趣的文章，然后将标题和内容存储在字典中。但是，当我抓取正文时，它会返回html代码，我希望将其转换为文本(包括文章中的所有h1和href )，但是当我使用.getall()时，它会返回一个空列表。我如何将所有这些都转换为文本，同时仍然将所有内容保留在文章中。在scrapy shell中，我已经尝试过，它返回了一个包含所有html代码的大列表。 response.css("div.rich-text-content").getall() 下面是我为了完成这项任务而创建的初始蜘蛛… class ArticleSpider(scrapy

浏览 0提问于2019-08-14得票数 0

1回答

Scrapy无法使用CSS或xPath请求文本

、、、

我尝试提取一些文本已经有一段时间了，虽然一切都很好，但还是有一些东西我无法获取。以这个网站为例：我想从class=listing-main-characteristics__number节点中获取文本(图片下面的框中有"2 chambres 1 salle de bain Aire可居住(s-sol exclu) 1,030 pi2 (95,69m2)"，页面中有3个元素( "2"，"1“和"1,030 pi²(95，69m²)”)。我在XPath和CSS中尝试了一大堆选项，但没有一个有效，有些给出了奇怪的答案。例如，使用： respons

浏览 1提问于2019-05-29得票数 0

3回答

动态创建字段的剪贴式正确选择器

、、、、

我正在做一个网络抓取器，我在抓取正确的选择器时遇到了麻烦。下面是我的代码： # -*- coding: utf-8 -*- import scrapy import pandas as pd from ..items import HomedepotpricespiderItem from scrapy.http import Request class HomedepotspiderSpider(scrapy.Spider): name = 'homeDepotSpider' allowed_domains = ['homedepot.com

浏览 0提问于2020-11-14得票数 4

1回答

抓取选择器:获取元素的n个子文本。

、、、、

我使用Scrapy选择器从html中提取字段。 xpath = /html/body/path/to/element/text() 这类似于问题，在文档之后，我们可以使用.getall()方法获取所有元素，并从列表中选择特定的元素。 selected_list = Selector(text=soup.prettify()).xpath(xpath).getall() 是否可以直接指定在xpath本身中选择哪个nth元素？如下所示 xpath = /html/body/path/to/element/text(2) #to select 3 child text 示例 <body>

浏览 2提问于2020-01-07得票数 0

回答已采纳

1回答

如何在没有类的情况下刮除html标记并使用scrapy更改id？

、、

我想从上提取房产的售价。它没有格式化，没有类，内容用表表示。在这种情况下我该怎么办？每个表表示每个属性。我需要每一处房产的售价，也就是每张桌子的售价。 response.css('tbody').getall()根本不返回任何内容。

浏览 3提问于2022-07-10得票数 0

回答已采纳

1回答

抓取爬行蜘蛛的麻烦

、

import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule class Jptimes3Spider(CrawlSpider): name = 'jptimes3' allowed_domains = ['japantimes.co.jp'] start_urls = ['https://www.japantimes.co.jp/'] custom_settings = {

浏览 3提问于2022-03-11得票数 -1

回答已采纳

1回答

是否要为从scrapy导出的json设置自定义格式结构？如果是，那怎么做？

、、、

我对python和刮伤的东西非常陌生，而且刮伤的文档并不是非常友好的。我为我的学校项目做了一个蜘蛛，它成功地抓取了我想要的数据，但问题是json导出中的格式问题。这只是对我的代码外观的一个嘲弄； def parse_links(self, response): products = response.css('qwerty') for product in products: yield { 'Title' : response.xpath('/html/head/title/text()'

浏览 4提问于2022-04-14得票数 1

1回答

试图收集姓名

、、

我正试着从responsable，president，salaries de la fedration收集这些链接的名字和姓氏。 from scrapy import Spider from scrapy.http import Request class AuthorSpider(Spider): name = 'pushpa' start_urls = ['http://www.cuma.fr/annuaires?page=1e'] def parse(self, response): books =

浏览 5提问于2022-02-16得票数 0

2回答

如何减少使用dict的if-语句数？

、、

我有以下包含多个案例的代码： def _extract_property_value(selector: Selector) -> str: raw_value = selector.xpath("span[2]") default_value = raw_value.xpath("./text()").get().strip() value_with_a = ', '.join([value.strip() for value in raw_value.xpath("./a /text()").g

浏览 11提问于2022-04-04得票数 6

回答已采纳

2回答

如何提取纯文本和同一级别的标签？

、、

<p> A <br> <br> B <a ...> <span >C</span> </a> D <a ...> <span >E</span> </a> F </p> 我想得到"ABCDEF“的结果。我知道xpath(text()).getall()可以得到"A"，"B"，"D"，&

浏览 6提问于2022-07-06得票数 -1

回答已采纳

1回答

用python抓取-xpath问题

、

一个用户曾经在另一个站点上帮助过我，但是通过获取基本代码并将其改编成一个新站点，我的代码不起作用。它不会返回任何结果。错误可能来自访问路径(Xpath)，但是当我检查站点时，我复制/粘贴. 目标是有一个完整的数据库，所有活跃的球员和他们的表现。然后，我想让他们在几年后，然后团队作出达维兹。这就是为什么如果您在xpath上甚至有资源，我感兴趣:) 以下是代码： import logging import scrapy from scrapy.crawler import CrawlerProcess class SoccerSpider(scrapy.Spider): name

浏览 18提问于2022-03-10得票数 -1

1回答

无法使用Scrapy提取产品图像

、、、、

我想从这个链接中提取产品图像。这是我的密码 'img': response.css('figure.woocommerce-product-gallery__image a::attr("href")').getall(), 但它是空的。如何获得所有的图像用逗号分割使用刮除？

浏览 3提问于2022-07-14得票数 0

回答已采纳

1回答

具有for循环或str格式的Scrapy爬行列表旁路

、、、

我正在寻找一个解决方案，我的代码只抓取每一个项目一次。由于我添加了最后一个循环，我收到每个项目三次。如何才能只执行最后一个循环一次，或者是否可能确定所有的加倍爬行？ import scrapy from ..items import TopartItem class LinkSpider(scrapy.Spider): name = "link" allow_domains = ['topart-online.com'] start_urls = ['https://www.topart-online.com/de/Blattz

浏览 0提问于2020-07-28得票数 1

回答已采纳

1回答

直接从数据源中提取动态表数据

、、

使用scrapy，我想提取网页上动态表中显示的数据。由于表是动态的，所以xpath对tbody标记的响应不返回任何数据。 In [1]: response.xpath('//table/tbody').getall() Out[1]: ['<tbody></tbody>'] 另一方面，scrapy对表标记的响应xpath实际上已经包含了所有数据--即使是以结构化的方式： In [2]: response.xpath('//table').getall() Out[2]: ['<table class="

浏览 3提问于2022-03-06得票数 0

回答已采纳

2回答

想刮飞毛腿

、、、

简而言之，我必须刮除Flipkart并将数据存储在Mongodb中。首先，使用为自己提供一个免费的托管Mongodb服务器。测试您是否能够使用python的库pymongo连接到它。其次，安装并使用它的文档使自己对使用Scrapy的刮取更友好。然后，转到以下两个urls 男装女鞋每一页有40个产品，你必须从每个开始的Url抓取多达25页(大约。2000产品)并将数据存储在Mongodb (数据库：，集合: flipkart)中。数据应该直接从Scrapy框架中使用Scrapy管道插入到Mongodb中。你刮到的每一个产品都应该有以下数据： name存储为字符串 brand存

浏览 5提问于2021-04-28得票数 2

回答已采纳

1回答

使用带有Scrapy的CSS选择器获取子标记的文本，什么也不返回。

、

虽然最初这是一个非常常见的问题，但我尝试了许多不同的方法来递归地从以下html代码中删除所有文本，但由于某种原因，它们都没有工作： <span class="coupon__logo coupon__logo--for-shops"> <span class="amount"><b>20</b>%</span> <span class="type">Cupom</span> </span> 我试过的是： p.cs

浏览 3提问于2022-12-04得票数 0

回答已采纳

2回答

抓取时难以使用Xpath/CSS

、、、

我正在试着废弃这个网站： https://www.coolblue.nl/en/our-assortment 我正在收集产品类别的所有网址的列表。几乎所有的我都能买到。出于某种原因，那些“更多..”标签页真的很难得到。我相信这与我的选择器有关。在这一点上，我试图得到那些具体的“更多..”shell中的URL，只是为了弄清楚如何正确地选择它们。例如，在“笔记本电脑、台式机和显示器”部分中，“更多..”类别有href=“/en/笔记本电脑-台式机-监视器”。它位于“监视器”类别之后，带有href="/en/monitors“。这就是我想要做的。我打开了一个scrapy shell：

浏览 22提问于2019-03-14得票数 0

回答已采纳

1回答

返回一个字典，用Scrapy抓取多个页面

、

我正在用Scrapy抓取多个页面，它工作得很好，但是我在输出中得到了两个字典，相反，我想将两个页面的结果放到一个输出行中。在这种情况下，从第二页返回get_image函数的输出，并返回其余的数据：artist和相册，但我不知道如何将这些信息反馈给主字典。谢谢！ import scrapy class OsmoseSpider(scrapy.Spider):

浏览 0提问于2019-04-08得票数 0

回答已采纳

1回答

提取网站，但提供错误的输出

、、

我试着提取表格，他们会给我输出，但他们会错，这是页面链接 from scrapy.http import Request import scrapy class PushpaSpider(scrapy.Spider): name = 'pushpa' page_number = 1 start_urls = ['https://hoopshype.com/salaries/players/'] custom_settings = { 'CONCURRENT_REQUESTS_PER_DOMAIN':

浏览 1提问于2022-03-07得票数 0

回答已采纳

1回答

使用xpath从属性中提取属性id

、、、、

我一直试图从以下网站提取属性id：但无论我尝试使用哪种组合，我似乎都无法收回它。属性id位于这里： <div class="corner-ribbon"> <span class="ribbon-green">NEW!</span> </div> <a href="Details?id=182519" title="view this property"> <img class="img-responsive img-

浏览 2提问于2020-12-13得票数 1

回答已采纳

1回答

Scrapy Selenim不能从所有start_urls中提取数据

、、

如果只列出了一个url，下面的代码就像它应该的那样提取数据。如果我输入两个url (如下所示)，它只会从第一个url中提取数据-但会提取两次！你知道怎么克服这个问题吗？请注意，我删除了一些选择器以缩短代码。 import scrapy from scrapy_selenium import SeleniumRequest from selenium import webdriver class Spider(scrapy.Spider): name = "match_summary" def start_requests(self): ur

浏览 14提问于2020-09-18得票数 1

2回答

使用Scrapy进行the抓取，输出在哪里？

、、、

我试图建立一个蜘蛛，收集有关初创企业的信息。因此，我用scrapy编写了一个Python脚本，它可以访问网站并将信息存储在字典中。我认为代码应该从logik的角度工作，但不知怎么的，我没有得到任何输出。我的代码： import scrapy class StartupsSpider(scrapy.Spider): name = 'startups' #name of the spider allowed_domains = ['www.bmwk.de/Navigation/DE/InvestDB/INVEST-DB_Liste/invest

浏览 8提问于2022-11-25得票数 0

2回答

使用XPath选择匹配表达式的根和子表达式

、、、

我正在使用Nokogiri解析一些看起来像这样的XML： <item name="item one"> <other name="other name"/> <third /> </item> <item name="item two"> <other /> <third /> </item> 我使用Nokogiri解析这些条目，如下所示： xmldoc.xpath("//item").each do |

浏览 5提问于2016-04-05得票数 1

2回答

骨干模型是一种功能吗？

、

我有以下函数，该函数在调用时失败： getAll: function() { return _todos.toJSON(); } _todos.toJSON is not a function，它告诉我。由于某种原因，打印_todos给了我一个函数，function child()。为什么是这种情况？这是我的Backbone.Model var _todos = Backbone.Model.extend(); getAll()函数位于我的Collection中 var TodoCollection = Backbone.Collection.extend({ model

浏览 0提问于2015-07-10得票数 1

回答已采纳

1回答

从xpath/css获取输出的困难

、、、、

下面是我正在抓取的一个示例链接：我正在尝试获取互联网号码，我尝试了css和xpath ，这是我尝试过的， productOMS = product.xpath("//span[@id='product_ID']").getall() 或 productOMS = product.css(".product_internet_number::text").getall() 下面是我想要抓取的html片段： <span itemprop="productID" id="product_internet_num

浏览 4提问于2020-03-05得票数 0

回答已采纳

1回答

在Python中使用广度优先搜索的Web爬虫

、、

我想创建一个维基百科的网页爬虫(页面内的所有链接都被打开并保存)，这需要在广度优先的搜索方式实施。我已经查看了很多源代码和堆栈溢出代码/问题，但无法实现它。我尝试了以下代码： import requests from parsel import Selector import time start = time.time() ### Crawling to the website fetch links and images -> store images -> crawl more to the fetched links and scrape more images all

浏览 2提问于2020-05-31得票数 0

1回答

scrapy返回表中的行太多

、

感觉我没有抓住这里的一些概念，或者试图在我会爬行之前就飞起来(双关语)。页面上确实有5个表格，其中我感兴趣的是第三个表格。但是执行以下命令： #!/usr/bin/python # python 3.x import sys import os import re import requests import scrapy class iso3166_spider( scrapy.Spider): name = "countries" def start_requests( self): urls = ["https://en.wikipedia

浏览 7提问于2020-05-13得票数 0

回答已采纳

1回答

如何使用Scrapy返回多个项目？

、

我在试着学习刮伤的基础知识。我写了下面的蜘蛛来刮一个练习网站，。蜘蛛抓取站点，当我告诉它print标题和价格时，它会为站点上的每一本书返回它们，但是当我使用yield时，它只返回站点上最后一本书的信息。毫无疑问，我的错误很简单，但我想不出是什么。有人能告诉我为什么这只会在网站上刮到最终的标题和价格列表吗？谢谢! import scrapy class FirstSpider(scrapy.Spider): name="CW" start_urls = ['http://books.toscrape.com/'] def parse(self,respo

浏览 3提问于2020-08-27得票数 0

回答已采纳

2回答

从该网站刮取特征图像，但它返回“数据: image /gif”

、、、、

使用python中的Scrapy和scrape从这个网站中刮取特征图像，但是它返回这个data:image/gif;base64,R0而不是这个图像的src，如果有人告诉我如何修复它以获得该图像的src，我需要有人的帮助。这是我的密码 Feature_Image = [i.strip() for i in response.xpath('//*[@id="main-content"]/article/div/div/div[2]/div[1]/picture/img/@src').getall()][0]

浏览 12提问于2022-10-19得票数 0

回答已采纳

1回答

为至尊社区网站收集统计数据

、

我正在尝试使用Python中的Scrapy库从至尊社区网站上获取标题、价格和向上/向下投票的统计数据。 import scrapy class SupremeSpider(scrapy.Spider): name = "Supreme" start_urls = [ 'https://www.supremecommunity.com/season/spring-summer2019/droplist/2019-02-25/' ] def parse(self, response): for d

浏览 33提问于2019-02-28得票数 -4

1回答

我能用Scrapy提取这个XHR数据吗？

、

我正在尝试用Scrapy从这个中提取数据。例如，我希望使用page=1遍历这些<a href=\"/@eberhardgross\">\n，比如前100个页面，并提取urls的每个实例。最终，只是尝试获取用户名，但是页面上还有其他<a href="">，但是如果我可以提取用户名，那就太好了，但是如果我必须获取所有的<a href="">，那就好了，我可以对它们进行排序，只获取@。只是想知道我能不能通过scrapy做这个？ import scrapy class QuotesSpider(scrapy.Spid

浏览 0提问于2019-12-18得票数 0

2回答

使用scrapy跟踪新闻链接

、、、、

我是新的爬行和刮伤，我试图从提取一些新闻，也只是与标签san-valentin匹配的新闻。该网页只是标题与新闻图片，如果你想要阅读它，你必须点击新闻，它将采取ypu的网页()。因此，我认为我的步骤是：转到与我想要的标记匹配的页面，在本例中是san-valentin。从新闻中提取urls 转到新闻版面提取我想要的数据我已经有了第1和第2点： import scrapy class SpiderTags(scrapy.Spider): name = "SpiderTags" def start_requests(self):

浏览 1提问于2019-02-14得票数 0

回答已采纳

3回答

如何使ItemsSource刷新其绑定？

、、

我有一个视图，它显示了绑定到GetAll()的列表框 <DockPanel> <ListBox ItemsSource="{Binding GetAll}" ItemTemplate="{StaticResource allCustomersDataTemplate}" Style="{StaticResource allCustomersListBox}"> </ListBox> </DockPanel> GetAll()是my

浏览 4提问于2009-04-30得票数 11

回答已采纳

1回答

函数无法获得空的td元素。

、、、、

我对网络抓取是非常非常新的，而且我还在学习。目前，我正在使用Python和Scrapy来构建我自己的web刮板，但是我遇到了一些非常奇怪的事情。我试着在这里刮一下这个网页，就像一个练习：这基本上是一个网页，列出了世界各国的债务占GDP的比率。现在，如果您注意到，没有在该网页的表格中记录任何人口号码。我试图使用这个xpath表达式从该网页中提取每个国家的人口： import scrapy import pandas as pd class GdpDebtSpider(scrapy.Spider): name = 'gdp_debt' allow

浏览 3提问于2020-10-27得票数 0

回答已采纳