在Scrapy中获取选择器的子项

，可以使用css或xpath选择器语法来获取元素的子元素。

使用css选择器语法获取子项的方法是在父级元素选择器后面加上空格再加上子项的选择器。例如，假设我们要获取一个<ul>元素下的所有<li>元素，可以使用以下代码：

# 使用css选择器获取子项
items = response.css('ul li')

使用xpath选择器语法获取子项的方法是在父级元素选择器后面加上/再加上子项的选择器。例如，假设我们要获取一个<ul>元素下的所有<li>元素，可以使用以下代码：

# 使用xpath选择器获取子项
items = response.xpath('//ul/li')

以上代码中，response是Scrapy框架中的响应对象，通过发送请求后获取的网页内容。css()和xpath()方法用于对网页内容进行选择器匹配，返回的是一个元素列表。

通过获取选择器的子项，我们可以进一步对子项进行处理和提取数据。例如，可以获取子项中的文本内容、属性值等。

Scrapy是一个基于Python的开源网络爬虫框架，适用于数据挖掘、数据采集等应用场景。它提供了强大的选择器和数据提取功能，使得开发者可以快速、高效地从网页中提取所需数据。

对于Scrapy相关的腾讯云产品推荐，可以使用腾讯云的云服务器（CVM）来部署Scrapy爬虫，使用对象存储（COS）存储爬取的数据，使用云数据库（TencentDB）存储数据，使用负载均衡（CLB）提供高可用性和负载均衡能力，使用内容分发网络（CDN）加速网页访问等。具体产品介绍和更多详情，请参考腾讯云官方文档：腾讯云产品。

在Scrapy中获取选择器的子项

、、、

我有一个选择器，它是通过过滤选择器列表得到的。现在我需要获取这个选择器的子对象。获取选择器列表的代码为 results = response.css('font::text, b::text, p::text, span::text').getall() if 'some_charecters' in r.root:

浏览 22提问于2021-01-10得票数 0

1回答

确保项目数据打印在单独的行上

、、、

我使用Scrapy从网站的第一页抓取信息，并将数据导出为.csv文件，如下所示：我想要获得form的输出： 'Link': [u'url'],{...........但相反，我在一个{}

浏览 1提问于2015-10-19得票数 0

1回答

无法使用样式组件javascript刮除网站。

、、、

我的目标问题responseresponse.xpath('//h1/p')<e

浏览 4提问于2020-12-15得票数 0

回答已采纳

1回答

无法在scrapy中使用css选择器抓取下一个同级

、、、、

我正在尝试获取预算使用scrapy实现它的css选择器。当我使用xpath时，我可以得到它，但是对于css选择器，我就迷路了。我甚至可以在使用<code>D0</code>的情况下使用BeautifulSoup获取内容。我已经尝试过了：我使用css选择器得到的输出： <code>A2</c

浏览 16提问于2020-08-06得票数 0

1回答

使用XPATH刮取属性值？

、、、

49e7a93da461352c04b8e7146a8d2ceel-m0xd-w480_h480_q80.jpg" />html路径如下： <li> <a></a>from scrapy.spider import BaseSpider from scrapy.selec

浏览 2提问于2017-06-25得票数 1

回答已采纳

10回答

如何选择元素中除最后一个子项以外的所有子项？

、

如何使用CSS3选择器选择除最后一个子项之外的所有子项？例如，若要仅获取最后一个子项，则应为div:nth-last-child(1)。

浏览 4提问于2010-04-04得票数 452

回答已采纳

1回答

Scrapy:如何在不重新下载html的情况下重现结果？

、、、

在使用Scrapy将HTML下载到我的硬盘后(例如，使用带有字段HTML的内置项目导出器，或者将所有HTML文件存储到一个文件夹中)，我如何使用Scrapy再次从硬盘读取数据并执行管道中的下一步？有没有类似于项目导入器的东西？

浏览 10提问于2017-06-20得票数 0

2回答

Scrapy:如何在scrapy/wget已经下载的文件上使用XPath选择器？

、

我的项目涉及解析已经通过Scrapy或wget下载的文件。我知道我可以使用XPath选择器，但是到目前为止，我看到的示例涉及到在Scrapy的解析方法中调用XPath选择器，因此只对Scrapy下载的文件起作用。有没有一种方法可以直接对下载的文件使用XPath？我是Python和Scrapy的新手，所以我找不到在</em

浏览 2提问于2013-01-13得票数 0

1回答

我想在Spyder中使用Scrapy，而不是通过终端/shell使用它。我是一个windows用户，Scrapy版本1.8.0，pyhton 3.7.3，我正面临着BeautifulSoup的问题。例如，我试图从一个网站获取一个产品的价格，问题是它并不总是得到数据，但Scrapy在这里通过使用CSS选择器工作得很好。所以我想将Scrapy与Spyder或Vscode一起使用，因为我还有其他依赖于Scrapy输出的</

浏览 69提问于2019-12-14得票数 0

回答已采纳

1回答

为什么我不能通过response.css获取所有的图片链接？

、、

我正在尝试提取图像的所有链接，但我只能提取每个属性页上的主图片，使用 def parse(self, response): link = prop.css(

浏览 17提问于2019-08-07得票数 0

回答已采纳

2回答

为什么我不能在Scrapy中解析响应？

我是新的抓取和使用它从拉扎达网站刮数据。我得到了200条HTTP消息，这意味着响应将成功返回。但是我不能解析响应，尽管xpath查询是正确的。有谁可以帮我？谢谢。这是代码：name = 'lazada' all_products = response.xpath('//

浏览 19提问于2020-10-28得票数 0

3回答

jquery .find()函数替代？

、、

.find()函数在IE 7及更低版本中运行非常慢，经常导致挂起。下面是代码片段。

浏览 1提问于2012-07-10得票数 3

2回答

Scrapy:如何从<span>中提取属性值

查看Twitter: www.twitter.com/twitter<span class="ProfileNav-value" data-count="57939946" data-is-compact="true">57.9M</span>(//u

浏览 0提问于2018-10-18得票数 1

回答已采纳

1回答

Selenium，Scrapy迭代(单击下一步)仅从第一页提取项目的href

、、

我尝试提取每一项的href (每页六个)。要转到下一页，我使用next_click()。Selenium webdriver将打开并单击所有页面(到目前为止还不错)。但只提取第一页中的项。看起来，它识别了正确的条目数量，但只重新提取了第一页的条目。注意:如果您单击下一页，url将保持不变。非常感谢你的帮助！import scrapyimport time from scrapy.linkextrac

浏览 2提问于2020-11-05得票数 0

1回答

使用Scrapy访问图像URL

、、、

我正在尝试从这个网站上搜集有关房屋的信息：https://www.goldenproperty.co.za/property_search_result.aspx?1000000000&beds=-1&baths=-1&ids=Cape%20Town.all%20suburbs&status=-1&sqm=-1&land=-1 具体地说，我希望提取结果页面上列出的每个属性的图像的但是，由于它们在子页面上可用，所以我只得到get，

浏览 17提问于2019-05-27得票数 0

回答已采纳

1回答

scrapy :查找包含特定文本的元素

、、、

我正在用scrapy爬行。我正在获取网站的全部内容。import scrapy name = "team" yield scrapy.Request(url='http://*****.com', callback=self.get_scripts)

浏览 0提问于2017-03-23得票数 6

1回答

Scrappy选择器上的Scrappy迭代

、、、、

我正在尝试抓取一个使用调用HTML的API的网站，因此为此，我需要抓取API，然后从API抓取HTML结果我已经使用这篇文章设法获得了API响应，并从中获得了HTML。resp = json.loads(response.text) selector= scrapy.Selector(text=resp['results'], type="html") 而且它工作得很好，当我试图从页面获取属性时，我可以使用CSS或Xpath选择器来获取项我现在

浏览 10提问于2020-12-16得票数 1

2回答

Scrapy不能获取页面中的所有链接，而Chrome可以

、、、、

我正在尝试获取一个页面上的所有链接https://www.jumia.com.eg‘使用scrapy。代码如下： all_categories = response.xpath ('//a') 但我在结果中发现了很多缺失的链接。结果的数量是242个链接。当我尝试Chrome开发人员工具时，我得到了所有的链接，结果计数为608，带有相同的选择器xpath (//a)。 ?

浏览 47提问于2020-07-21得票数 0

回答已采纳

1回答

Python3抓取网爬虫

、、、、

对于我的工作，我必须写一个爬虫，它只保存页面的标题，交付状态和产品的数量。以下是我的默认蜘蛛代码： name = "quotes" ]

浏览 2提问于2020-07-20得票数 0

回答已采纳

2回答

Scrapy:从使用"id“选择器而不是"class”的html标记中提取数据

、

我对web scraping和Scrapy是个新手。我希望你能帮助我。谢谢你的帮助!

浏览 2提问于2017-07-26得票数 5

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在Scrapy中获取选择器的子项

相关·内容

在Scrapy中获取选择器的子项

确保项目数据打印在单独的行上

无法使用样式组件javascript刮除网站。

无法在scrapy中使用css选择器抓取下一个同级

使用XPATH刮取属性值？

如何选择元素中除最后一个子项以外的所有子项？

Scrapy:如何在不重新下载html的情况下重现结果？

Scrapy:如何在scrapy/wget已经下载的文件上使用XPath选择器？

如何在Spyder或VScode中使用Scrapy

为什么我不能通过response.css获取所有的图片链接？

为什么我不能在Scrapy中解析响应？

jquery .find()函数替代？

Scrapy:如何从<span>中提取属性值

Selenium，Scrapy迭代(单击下一步)仅从第一页提取项目的href

使用Scrapy访问图像URL

scrapy :查找包含特定文本的元素

Scrappy选择器上的Scrappy迭代

Scrapy不能获取页面中的所有链接，而Chrome可以

Python3抓取网爬虫

Scrapy:从使用"id“选择器而不是"class”的html标记中提取数据

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐