Scrapy:在使用scrapy和xpath时，如何同时获取文本和带有标记的文本？

文章/答案/技术大牛

发布

1回答

、、

我需要从下面的html中获取183.7 183.7 但是，如果在代码下面以scrapy shell模式运行，则只有'.7‘可用 response.xpath('//span[@class="price"]/text()').get() 我该如何写代码来获

浏览 11提问于2019-10-17得票数 1

回答已采纳

1回答

不能让Scrapy / Xpath注意到双

、、

我选择它是xpath，它带有像这样的刮擦：Out',我怎么能做到这样它就不会忽视额外的br？

浏览 1提问于2014-04-01得票数 1

回答已采纳

1回答

好的，所以我必须完全编辑这个。我已经让脚本部分工作，我可以启动它没有任何问题，这是脚本。粘贴链接在这里：，您可以看到我在cmd行中得到了什么。我确信正在搜索的关键字在这些链接中，因为我也尝试过其他单词，但它没有下载它们。import scrapy from scrapy.http import Request from FinalSpider.itemsitems.py URL = "http:/&#x

浏览 2提问于2015-11-30得票数 0

回答已采纳

1回答

使用类查找锚标记内的文本的Xpath

、、

我正在使用scrapy并尝试使用xpath提取锚标记中的文本。例如，锚标记有一个名为test的类。示例：这就是我目前所拥有的：//a[@class="test"]/ 我如何使用锚标签和

浏览 0提问于2018-01-22得票数 0

2回答

XPATH - /a/text()，无法提取电子邮件地址(文本)

、、

我有一个简单的HTML文件，其中包含用户名和指向其子页面的链接：我使用 xpath('.//a/text()&#

浏览 0提问于2018-06-04得票数 0

1回答

使用带有Scrapy的CSS选择器获取子标记的文本，什么也不返回。

、

虽然最初这是一个非常常见的问题，但我尝试了许多不同的方法来递归地从以下html代码中删除所有文本，但由于某种原因，它们都没有工作： <span class="

浏览 3提问于2022-12-04得票数 0

回答已采纳

2回答

如何找到HTML标记的title属性的Xpath并打印该标题的文本

、

我使用的是pythons scrapy库。我希望能够使用Xpath选择器从下面的<h1>代码中抓取包含在title属性中的文本。www.facebook.cpm/" title="Go to Facebook home">

浏览 32提问于2019-01-13得票数 0

回答已采纳

1回答

从第一个元素和文章标题中收集数据

、、、、

odometer: 164 fuel : gas transmission : automatic title status : <<e

浏览 0提问于2015-05-25得票数 1

回答已采纳

1回答

python Scrapy获取一个部分中的所有文本标记

、

我想使用Scrapy来获得任何类型的文本标签，比如h1，p，span，strong和其他在部分标签旁边的标签，而忽略其他像img这样的标签：<h1>text</h1> name = 'example '

浏览 13提问于2021-05-31得票数 1

回答已采纳

1回答

如何利用刮擦获得工作描述？

、、

我对scrapy和XPath很陌生，但用Python编程已经有一段时间了。我希望使用scrapy从页面email、name of the person making the offer和phone中获取https://www.germanystartupjobs.com/job正如您所看到的，电子邮件和电话是在标签中作为文本提供的，因

浏览 5提问于2016-12-16得票数 1

回答已采纳

2回答

从具有多个元素的类中获取文本

、、

">Target Text Here</h1> 但我不知道如何告诉scrapy“从H1获取文本，但跳过itemprop和rel元素”。我可以这样获取H1元素： response.xpath('//*[contains(@class,"entry-title")]') 它会返回 [<Selector xpath='//*[

浏览 65提问于2021-11-06得票数 -1

回答已采纳

2回答

Scrapy/XPath:替换段落中的内联标记

、

我试图使用Scrapy从p中提取和清除一些包含内联图标和其他标记的文本。特别是，我希望用从图像src属性中提取的文本替换图像标记：text = ''' </b</e

浏览 1提问于2018-06-28得票数 0

回答已采纳

1回答

使用XPATH刮取属性值？

、、、

我刚刚开始使用XPath进行html抓取，所以我对语法有点困惑。_h480_q80.jpg" />html路径如下： <li> <a></a> 我正在使用scrapy解析html页面，到目前为止，这是我的代码'] = site.select('div/a/@href').e

浏览 2提问于2017-06-25得票数 1

回答已采纳

2回答

使用Scrapy获取属性名称

、、

我试图同时获取XML文件中某些标记的键值和属性值(使用scrapy和xpath)。标签是这样的：我不知道"attr1“、"attr2”等键，它们可以在两个元素之间进行更改。我不知道如何使用xpath

浏览 3提问于2015-09-25得票数 4

回答已采纳

1回答

Scrapy xpath aria-select=false

、、、、

我正在尝试使用scrapy从一些可汗学院的视频中获取转录信息。例如：当我试图通过xpath response.xpath('//div[contains(@role, "tablist")]/a').extract()选择Transcript按钮时，我只得到了带有aria-selected="true"的选项卡的信息，即abo

浏览 8提问于2016-08-15得票数 1

3回答

如何使用Scrapy获取完整链接文本

、、

我使用scrapy从webpage.And获取数据，我遇到了如下问题。<a href="NEW-IMAGE?type=GENE&object=EG10567">manX -Escherichia coli</a></li> 在网页中，该记录的</em

浏览 3提问于2016-03-22得票数 0

回答已采纳

1回答

Xpath grep元素

、、

我正在使用Scrapy Python尝试从站点中grep数据。如何使用Xpath对此结构进行grep？>"Section": { [45767 : Win_1 : TEST_1] [85567 : Win_T : TEST_T] [435656 : Win_A : TEST_A

浏览 3提问于2017-06-24得票数 0

回答已采纳

1回答

按顺序进行抓取索引

、、、

我目前正在使用Scrapy创建一个切分网络爬虫，并尝试使用Elasticsearch对获取的内容进行索引。到目前为止一切正常，但我只能按照爬虫过滤html标签的顺序将内容添加到搜索索引中。所以举个例子到目前为止，我可以从带有类“文章”的</

浏览 0提问于2016-09-01得票数 0

2回答

刮擦返回多项

、、、

我对Scrapy很陌生，我真的不知道如何在一个块中返回多个项目。Spider.pyfro

浏览 1提问于2017-10-04得票数 6

回答已采纳

1回答

在Scrapy中使用XPath提取HTML结果失败，因为内容是动态加载的

、、、、

与我之前的一个问题有关，但与此不同的是，我遇到了一种情况，即Scrapy (用于Python)不会在h4标记中提取span标记。标签中获取“骑士格罗夫”的文本。在命令行上使用scrapy shell时，th

浏览 3提问于2017-07-01得票数 3

回答已采纳

点击加载更多

Scrapy:在使用scrapy和xpath时，如何同时获取文本和带有<b>标记的文本？

不能让Scrapy / Xpath注意到双<br>

刮擦脚本，如何找到特定的关键字并返回或打印url

使用类查找锚标记内的文本的Xpath

XPATH - /a/text()，无法提取电子邮件地址(文本)

使用带有Scrapy的CSS选择器获取子标记的文本，什么也不返回。

如何找到HTML标记的title属性的Xpath并打印该标题的文本

从第一个元素和文章标题中收集数据

python Scrapy获取一个部分中的所有文本标记

如何利用刮擦获得工作描述？

从具有多个元素的类中获取文本

Scrapy/XPath:替换段落中的内联标记

使用XPATH刮取属性值？

使用Scrapy获取属性名称

Scrapy xpath aria-select=false

如何使用Scrapy获取完整链接文本

Xpath grep元素

按顺序进行抓取索引

刮擦返回多项

在Scrapy中使用XPath提取HTML结果失败，因为内容是动态加载的

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐