如何从div中提取所有文本，包括来自Scrapy和Xpah同级的文本？

xpath、scrapy

在使用scrapy 2.4从远程URL提取文本时，我发现它只返回此div中的文本，而不返回它的子节点中的文本。例如。<div> <p>text inside child</p> more text </div<

浏览 16提问于2020-12-26得票数 0

回答已采纳

1回答

用Scrapy从文本文件中从多个URL中抓取所有外部链接

python、url、web-scraping、scrapy、web-crawler

我对Scrapy和Python很陌生，因此我是个初学者。我希望能够让Scrapy读取一个包含大约100 k URL的种子列表的文本文件，让Scrapy访问每个URL，并提取每个种子URL上的所有外部URL(其他站点的URL)，并将结果导出到一个单独的文本文件中Scrapy只应该访问文本文件中<

浏览 0提问于2016-08-28得票数 1

回答已采纳

1回答

如何利用刮擦获得工作描述？

python、xpath、scrapy-spider

我希望使用scrapy从页面email、name of the person making the offer和phone中获取https://www.germanystartupjobs.com/job正如您所看到的，电子邮件和电话是在<p>标签中作为文本提供的，因此很难提取。我的想法是首先在Job Overview中获取文本</

浏览 5提问于2016-12-16得票数 1

回答已采纳

2回答

从css选择器开始，Scrapy返回整个网页。

python、web-scraping、scrapy

我正在抓取博客文章，遇到了一个奇怪的问题。当提取一个完整的元素而不仅仅是它的文本时，scrapy将返回所选的元素+网页中后面的每个元素/结束标记。_1 .text_inner h2').get()当运行时，标题中填充了正确的文本。但是，内容是由正确的响应填充的，然后是后面的每个元素和结束标记。如果我试图提取</e

浏览 1提问于2021-12-16得票数 0

5回答

提取文本xpath抓取

html、xpath、scrapy

大家好，我想用scrapy中的xpath从html块中提取所有文本。假设我们有这样一个街区： <p>Blahblah</p> <p><a><span>Bliblih</span></a>

浏览 10提问于2014-10-10得票数 8

回答已采纳

2回答

将嵌套同级节点中的文本与父节点中的文本连接起来

xpath、scrapy

我尝试从同级节点中提取文本，并将其与父节点中的文本连接起来。如何在xpath中做到这一点？下面显示的超文本标记语言中有几个<sup> and <sub>的实例。我的预期输出： ['2','1/2'] 应该像这样连接['<sup>'+'/'+ &#x

浏览 14提问于2019-05-02得票数 0

2回答

仅剪贴式正文文本

python、scrapy、scrape、scraper

我尝试使用python Scrapy从正文中抓取文本，但还没有成功。希望一些学者能够在这里帮助我从<body>标记中抓取所有的文本。

浏览 1提问于2011-03-22得票数 9

回答已采纳

1回答

使用CSS和Scrapy提取所有文本，没有标记-失败

css、text、web-scraping、tags、scrapy

我已经成功地提取了我所需要的所有文本--但它完全被“包装”了？在标签，字体细节等。我是从网站的几个角色描述。我使用的代码是从Scrapy教程中改编的--我想从站点中提取每个角色的所有与工作相关的文本： for href in response.css

浏览 3提问于2017-10-31得票数 0

回答已采纳

1回答

如何使用Nokogiri CSS选择器获取标记中的所有文本？

ruby、nokogiri

我正在尝试使用Nokogiri从HTML页面中提取文本。我使用CSS选择器来提取文本。我知道text方法用于提取特定标记中的文本，但它只给出了标记的直接子元素文本。如何获取标记中的所有文本，包括嵌套在所述标记中的任何标记中可能包含

浏览 4提问于2015-02-18得票数 0

回答已采纳

1回答

好的，所以我必须完全编辑这个。我已经让脚本部分工作，我可以启动它没有任何问题，这是脚本。粘贴链接在这里：，您可以看到我在cmd行中得到了什么。我确信正在搜索的关键字在这些链接中，因为我也尝试过其他单词，但它没有下载它们。import scrapy from scrapy.http import Request from FinalSpider.itemsitems.py URL = "http:

浏览 2提问于2015-11-30得票数 0

回答已采纳

3回答

与Scrapy一起使用规范化空间

python、parsing、xpath、web-scraping、scrapy

下面是我正在处理的一个文档的模拟：<h4>Area</h4> <span class="bclass"><strong>Address:</strong> </span> </<em

浏览 7提问于2015-11-24得票数 4

回答已采纳

1回答

如何用BeautifulSoup排除元素(Python)

python、beautifulsoup

我试图从本文()中提取文章文本，并将底部的合法容器排除在外。文本部分似乎很简单，但似乎无法摆脱容器。为了便于使用，我将其与法律变量分开。到目前为止，我的代码如下：from bs4 import BeautifulSoup r = request

浏览 9提问于2017-10-12得票数 3

2回答

在scrapy中解析函数中的内联请求

python、scrapy、web-crawler

在这种情况下，我想获得link.url的文本。因此，links包含一组urls，并且在每次迭代中，将来自link.url的文本附加到其中。为此，scrapy需要访问link.url。我这样做是通过发送一个请求，然后回调函数应该提取文本。但是在输出文件中，我看到text字段包含links.url，而不是来自links.url的文本。简单地说，我希望从</em

浏览 2提问于2021-03-30得票数 0

回答已采纳

2回答

使用scrapy从div类中提取文本

python、xpath、scrapy

我正在使用python和scrapy。我想从div类中的div标记中提取文本。例如： <h1>2013 Gulfstream G650ER for Sale</h1> <div id="header-price">Price - $46,500,000&

浏览 1提问于2018-10-06得票数 1

2回答

Scrapy Json输出的Unicode

python、json、unicode、utf-8、scrapy

使用来自json库的源导出程序和json编码器这是标准刮痕爬虫。蜘蛛文件、设置文件和项文件。首先，从基ur

浏览 4提问于2015-06-19得票数 1

2回答

在a标记中提取文本/参数

xml、select、xpath、web-scraping、scrapy

我有以下源代码，试图从中提取我想要的信息： <a href="#" data-page="2" title>response.xpath('//

浏览 4提问于2014-08-04得票数 0

回答已采纳

1回答

在python中为任何网页URL文档搜索特定标题的文本

python、web-scraping、beautifulsoup、scrapy

我已经搜索并介绍了python中的一些网络爬行库，比如scrapy，漂亮汤等。使用这些库，我想抓取文档中特定标题下的所有文本。如果你们中的任何人能帮助我，我将不胜感激。我看过一些教程，教你如何使用漂亮的soap获取特定类名下的链接(通过查看源页面选项)，但如何获取简单的文本，而不是特定类标题下的链接。对不起，我

浏览 0提问于2017-10-25得票数 0

1回答

在xpath中获取文本值，而不包括脚本

xpath、web-scraping

你好，我刚开始使用web抓取和X路径，我在ID main中的scrapy (python框架)中使用了以下x路径，如何修改xpath以不收集“脚本”和“样式”中的文本？my_list=response.xpath('//*[@id="main"]//text()').extract() 在网上搜索后，我发现我可以使用|放置多个x路径(在我的</em

浏览 1提问于2019-12-02得票数 1

回答已采纳

1回答

包含图像和文本的未命名div的抓取更正xpath

python、xpath、web-scraping、scrapy

我正在构建一个遍历多个分页页面并从站点提取数据的爬虫：# -*- coding: utf-8 -*-from scrapy.contrib.spiders//div[3]/div[2]/text()').extract() item['score'] = sel.xpath('.//text()').extra

浏览 0提问于2016-05-12得票数 0

3回答

使用带有条件的刮擦选择器

python、scrapy、css-selectors、web-crawler

我正在使用"scrapy“来抓取几篇文章，比如： def parse_article(self, response):在上面的代码片段中，我得到了如下内容：我想要的短信标题-文本&

浏览 5提问于2019-11-10得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

用Scrapy从文本文件中从多个URL中抓取所有外部链接

如何利用刮擦获得工作描述？

从css选择器开始，Scrapy返回整个网页。

提取文本xpath抓取

将嵌套同级节点中的文本与父节点中的文本连接起来

仅剪贴式正文文本

使用CSS和Scrapy提取所有文本，没有标记-失败

如何使用Nokogiri CSS选择器获取标记中的所有文本？

刮擦脚本，如何找到特定的关键字并返回或打印url

与Scrapy一起使用规范化空间

如何用BeautifulSoup排除元素(Python)

在scrapy中解析函数中的内联请求

使用scrapy从div类中提取文本

Scrapy Json输出的Unicode

在a标记中提取文本/参数

在python中为任何网页URL文档搜索特定标题的文本

在xpath中获取文本值，而不包括脚本

包含图像和文本的未命名div的抓取更正xpath

使用带有条件的刮擦选择器

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐