Scrapy:将HTML提取为元素内的字符串

、、、

我想提取dic中的超文本标记语言。例如，在这段HTML中： <div id="main"><h1><xyz>Title<xyz></h1></div> 我想提取div内容：<h1><xyz>Title<xyz></h1>作为字符串。是否可以使用CSS o Xpath scrapy选择器？谢谢:)

浏览 19提问于2020-04-06得票数 0

回答已采纳

2回答

仅剪贴式正文文本

、、、

我尝试使用python Scrapy从正文中抓取文本，但还没有成功。希望一些学者能够在这里帮助我从<body>标记中抓取所有的文本。

浏览 1提问于2011-03-22得票数 9

回答已采纳

2回答

用Python/Scrapy提取h1中的p

、、、

我正在使用Scrapy从网站上提取一些有关音乐音乐会的数据。至少有一个我正在使用的网站(根据W3C -的说法是错误的)-- h1元素中的p元素。不过，我需要在p元素中提取文本，但无法知道如何提取。我已经阅读了文档，并查看了一些用法，但是对于Scrapy来说，它还是比较新的。我理解该解决方案与将Selector类型设置为<

浏览 5提问于2017-06-04得票数 0

回答已采纳

1回答

在保存到磁盘之前，如何更改由Scrapy爬行的网页的一部分？

、

在Scrapy蜘蛛的parse()方法中，我们可以在response上使用css()方法来获取所需的信息。例如，我们可以使用response.css("#container")获取以下HTML片段。</div> 在保存到磁盘上之前，我们如何更改HTML片段的一部分？例如，我希望将<div class="sep">的文本内容更改为1234，以便最终需要的H

浏览 0提问于2020-10-12得票数 0

回答已采纳

3回答

提供所有匹配元素的Scrapy* xpath*

我有一个HTML文件，我想从其中提取特定DIV下的锚点href值。HTML文件如下所示<head></head> <div class="mainContainer4个锚元素。所以我使用了"Selector“，并将Div元素存储在其

浏览 16提问于2022-03-29得票数 0

回答已采纳

1回答

Scrapy可以用作实时包装吗？

、、、、

我希望有人能够对利用scrapy框架创建实时包装器的可行性提供一些见解。为了澄清我对“包装器”一词的定义，请允许我描述一下我的情况.我希望使用scrapy来编写一个解决方案，允许用户在一个网站上执行搜索查询，而这个搜索查询反过来又会实时调用一只刮刮蜘蛛，在该蜘蛛被告知的范围内：只检索返回查询的实际html结果，方法是通过指定唯一的结果集容器类和/或xpath来

浏览 3提问于2013-08-20得票数 2

1回答

如何在scrapy中使用规则类

、、、

我正在尝试使用Rule类进入我的爬虫中的下一页。这是我的密码from scrapy.contrib.linkextractors.sgml importsummary'] = sel.xpath('div/div[2]/div/div[2]/h2/tt/a/span/text()').extr

浏览 2提问于2015-03-20得票数 3

1回答

刮除:从HTML而不是URL中刮取项目

、、、

一切都应该以服务为基础。所以我决定设计两个服务。第一个服务将基于Scrapy。如果我们可以提供html而不是start，或者我们必须使用BeatifulSoap或其他刮取库，我想我们是否

浏览 4提问于2016-07-22得票数 0

1回答

生成意外的表达式语法

我正在创建一个使用yield的字典，为它赋值似乎会导致某种错误。我的yield值是一个包含title = response.html("h1").extract()的变量title import scrapy ] def parse(self, respons

浏览 81提问于2019-08-24得票数 0

回答已采纳

3回答

在本地HTML文件上使用scrapy内置选择器

、、

我有一些本地HTML文件，需要从中提取一些元素。我习惯于在xpath和css以及.extract()和.extract_first()中使用内置选择器来编写Scrapy和提取元素。有没有可以做到这一点的库？例如，我想做这样的事情： sample_file = "../raw_html_text&#x

浏览 17提问于2020-02-22得票数 1

回答已采纳

2回答

如何用XPath提取包含< not编码的文本&lt；

、、、

我想使用Scrapy从html页面中提取一些文本。<div></div>有没有办法获得全文( 'years

浏览 3提问于2013-11-13得票数 1

回答已采纳

2回答

在scrapy和xpath中使用布尔()和count()之类的函数

、、、

因此，我试图使用xpath函数boolean()并使用scrapy提取真正的false响应，但是所有的scrapy返回都是u'0'。不管它是返回布尔值真还是布尔值:false scrapy总是返回基本上这是我的xpath 布尔值(./&#x

浏览 13提问于2017-07-19得票数 1

1回答

如何按照链接列表从刮除的页面中获取数据？

、、、

在该页上，是<table>中的链接列表。我试图使用规则部分来要求Scrapy浏览链接，并在链接目标页面上获取数据。下面是我的代码： name = 'coinmarketcap'

浏览 4提问于2017-03-29得票数 3

回答已采纳

2回答

无法使用xpath解析来自某些html元素的特定信息

、、、、

我已经创建了一个xpath表达式来针对一个元素，这样我就可以使用scrapy中的xpath从一些html元素中提取特定的信息。反正我也够不着。Html元素： <label> </label我试过： from scr

浏览 0提问于2019-07-03得票数 2

回答已采纳

1回答

如何将Scrapy与Mysql结合使用？

、、

我正在尝试创建一个web爬虫，在给定一些启动urls的情况下，提取所有元素并跟踪它们，以便提取内部和内部的文本。我正在运行一个Django应用程序，该应用程序给定一个查询字符串，该应用程序返回以前存储在Mysql db中的所有项。在我看来，最好的选择是使用Scrapy，给他一些开始的urls，他可以通过简单地提取页面中的所有urls来找到其他的urls，然后，他会

浏览 6提问于2012-04-10得票数 0

回答已采纳

5回答

提取文本xpath抓取

、、

大家好，我想用scrapy中的xpath从html块中提取所有文本。> <p><a>Bluhbluh</a></p></div> 我想把文本摘录为&quo

浏览 10提问于2014-10-10得票数 8

回答已采纳

1回答

函数无法获得空的td元素。

、、、、

我对网络抓取是非常非常新的，而且我还在学习。目前，我正在使用Python和Scrapy来构建我自己的web刮板，但是我遇到了一些非常奇怪的事情。我试着在这里刮一下这个网页，就像一个练习： import scrapy import pandas as p

浏览 3提问于2020-10-27得票数 0

回答已采纳

3回答

从xml中提取HTML

、、

我想从xml文件中提取html页面。有什么想法吗？ <first> </second> <html>.....some html code here </xhtm

浏览 1提问于2013-04-15得票数 0

3回答

Python/Scrapy:如何确定页面是否为html？

、、

我需要确定由spider下载的页面是否为html。我希望蜘蛛爬行的网站有一个pdf和html链接的组合。因此，如果它遇到一个pdf文件，它将把响应通过一个PDFReader，否则它将读取html文件的原样。(self, response): return ct 我将<

浏览 1提问于2018-09-23得票数 0

回答已采纳

1回答

如何在满足条件时将被刮掉的项添加到集合中并执行？

、

这段代码需要将提取的reviewId添加到集中(以省略重复的代码)。然后进行检查，当string为100时，执行回调，并将带有所有is的长url字符串传递给主提取函数。我如何做到这一点(保存从不同回调中提取的所有ids，并进一步使用它)？现在的问题是，第一次检查循环永远不会被占用。UPdate。我相信有两个选项-传递设置为元到每个回调，并以某种方式使用项目为这一个。import <

浏览 1提问于2017-03-23得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

仅剪贴式正文文本

用Python/Scrapy提取h1中的p

在保存到磁盘之前，如何更改由Scrapy爬行的网页的一部分？

提供所有匹配元素的Scrapy* xpath*

Scrapy可以用作实时包装吗？

如何在scrapy中使用规则类

刮除:从HTML而不是URL中刮取项目

生成意外的表达式语法

在本地HTML文件上使用scrapy内置选择器

如何用XPath提取包含< not编码的文本&lt；

在scrapy和xpath中使用布尔()和count()之类的函数

如何按照链接列表从刮除的页面中获取数据？

无法使用xpath解析来自某些html元素的特定信息

如何将Scrapy与Mysql结合使用？

提取文本xpath抓取

函数无法获得空的td元素。

从xml中提取HTML

Python/Scrapy:如何确定页面是否为html？

如何在满足条件时将被刮掉的项添加到集合中并执行？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐