rvest:无法将html_nodes与xpath和正则表达式一起使用来提取节点

rvest是一个在R语言中用于网页抓取和解析的包。它提供了一组函数，可以方便地从网页中提取所需的数据。

在rvest中，可以使用html_nodes函数来选择网页中的节点。但是，html_nodes函数本身并不支持直接使用xpath和正则表达式来选择节点。不过，我们可以通过结合其他函数来实现这个功能。

如果想要使用xpath来选择节点，可以先使用html_nodes函数选择所有的节点，然后再使用html_text函数结合xpath来提取所需的节点。例如，假设我们想要提取网页中所有h1标签的文本内容，可以使用以下代码：

library(rvest)

# 读取网页
url <- "https://example.com"
page <- read_html(url)

# 使用xpath选择节点
nodes <- html_nodes(page, xpath = "//h1")

# 提取节点文本
text <- html_text(nodes)

如果想要使用正则表达式来选择节点，可以先使用html_nodes函数选择所有的节点，然后再使用grepl函数结合正则表达式来筛选所需的节点。例如，假设我们想要提取网页中所有包含"example"的链接，可以使用以下代码：

library(rvest)

# 读取网页
url <- "https://example.com"
page <- read_html(url)

# 使用正则表达式筛选节点
nodes <- html_nodes(page, "a")
filtered_nodes <- nodes[grepl("example", html_text(nodes))]

# 提取节点文本
text <- html_text(filtered_nodes)

需要注意的是，使用xpath和正则表达式来选择节点可能需要一定的正则表达式和xpath语法的知识。可以参考相关的教程和文档来学习和了解更多。

关于rvest的更多信息和用法，可以参考腾讯云的产品介绍页面：rvest - R语言网页抓取和解析包。

页面内容是否对你有帮助？

有帮助

没帮助

rvest:无法将html_nodes与xpath和正则表达式一起使用来提取节点

、、、、

我正在用rvest和stringr做一些网络抓取，但遇到一个问题，我还找不到堆栈溢出的解决方案。我想提取一个特定的节点，它包含大量文档中的单词和数字的组合。因为信息位于每个文档中的不同节点，所以我希望通过在xpath中使用[contains(text() '')]方法并在此处输入正则表达式'\\d{1,4}'来定位它。“15.Dezember1895”，但是当我结合使用xpath和正则

浏览 18提问于2020-12-06得票数 0

1回答

如何使用rvest选择所有没有属性的节点？

、

使用rvest，如何选择没有属性的节点？的相关thread，但当我尝试在rvest中使用类似于 wp %>% html_read(.) %>% html_nodes(xpath = "//node[not(@*)") 其中wp是所需的url，我错误地输出了： Warning message: In xpath_search(x$node, x$doc, xpath = xpath, nsMap = n

浏览 17提问于2019-06-27得票数 0

回答已采纳

1回答

将Facebook htm文件转换为R中的dataframe

、、、

我正在尝试将我的Facebook聊天消息从.htm文件中提取到一个合适的数据帧中。Rvest通过将html节点(用户、元、p)提取为向量，然后提取为df，为我提供了很好的服务。how are you today</p> //Other <div class = "thread"> "T

浏览 4提问于2017-02-13得票数 0

回答已采纳

1回答

使用rvest提取两个标题标签(<h3>)之间的所有文本和标签

、、

如何使用XPath分别选择这六个部分(使用rvest)，或者放入一个嵌套列表中？我的目标是稍后通过这六个部分进行lapply，以获取人员的姓名和从属关系(由部分分隔)。::html_nodes(webpage, css = '#editorialboard') 我尝试了各种XPaths，用html_nodes将六个部分提取到一个包含六个列表的嵌套列表中，但它们都无法正常工作::html_nodes(webpage,

浏览 5提问于2021-01-15得票数 0

回答已采纳

2回答

如何提取下载链接并在R中下载文件？

、

我想为Type='AA‘的第一条记录自动提取链接并下载文件。library(stringr) wahis.session <- html_session(url)

浏览 0提问于2019-06-22得票数 0

1回答

使用R-无法访问某些节点提取html文本

、、、

我有大量的取水许可，可以在网上获得，我想从中提取一些数据。我可以使用xpath或css选择器访问一些节点，而不存在任何问题，例如，获取标题：url %>% html_nodes(xpath =for CRC000002.1"# XPath</

浏览 0提问于2018-11-24得票数 3

回答已采纳

2回答

网络抓取RSelenium findElement

、、、

我正在尝试从这个网页中提取员工编号(“23万”)：remDr<-rs_driver_object$client雇员<-remDr$findElement(使用= 'xpath更新的i修改了下面评论中Frodo建议的代码，将其应用于多个网页，将统计数据保存为数据格式。但我还是遇到了一

浏览 15提问于2022-07-11得票数 1

回答已采纳

1回答

如何识别CSS或xpath并将html表转换为数据格式？

、、

嗨，我正在尝试使用Rselenium和Rvest来刮。我对这个项目很感兴趣，尽管我在编码方面的知识不多。希望有人能把我引向正确的方向。2.)提取表上的数据。4.)保存到CSV1.)我不能让循环正常工作。我想我使用了错误的类/xpath(混淆了如何识别)。2.)我想提取第一列，但不知道我应该在代码中放入哪些类/xpath。 3.)我能够使用rvest，xml2 (存储url)将</e

浏览 5提问于2022-03-24得票数 0

0回答

R:在R data.frame中将字符转换为数字

、、

我做了一个关于这个数据提取的问题。我想用数据创建一个条形图，但不幸的是，我无法将提取的字符转换为R中的数字。如果我在文本编辑器中编辑该文件，则根本没有问题，但我希望在R中完成整个过程。以下是代码： library(rvest) url <- "https://en.wikipedia.org/wiki/Corporate_tax&qu

浏览 3提问于2017-12-18得票数 0

2回答

从同级多个同名节点中抓取web

、、

我想从四个节点中提取以下数据，所有节点都在同一级别，并且共享相同的代号。library(rvest)result_amenities <- html_text (html

浏览 0提问于2021-05-22得票数 0

1回答

如何正确识别特定的值以使用rvest进行解析

、

亲爱的集体智慧我需要循环遍历表的所有节点并逐个提取它的值。然后迭代到下一页并重复。我打算单独读取表值，因为我需要在代码中添加一个变体循环--对于每一行，如果"Data urodzenia“列中的值等于”，则程序应该输入与该行对应的网页，然后提取其他值(标记为"Rocznik")。.1944.pl/powstancze-biogramy,ord,nazwisko,0,strona,1.html") getPage <

浏览 6提问于2021-12-16得票数 0

回答已采纳

1回答

从R中的URL链接中抓取所需内容的web问题

、、、、

library(rvest)在上面的查询中，每个不同主题的sel_subj更改classes <- html %>% html_nodes(xpath

浏览 2提问于2020-10-24得票数 1

回答已采纳

4回答

如何解析具有嵌套结构的html文件？

、、

使用R和XML包，我一直试图从具有类似于此结构的html文件中提取地址：divs <- getNodeSet(root, "//div[@class='entry']")## <div class="entrytown">New York</span> ## <span class="phone">1234567

浏览 6提问于2016-08-19得票数 1

回答已采纳

2回答

使用rvest获取Whole Foods商店列表

、、、、

我正在尝试使用rvest来获取全食超市的列表。我已经成功地使用这种技术从维基百科，国际足联，雅虎！财务等，但这个“表”涵盖超过一个页面，但它都有相同的url。如果你想挑战自己，弄清楚如何提取地址，这可能是有帮助的！问题是Address和City合并在一起，没有分隔符。我在想类似于查找紧跟在小写之后的大写，但是有一个实例，地址以大写结尾。代码如下： url <- "https://www.wholefoodsmarket

浏览 0提问于2018-07-01得票数 0

1回答

根据以前的文本元素从元素中提取特定链接。

、、、、

我希望从"Referentenentwurf", "Kabinett", "Bundesrat" and "Inkrafttreten"中提取每个立法过程(每个灰色框)可用文档( )的所有可用链接和日期require("rvest")) install.packages("rvest") if

浏览 4提问于2020-08-20得票数 0

回答已采纳

3回答

如何使用Jmeter中的正则表达式提取器从下面的服务响应中获取数据？

、

如何使用Jmeter中的正则表达式提取器从下面的服务响应中获取数据？提取令牌ID： <ValidateUserResponse xmlns="http://tempuri.org/"><ValidateUserResult xmlns:a="http://schemas.datacontract.org

浏览 0提问于2015-04-10得票数 0

2回答

使用R从网站中刮取图像URL

、、

我试图从一个网页上获取图像URL，使用R中的'rvest‘，但是没有成功。以下是代码：library(magrittr) html_nodes(css = "img") %>% html

浏览 0提问于2018-07-10得票数 1

回答已采纳

1回答

如何获取返回空节点集的span的内容？

、、

这是我想用来提取信息的网站的div： <div class="_24er"> <table class="_4dmd _4eok uiGrid _51mz" cols="4" cellspacingspan节点的内容，如下所示： <span class=" _50f7"> HipHop Night With YOUSTAAZ (-60% Countdown Sur Toute La Carte)</span>

浏览 23提问于2019-02-10得票数 0

回答已采纳

2回答

值不会从web抓取中输入数据。

、、、

我的主要目的是从网站中提取内容。我想把它保存在本地。内容在网站上更新后，也要反映当地的数据。library(dplyr) library(qdapRegex) # install.packages(

浏览 0提问于2018-10-18得票数 0

回答已采纳

4回答

对管道中的同一个对象调用两个不同的函数(%>%)

、

我想知道是否有方法同时调用html_name()和html_text (从rvest包)，并将两个不同的结果存储在同一个管道(magrittr::%>%)中。", uniprot_ac, ".xml")) %>% read_html %>% html_nodes(xpath = '/&#

浏览 0提问于2019-03-26得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

rvest:无法将html_nodes与xpath和正则表达式一起使用来提取节点

相关·内容

rvest:无法将html_nodes与xpath和正则表达式一起使用来提取节点

如何使用rvest选择所有没有属性的节点？

将Facebook htm文件转换为R中的dataframe

使用rvest提取两个标题标签(<h3>)之间的所有文本和标签

如何提取下载链接并在R中下载文件？

使用R-无法访问某些节点提取html文本

网络抓取RSelenium findElement

如何识别CSS或xpath并将html表转换为数据格式？

R:在R data.frame中将字符转换为数字

从同级多个同名节点中抓取web

如何正确识别特定的值以使用rvest进行解析

从R中的URL链接中抓取所需内容的web问题

如何解析具有嵌套结构的html文件？

使用rvest获取Whole Foods商店列表

根据以前的文本元素从元素中提取特定链接。

如何使用Jmeter中的正则表达式提取器从下面的服务响应中获取数据？

使用R从网站中刮取图像URL

如何获取返回空节点集的span的内容？

值不会从web抓取中输入数据。

对管道中的同一个对象调用两个不同的函数(%>%)

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐