如何使用rvest从抓取中排除标签

rvest是一个R语言的包，用于从网页中抓取数据。通过使用rvest，我们可以从网页中提取所需的信息，并将其用于数据分析和其他用途。

要从抓取中排除标签，我们可以使用rvest提供的函数和方法来处理网页的HTML结构。以下是一些步骤和示例代码，说明如何使用rvest从抓取中排除标签：

安装和加载rvest包：

install.packages("rvest")
library(rvest)

使用read_html()函数读取网页内容：

url <- "https://example.com"
page <- read_html(url)

使用CSS选择器选择要抓取的元素：

# 选择所有的段落元素
paragraphs <- page %>% html_nodes("p")

使用html_text()函数提取元素的文本内容：

# 提取所有段落元素的文本内容
paragraphs_text <- paragraphs %>% html_text()

如果要排除特定的标签，可以使用html_nodes()函数选择要排除的标签，并使用html_remove()函数将其从网页中删除：

# 选择要排除的标签
tags_to_exclude <- page %>% html_nodes("div.sidebar")

# 从网页中删除选定的标签
page <- page %>% html_remove(tags_to_exclude)

通过上述步骤，我们可以使用rvest从抓取中排除特定的标签，并提取所需的文本内容。这样可以使我们的数据更加干净和可用于进一步的分析。

请注意，以上代码示例中的URL和选择器仅供参考，具体的网页结构和要排除的标签可能会有所不同。根据实际情况进行调整。

推荐的腾讯云相关产品：腾讯云服务器（https://cloud.tencent.com/product/cvm）和腾讯云对象存储（https://cloud.tencent.com/product/cos）可以用于存储和处理从网页中抓取的数据。

通过rvest获取网页中的电子邮件地址

、

嗨，我正试图通过R语言的web抓取来获取关于这个网页的一些信息，使用软件包rvest。我得到的名字和一切，但我无法获得电子邮件身份，即info@brewhemia.co.uk。如果我在read_html中看到文本，我就不会在html解析文本中看到email id。有人能帮忙吗？我对网络刮擦很陌生。但我懂R语言。 link <- 'https://food.list.co.uk/place/22191-brewhemia-edinburgh/' page <- read_html(link) name_html <- html_nodes(page,'.

浏览 2提问于2017-10-27得票数 0

回答已采纳

1回答

新闻网站的网络抓取:如何提取主要内容

、

下面有个密码。它会转到3个不同的新闻页面，并提取它们的内容。但是对于每一页，我必须搜索一个不同的自定义html标记。有没有办法通过只搜索一个标签从任何新闻页面中获取信息？这将使我能够从许多页面中抓取信息。如何搜索与特定条件匹配的标记:例如html_nodes like ("#main*")或html_nodes like ("*main*") library(MASS) # base R library(XML) library(xml2) library(rvest) # R web scraping # get

浏览 0提问于2016-05-16得票数 2

1回答

rbind by for循环从网页抓取

、、

我正在尝试从一个网页上抓取数据并对其进行rbind。 1.从网页中抓取数据 for (i in 1:10) { url <- paste0("https://www.nest.co.uk/pendants?page=",i) Pandents <- read_html(url) PanInfos <- html_nodes(Pandents, css = '.fn.name') PanInfos[1] %>% html_nodes('.brand') %>% html_text() 2.提取“品牌” BRAN

浏览 10提问于2017-03-02得票数 0

回答已采纳

2回答

rvest返回NA

、

我正在使用"rvest“进行网页抓取，但我无法从页面提取模型的价格:- 。我需要从页面中提取"$720.00“。我的代码是： library(rvest) data<-read_html("https://www.motorola.com/us/products/moto-z-force-droid-edition") price<-data%>% html_nodes(".price-amount")%>% html_text() print(price) 我不断地从价格中得到字符(0)。请帮帮忙。

浏览 16提问于2017-01-26得票数 1

1回答

用R抓取带有“查看更多”的连续页面

、、

我是R新手，需要抓取此网站上帖子的标题和日期使用rvest，我能够编写获取信息的基本代码： url <- 'https://www.healthnewsreview.org/?post_type=news-release-review&s=' webpage <- read_html(url) date_data_html <- html_nodes(webpage,'span.date') date_data <- html_text(date_data_html) head(date_data) webpage <-

浏览 0提问于2018-10-14得票数 1

1回答

多链接网络刮擦使用"rvest“。错误参数意味着不同的行数

、、

我正在尝试抓取网页，然后我犯了以下错误码 library(xml2) library(rvest) library(purrr) ulr_base <- "https://journals.sagepub.com/toc/jina/33/%d" map_df(1:4,function(i){ page <- read_html(sprintf(ulr_base,i)) data.frame(IssueID =html_text(html_nodes(page,".journalNavTitle")),

浏览 0提问于2019-03-09得票数 0

1回答

是否有类似于read_html()的函数可用于R中的数据表或数据帧类型？

、

我正在尝试从footballdb.com上抓取数据，为我正在创建的一个模型获取与https://www.footballdb.com/transactions/injuries.html?yr=2016&wk=1&type=reg球员受伤相关的数据，这些数据将被输出到一个数据表中。除了与个人球员受伤信息相关的数据(即，他们的姓名、受伤情况和比赛前一周的状态)，我还希望包括每个球员受伤的赛季和受伤周。我首先使用嵌套的for循环为每个有问题的网页生成url，以及每个网页对应的季节和周，它们存储在一个数据表中，其中列有: link、season和week。然后，我尝试使用函数ma

浏览 17提问于2021-01-05得票数 0

1回答

使用rvest抓取HTML data.table

、

我正在尝试使用R rvest包从中抓取“鱼肉样本”表数据。我使用chrome扩展SelectorGadget来查找表的xpath。我无法从网页中获取任何表格数据到R.非常感谢您的帮助。 library(rvest) urllakes<- read_html("http://www.dnr.state.mn.us/lakefind/showreport.html? downum=27011700") lakesnodes <- html_nodes(urllakes,xpath = '//*[(@id = "lake-survey")]&#

浏览 1提问于2017-10-01得票数 0

回答已采纳

1回答

试图在r中搜索多个链接，但不知道。

、、

我是一个完全的新手，我试图从网站上获得所有的版本。我一直在使用rvest和一个选择器小工具，但这是没用的。对此有什么建议吗？ library(rvest) library(purrr) library(xml2) library(textreadr) url_base <- "https://rss.onlinelibrary.wiley.com/toc/14679868/2018/80/%d" map_df(1:5, function(i){ page <- read_html(sprintf(url_base, i)) data.

浏览 4提问于2019-06-03得票数 0

回答已采纳

1回答

选择器不更新URL时抓取网页

、、

我正在尝试抓取给定区域和时间的网页(https://nc.211counts.org) (例如，“Onslow”，“昨天”)。我想从左上角的表格中提取所有信息(COVID、住房等通过其他)。不幸的是，当选择过滤器时，URL不会更新。我一直在遵循教程here，但找不到一种方法来拉入我需要抓取的区域名称的位置。由于html_nodes函数返回为空，因此我认为映射是关闭的。这里我漏掉了什么？ # docker run -d -p 4445:4444 selenium/standalone-chrome # docker ps remDr <- RSelenium::remoteDrive

浏览 11提问于2020-04-18得票数 2

回答已采纳

1回答

R: Webscraping抓取不规则的值块

、、

因此，我试图在网页上刮起一个不规则数据块的网页，这些数据是以一种易于用眼睛识别的方式组织起来的。让我们想象一下我们在看维基百科。如果我从以下链接的文章中抓取文本，我将得到33个条目。如果我只抓取标题，最后只得到7(参见下面的代码)。这一结果并不令我们感到惊讶，因为我们知道，条款的某些部分有多个段落，而其他部分只有一个或没有段落文本。我的问题是，我如何把我的标题和我的文本联系起来。如果每个标题有相同数量的段落或多个段落，这将是微不足道的。 library(rvest) wiki <- html("https://en.wikipedia.org/wiki/Web_scraping

浏览 2提问于2015-07-21得票数 2

回答已采纳

1回答

如何在R中使用rvest抓取售出的产品数量

、、、

我想从一个市场的网页上使用Rvest抓取销售的产品数量。我使用了这段代码，但它没有返回值。 library(rvest) doc <- read_html("https://www.tokopedia.com/berasprimasari/beras-bunga-25kg") sold <- html_nodes(doc, ".rvm-product-info--item_value.mt-5.item-sold-count") %>% html_text() sold ------------ RESULT: [1] &#

浏览 1提问于2019-11-03得票数 1

回答已采纳

1回答

使用“load more”按钮进行r- web抓取

、、

我试图从以下网页获得关于啤酒类型和最受欢迎的位置的数据：我写了代码： library(rvest) library(dplyr) link = "https://untappd.com/La_Source" page = read_html(link) name = page %>% html_nodes(".user") %>% html_text() place = page %>% html_nodes("a:nth-child(4)") %>% html_text() user = page %>% h

浏览 1提问于2021-12-15得票数 2

1回答

如何从R中的列表中提取数据？

、、、

我想从最后一行代码生成的所有16页中提取职务说明，也就是"p“标记HTML元素。 "ret“是由最后一行代码生成的16个HTML页面的列表。我不习惯处理列表，所以我很困惑如何从这些列表中提取数据。通常我会用 res %>% html_elements("body p") 但是我得到了错误消息，“UseMethod中的错误”(“xml_find_all”)：没有适用于类"list“对象的”xml_find_all“方法 library(tidyverse) library(rvest) library(xml2) url<-"htt

浏览 3提问于2021-07-29得票数 1

回答已采纳

1回答

open.connection(x，"rb")中的rvest错误: HTTP错误404

、

我试图抓取一个网站，以便使用rvest和purrr从许多页面中提取数据。但是每次我运行代码"Error in open.connection(x，"rb")：HTTP error404.“就会出现。 url <- "http://books.toscrape.com/catalogue/page-%d" map_df(1:10, function(i){ page <- read_html(sprintf(url, i)) cat(".") booksdf <- data.frame(sa

浏览 622提问于2019-05-26得票数 0

回答已采纳

1回答

如何阻止学术期刊页面的重定向

、、

如何从ScienceDirect获得链接以避免重定向？ url <- "https://doi.org/10.1016/j.isci.2020.101838" rvest::read_html(url) %>% html_nodes(xpath = '//*[@id="abspara0010"]') %>% html_text() # Fails 我有一个大型的论文数据库： pangiaoDB <- read_html('https://panglaodb.se/papers.html&#

浏览 5提问于2022-04-18得票数 -1

1回答

使用rvest抓取多个URL

、、、

在rvest中使用read_html时如何抓取多个urls？目标是从相应的urls中获得一个由文本主体组成的单个文档，以在其上运行各种分析。我尝试连接urls： url <- c("https://www.vox.com/","https://www.cnn.com/") page <-read_html(url) page story <- page %>% html_nodes("p") %>% html_text 在read_html出现错误后： Er

浏览 8提问于2020-02-25得票数 1

回答已采纳

1回答

如何使用rvest抓取网页的链接和文本？

、、、、

我正在尝试使用R中的rvest来抓取阿根廷总统的演讲。以下是我到目前为止编写的代码： library(purrr) library(rvest) library(stringr) url_president <- "https://www.casarosada.gob.ar/informacion/discursos?page=%d" # extract relevant data on webpage map_df(1:2, function(i) { pg <- read_html(sprintf(url_president, i)) data.f

浏览 19提问于2021-11-13得票数 0

回答已采纳

1回答

从网页中抓取URL以进一步从第一次抓取中抓取单个URL(重新使用抓取数据中的URL)

、、、

我正在从IMDB上的不同电影专营权中搜集数据。由于IMDB将特许经营作为一个列表提供，所以我先把“侏罗纪公园”这个列表略过一遍。 library(rvest) page <- read_html("https://www.imdb.com/list/ls020374215/") Names <- page %>% html_nodes(".lister-item-header a") %>% html_text('') Titles <- (page %>% html_nodes(".liste

浏览 24提问于2021-03-01得票数 1

回答已采纳

1回答

带循环的with抓取

、、、、

我正在尝试使用循环函数从网站中抓取一些文本，但我的循环函数不会继续选择向量列表中的下一个项目。感谢任何有帮助的建议。谢谢 library(rvest) library(xml2) ID <- c(1:2) Land <- c('Afghanistan','Ägypten') url <- c('afghanistan', 'aegypten') Text <- (NA) data <- data.frame(ID, Land, Text) for(i in url) { nam <

浏览 0提问于2019-11-18得票数 0

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用rvest从抓取中排除标签

相关·内容

通过rvest获取网页中的电子邮件地址

新闻网站的网络抓取:如何提取主要内容

rbind by for循环从网页抓取

rvest返回NA

用R抓取带有“查看更多”的连续页面

多链接网络刮擦使用"rvest“。错误参数意味着不同的行数

是否有类似于read_html()的函数可用于R中的数据表或数据帧类型？

使用rvest抓取HTML data.table

试图在r中搜索多个链接，但不知道。

选择器不更新URL时抓取网页

R: Webscraping抓取不规则的值块

如何在R中使用rvest抓取售出的产品数量

使用“load more”按钮进行r- web抓取

如何从R中的列表中提取数据？

open.connection(x，"rb")中的rvest错误: HTTP错误404

如何阻止学术期刊页面的重定向

使用rvest抓取多个URL

如何使用rvest抓取网页的链接和文本？

从网页中抓取URL以进一步从第一次抓取中抓取单个URL(重新使用抓取数据中的URL)

带循环的with抓取

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐