使用rvest在循环中跟踪链接

是指利用R语言中的rvest包，在循环中自动跟踪并提取网页链接的内容。

rvest是R语言中一个强大的网络爬虫工具包，可以用于从网页中提取数据。在循环中跟踪链接通常用于爬取多个网页的数据，例如爬取多个新闻页面的标题、摘要等信息。

以下是使用rvest在循环中跟踪链接的步骤：

安装和加载rvest包：

install.packages("rvest")
library(rvest)

创建一个空的数据框或列表，用于存储提取的数据：

data <- data.frame()  # 或者 data <- list()

设置循环，遍历需要爬取的网页链接：

for (i in 1:n) {
  url <- paste0("https://example.com/page", i)  # 构建网页链接
  # 使用read_html函数读取网页内容
  page <- read_html(url)
  
  # 使用rvest的函数提取网页中的数据
  # 例如使用html_nodes函数选择特定的HTML元素
  # 使用html_text函数提取元素的文本内容
  # 将提取的数据存储到数据框或列表中
  # 例如：data <- rbind(data, data.frame(title = html_text(html_nodes(page, ".title"))))
}

在循环中，可以根据需要使用rvest提供的函数选择和提取网页中的数据。例如，使用html_nodes函数选择特定的HTML元素，使用html_text函数提取元素的文本内容。

需要注意的是，爬取网页数据时应遵守网站的爬虫规则，避免对网站造成过大的负担或侵犯隐私。

对于腾讯云相关产品和产品介绍链接地址，可以根据具体的应用场景和需求，在腾讯云官方网站上查找相关产品和文档。

页面内容是否对你有帮助？

有帮助

没帮助

使用rvest在循环中跟踪链接

、

我正在尝试学习rvest包，但web上的文档和示例要么非常基础，要么非常复杂。我找不到如何在循环中使用follow_link函数来浏览一些页面。也许我根本不理解它的逻辑……library(rvest) "https://www.wikidata.org/w/index.php?result <- c(liste, data) follow_link(xpath

浏览 0提问于2017-07-26得票数 1

回答已采纳

2回答

使用rvest进行抓取和循环的简单解决方案，将for循环的结果存储在一个变量中

、、、

我需要从3页收集链接，每个有150个链接，使用R与rvest库。我使用了一个for循环来遍历页面。我知道这是一个非常基本的问题，已经在其他地方得到了回答：R web scraping across multiple pages Scrape and Loop with Rvest我尝试了以下代码的不同版本它们中的大多数都有效，但只返回了50个链接，而不是150个链接 library(rvest)

浏览 15提问于2019-10-06得票数 0

回答已采纳

1回答

使用rvest跟踪具有相对路径的"next“链接

、、、

我正在使用rvest包从页面中抓取信息。在抓取第一页后，我想遵循底部的“下一步”链接，刮掉第二页，移动到第三页，等等。./2/“周围有一些rvest显然不喜欢的额外的循环： html("http://www.radiolab.org/series/podcasts") %>% html_node(".pagefooter-next::follow_link像浏览器一样正确地对

浏览 2提问于2015-01-07得票数 7

2回答

如何使用rvest跟踪具有数据参数的链接

、、、、

我试图在web上搜索一个公共数据提供者，但是当我不得不点击一个按钮，将一个参数传递给JS时，我就陷入了困境。以下是我的尝试：url <- 'https://myterna.terna.it/SunSet/Public/'

浏览 1提问于2017-07-07得票数 0

回答已采纳

1回答

Webscraping in R:为什么我的循环返回NA？

、、、

我正在尝试使用rvest等工具来抓取一个网页。大多数东西都可以工作，但现在我需要R来遍历一系列链接，而它给我的只有NA。如果我现在打印我的链接，它会给出109个链接的列表。urls 这是我的循环。我需要它给我的urls的第一个链接，这样我就可以read_html它我在找类似这样的东西："https://beta.20min.ch/story/so-sieht-die-coronavirus-kampa

浏览 9提问于2020-04-02得票数 0

回答已采纳

2回答

抓取器刮不出页面。

、、

我正在使用Rcrawler提取维基百科页面的信息框。我有一个音乐家的名单，我想提取他们的名字，道布，死亡日期，乐器，标签等。然后我想创建一个所有艺术家的数据作为行和数据存储为列/向量。当我单独使用rvest时，代码中使用的xpath是有效的。我的密码怎么了？

浏览 2提问于2018-07-31得票数 1

回答已采纳

1回答

RSelenium:在Google搜索的for循环中单击后续链接

、、、、

设置：library(RSelenium) # running docker to do thislibrary(httr) bookElem$clickElement() 返回Error: attempt to apply non-function --我预期这会点击第一个链接，但没有好处。(如果我将

浏览 1提问于2019-03-19得票数 2

回答已采纳

1回答

在<a rel=中提取链接的rvest ...href=>

、、、、

我正在尝试使用rvest包来抓取嵌入在页面上的链接列表。在我使用这样的东西之前：page <- read_html("link")但是，这只给了我与<a href="https://www.abcefg.com&quo

浏览 1提问于2020-11-04得票数 0

2回答

我使用这个脚本从网页中提取文本。

浏览 2提问于2017-03-31得票数 0

回答已采纳

1回答

R编程: rvest: for循环覆盖数据被刮掉

、、

以下代码起作用：library(plyr) } 我知道循环正在工作，因为如果我将代码更改为：

浏览 0提问于2017-01-31得票数 0

回答已采纳

2回答

从R中的网站中提取html表

、、

我使用的包是rvest包，我在初始阶段使用的代码如下：library(magrittr)library(rvest) library(magri

浏览 3提问于2017-01-06得票数 1

回答已采纳

1回答

rvest从网页抓取链接

、

我正在使用rvest从杂志“骗局”中抓取一些链接。我用过这段代码 library(rvest) html_nodes(".我使用SelectorGadget查找类，所以不确定这里出了什么问题。

浏览 13提问于2021-04-29得票数 0

回答已采纳

1回答

用Windows 10下载联机文件夹

、、、

我希望在我的戴尔笔记本电脑上下载一个使用Windows 10的在线文件夹。在本例中，我希望下载的文件夹名为Targetfolder。我试图使用命令窗口，但也想知道在R中是否有一个简单的解决方案，我在这篇文章的底部包含了一个显示目标文件夹的图像。我应该补充说，Targetfolder包括一个文件和多个包含文件的子文件夹。以下是我基于上述链接上的答案和我获得的结果所作的尝试：lftp -c 'mirror --parallel=300

浏览 6提问于2022-05-29得票数 -1

点击加载更多