如何在使用rvest抓取R时跳过空页？

在使用rvest抓取R时，如果想要跳过空页，可以通过以下步骤实现：

首先，确保已经安装了rvest包。如果没有安装，可以使用以下命令进行安装：

install.packages("rvest")

导入rvest包：

library(rvest)

使用read_html()函数读取网页内容，并将其存储在一个变量中。例如，可以使用以下代码读取一个网页：

url <- "https://example.com"
page <- read_html(url)

使用html_nodes()函数选择要抓取的元素。例如，可以使用以下代码选择所有的链接元素：

links <- html_nodes(page, "a")

使用html_text()函数提取所选元素的文本内容。例如，可以使用以下代码提取所有链接的文本内容：

link_text <- html_text(links)

如果想要跳过空页，可以使用条件语句来判断所选元素是否为空。如果为空，则跳过当前循环，继续处理下一个元素。例如，可以使用以下代码实现：

for (link in links) {
  if (length(link) == 0) {
    next
  }
  # 处理非空链接
}

通过以上步骤，可以在使用rvest抓取R时跳过空页。请注意，以上代码仅为示例，具体的实现方式可能因具体情况而异。在实际应用中，可以根据需要进行适当的修改和调整。

关于rvest的更多信息和使用示例，可以参考腾讯云的相关产品和产品介绍链接地址：rvest - 腾讯云产品介绍

页面内容是否对你有帮助？

有帮助

没帮助

抓取R中的tbody类对象

、、、、

我对使用R进行web抓取是完全陌生的，我想抓取下表(图片)，它的行为就像tbody一样。如果我运行以下代码，我只看到标题，没有数据(捷克语网站)。我应该得到在CZK下订单的时间，价格，数量和数量。 library(rvest) library(dplyr) PSE_Page <- "https://www.pse.cz/detail/CZ0003519753?tab=detail-trading-data" Page <- read_html(PSE_Page) Our_table <- Page %>% rvest::html_nodes

浏览 0提问于2020-03-13得票数 0

2回答

带R的篮球参考抓取

、、

我在试着抓取网站 https://www.basketball-reference.com/playoffs/NBA_2021_standings.html 用于扩展的排行榜。我已经使用rvest库尝试了许多变体，但似乎都不能正常工作。使用的最新代码是： url = "https://www.basketball-reference.com/playoffs/NBA_2021_standings.html" test = url %>% rvest::read_html() %>% rvest::html_nodes("table")

浏览 40提问于2021-11-14得票数 0

1回答

利用rvest从Facebook上抓取图像src

、、、

我使用rvest包来抓取Facebook的帖子并提取img src url。 library(rvest) UrlPage <- read_html ("https://www.facebook.com/AmazonIN/photos/a.142199085973905.1073741828.100281786832302/458742987652845/?type=3") UrlPage %>% html_node("#fbPhotoImage") 错误:没有匹配 rvest软件包适用于其他网站，但似乎与Facebook有一些问题。有没有

浏览 4提问于2016-01-08得票数 0

1回答

使用rvest抓取html -获取http错误416

、、、

我正在尝试使用R (package rvest)来抓取这个页面的HTML，但是我得到了“客户端错误416:请求的范围不满足” 经过长时间的搜索，我似乎找不到解决方案。它在尝试使用rvest的html函数时抛出错误，该函数解析HTML页面： url <- "http://shop.tcgplayer.com/magic/onslaught/polluted-delta" html(url) 我使用的是R版本3.2.0。任何帮助都将不胜感激！

浏览 0提问于2015-06-28得票数 3

1回答

从网页中获取内部信息的r中使用的web抓取

我在将rvest/XML包加载到R时遇到了困难，并且无法处理代码。我应该如何使用rvest进行网络抓取？如何从网页"“中读取表格？ library(rvest) forbs <- readHTMLTable("https://www.forbes.com/powerful-brands/list/") head(forbs) View(forbs) 它显示的错误就像 forbs1 1<-html_text(“#list_table”)在UseMethod("xml_text")中的错误:不适用于类“字符”对象的“xml_text”方法

浏览 2提问于2019-04-05得票数 1

1回答

用rvest网络抓取嵌入式桌面

、

我正在学习如何使用rvest和R进行网络抓取，并且我想提取嵌入在以下网站中的表格：如果你在中间滚动，你会看到一张嵌入了星巴克商店和它们的工会状态的表格。当我使用CSS选择器工具并突出显示表主体时，我会得到代码"td"。然而，当我使用下面的rvest代码时，我会得到： {xml_nodeset (0)} 我还使用了检查功能来查看表名(下面)，并得到了相同的错误。 "table#wpgmza_table_1.responsive.wpgmza_table.dataTable.no-footer.dtr-inline.collapsed" 有人能帮我把那张表提

浏览 3提问于2022-05-21得票数 0

回答已采纳

2回答

Web抓取基于IIS的网站

、

我正在使用R从上抓取一张桌子。我正在使用库rvest。 #install.packages("rvest", dependencies = TRUE) library(rvest) OPMpage <- read_html("https://www.opm.gov/policy-data-oversight/data-analysis-documentation/federal-employment-reports/historical-tables/total-government-employment-since-1962/") 我收到这个错误：

浏览 1提问于2016-02-29得票数 6

1回答

R中的rvest出现服务器错误

、、、、

我不是网络抓取方面的专家，但我喜欢在R中使用rvest。今天我尝试用它抓取一个名为JeFit的健身网站，我得到了以下错误。下面是我的输入和输出： library(rvest) html("https://www.jefit.com/") Error in function (type, msg, asError = TRUE) : error:14077458:SSL routines:SSL23_GET_SERVER_HELLO:reason(1112) 我很难理解为什么rvest适用于我尝试过的其他网站，但不适用于这个网站。任何帮助都将不胜感激。

浏览 2提问于2015-04-24得票数 1

2回答

如何在R/Python中刮取<a>标记的href属性？

、、、

我正在学习使用rvest进行网络抓取。的href属性 <a href="#!Synapse:syn21656973">docker.synapse.org/syn21654780/normcorr</a>从这个。我试着用一个R包，rvest pg <- "https://www.synapse.org/#!Synapse:syn21654780/docker/" pg %>% read_html() %>% html_nodes(".displayInline, a") %>%

浏览 3提问于2022-01-25得票数 0

1回答

R-如何使用rvest或rcurl点击网页

、、、

我想从下载数据使用rvest可以很容易地抓取数据。代码可能如下所示： library(rvest) library(pipeR) url <- "http://www.tradingeconomics.com/" css <- "#ctl00_ContentPlaceHolder1_defaultUC1_CurrencyMatrixAllCountries1_GridView1" data <- url %>>% html() %>>% html_nodes(css) %>>% ht

浏览 0提问于2015-03-22得票数 20

回答已采纳

1回答

如何在使用rvest抓取R时跳过空页？

、

我正在尝试从https://spotifycharts.com/regional/nl/daily/上抓取spotify图表。到目前为止，一切都很顺利，直到我尝试每天抓取多个页面。在某些日子里，腐败图上没有可用的数据。是否有某种R函数可以跳过空页或忽略页上没有可用数据的错误，并继续抓取下一页？如果没有可供抓取的数据，甚至可以将NA值添加到我的数据帧中？我试着使用tryCatch，但没有用。下面的代码片段显示了我的工作代码(在2017-05-30之前，页面上没有要抓取的腐败图表数据)。 #import libraries library(tidyverse) library(dplyr) l

浏览 8提问于2020-09-22得票数 0

回答已采纳

1回答

R:使用rvest从FIFA抓取表时出现的问题

、、、

我试图从过去30年中至少参加过一次世界杯的每一支球队中收集数据。我对如何使用R包rvest从web上抓取表格和其他东西的知识充其量也是最基本的。目前，我的代码看起来像这样 library(rvest) library(dplyr) fifadata <- read_html("http://www.fifa.com/fifa-tournaments/teams/association=BRA/index.html") fifa_data_html <- html_nodes(fifadata, xpath='/html/bod

浏览 1提问于2017-11-22得票数 0

2回答

R和rvest的Web抓取

、

我正在尝试使用rvest来学习用R进行网络抓取，我尝试为页面的其他几个部分复制Lego示例，并使用selector gadget进行id。我从中提取了这个例子。使用下面的代码，1和2工作，但3不工作。 library(rvest) lego_movie <- html("http://www.imdb.com/title/tt1490017/") # 1 - Get rating lego_movie %>% html_node("strong span") %>% html_text() %>% as.numeric(

浏览 4提问于2015-06-20得票数 3

回答已采纳

2回答

如何在编写R包时导入"%>%“？

、、、

当加载我正在编写的R包时，我会遇到以下错误。 Error in nations %>% rvest::html_nodes(".x") %>% rvest::html_nodes(".y") %>% : could not find function "%>%" 我不知道如何在我的R包中导入这个。这就是我如何设置函数的方式。 nations_url_odd<-nations %>% rvest::html_nodes('.x') %>% rvest::html_n

浏览 1提问于2020-08-02得票数 1

回答已采纳

1回答

rvest html_node返回空列表

、、

我试图使用R包rvest抓取网页，但当我使用命令html_node时，它返回一个空列表。有什么问题吗？这是我的代码(我使用SelectorGadget获取标签)： #SETUP library(tidyverse) library(rvest) #Getting the link for each house main.link<- "https://www.sreality.cz/en/search/for-sale/apartments/praha" main.page<-read_html(main.link) links<- html_nod

浏览 3提问于2018-08-19得票数 0

2回答

如何在使用选择器查找节点后导出数据

、、

我成功地完成了一个关于网络抓取的RVest教程，我想知道: 1)如何删除"\n"？导出文件之前? 2)如何将数据导出到CSV文件？下面是指向上面提到的教程的链接：我对R非常陌生，所以任何帮助都很感激。这是我使用的代码： library(rvest) library(dplyr) lego_movie <- html("http://www.imdb.com/title/tt1490017/") ### movie rating ### lego_movie %>% html_node("strong span") %&g

浏览 0提问于2019-08-23得票数 0

回答已采纳

1回答

使用rvest从闪存页面中刮取数据

、

我正在尝试从这个页面中抓取数据：如果我试图使用css选择器和通常的rvest语法刮取播放机的名称： names <- read_html("http://www.atpworldtour.com/en/tournaments/brisbane-international-presented-by-suncorp/339/2016/match-stats/r975/f324/match-stats?") %>% html_nodes(".scoring-player-name") %>% sapply(html_text) 万事如意。不幸

浏览 2提问于2016-06-05得票数 0

回答已采纳

1回答

使用rvest抓取名称相似的表

、、、

我正在尝试使用rvest从fbref.com上的不同页面抓取数据表。我已经能够使用以下命令从一个页面中抓取数据： library(rvest) URL <- "https://fbref.com/en/squads/822bd0ba/Liverpool" WS <- read_html(URL) passStats <- WS %>% rvest::html_nodes(xpath = '//*[(@id = "ks_sched_all")]') %>% rvest::html_table() %>% data

浏览 5提问于2020-06-02得票数 1

回答已采纳

1回答

将数据收集到R中

、、、

我目前正在尝试将转换为R，但在获取正确的表时遇到了问题。 html_link <- "https://fbref.com/en/comps/9/stats/Premier-League-Stats#stats_standard::1" "https://fbref.com/en/comps/9/stats/Premier-League-Stats#stats_standard::1" df <- html_link %>% xml2::read_html() %>% rvest::html_nodes("table

浏览 21提问于2021-02-16得票数 0

回答已采纳

1回答

用R从csv文件中刮取多个urls

、、

我有一个CSV文件，其中包含了一组文章的信息，第9卷引用了URL。我已经用下面的代码成功地用一个URL抓取了标题和摘要： library('rvest') url <- 'https://link.springer.com/article/10.1007/s10734-019-00404-5' webpage <- read_html(url) title_data_html <- html_nodes(webpage,'.u-h1') title_data <- html_text(title_data_html) h

浏览 2提问于2020-04-20得票数 1

回答已采纳

1回答

在R中获取html网站时，如何保存来自for循环的结果？

、、、

我想知道当我打算在R中抓取多个网站时，如何从for循环中存储和检索数据。 library(rvest) library(dplyr) library(tidyverse) library(glue) cont<-rep(NA,101) countries <- c("au","at","de","se","gb","us") for (i in countries) { sides<-glue("https://www.beeradvocate.com/beer/t

浏览 18提问于2020-04-15得票数 1

回答已采纳

1回答

是否使用rvest提取url-返回{{article.Link}}而不是链接？

、、、

我正在尝试从网站"https://politi.dk/doegnrapporter"“中抓取url。我在R中使用了rvest和dplyr，但我的代码输出的是{{article.Link}}而不是实际的链接。我认为这与加载链接的网站的html代码中的一些Java脚本有关，但我如何在抓取R中的url时抵消这一点。我到目前为止的代码是： library(rvest) page <- read_html("https://politi.dk/doegnrapporter") t <- page %>% html_nodes("a.newsR

浏览 16提问于2021-09-07得票数 0

回答已采纳

1回答

如何从一个求职网站上获取公司评级

、、、、

我从来没有使用过HTML或CSS，但我知道R，所以我在网上和Stack中查看了几种抓取方法来在R中做这件事。我一直在从职位列表页面提取公司评级时遇到问题。我得到了character(0)，在示例url中，该公司具有4.0评级。这是我的尝试： library(rvest) library(tidyverse) library(xml2) #example URL url<- "https://www.indeed.com/viewjob?jk=a25a91736b1f7042&tk=1e3q54n49heai800&from=serp&vjs=3&am

浏览 22提问于2020-03-20得票数 0

回答已采纳

1回答

抓取每个链接页面并将其存储为XML表

、、

你好，我刚开始使用R从互联网上抓取数据，不幸的是，我对HTML和XML知之甚少。我试图抓取以下父页面上的每个故事链接：我不关心父页面上的任何其他链接，但需要创建一个表，为网址，故事的标题列，然后为页面的完整文本(可以是几个文本段落)休息。我尝试使用rvest包，得到了urls，但真正的问题是遍历所有文章，提取文本并将所有内容存储在一个表中。对于谷歌新闻应用程序： library(rvest) url <- 'https://news.google.com/search?q=NREGA&hl=en-IN&gl=IN&ceid=IN%3Aen'

浏览 2提问于2018-06-04得票数 0

1回答

使用rvest抓取HTML data.table

、

我正在尝试使用R rvest包从中抓取“鱼肉样本”表数据。我使用chrome扩展SelectorGadget来查找表的xpath。我无法从网页中获取任何表格数据到R.非常感谢您的帮助。 library(rvest) urllakes<- read_html("http://www.dnr.state.mn.us/lakefind/showreport.html? downum=27011700") lakesnodes <- html_nodes(urllakes,xpath = '//*[(@id = "lake-survey")]&#

浏览 1提问于2017-10-01得票数 0

回答已采纳

1回答

如果rvest无法识别R中的节点，该怎么办？

、

我正在尝试用rvest抓取裁判的比赛数据。请参见以下代码： page_ref<-read_html("https://www.pro-football-reference.com/officials/HittMa0r.htm") ref_tab <- page_ref %>% html_node("#games") %>% html_text() #html_table() 但是rvest不能识别链接中“游戏”表的任何节点。它可以很好地从第一个表“季节总数”中提取数据。我是不是漏掉了什么？一般来说，如果rvest

浏览 0提问于2021-01-20得票数 0

1回答

R:使用RVest刮取特定网站的发布日期

、、

我目前正在使用RVest在R中进行网络抓取。我现在的网站是"“。但我没办法抢到地产报价的个人pushlishDates。这是我在脚本中找到的HTML部分。 "@publishDate":"2019-10-12T10:50:57.831+02:00“ 我找不到合适的RVest-Selector.下面的代码返回字符，因为节点"publishDate“不工作。刮每个单独的html_node()所需的html_node()是什么？提前谢谢。 library(rvest) immo_webp <- read_html ("https://www

浏览 4提问于2019-10-12得票数 1

回答已采纳

2回答

数据-锚文本-Web-抓取相关问题

、、、

我正在尝试从这个页面中抓取：我需要刮更多类似于这个页面，但模式是不一样的。我可以通过这个xpath - //*[@id="articleText"]/div[1]刮取文本，但实际上我想从div- class="articleSection"；数据锚名" text“中刮取文本。 div号在链接上改变，但是模式数据-锚名"Text"，不行。我包括这张图片是为了给出一些背景： R码： library(dplyr) library(rvest) article <- "https://www.scielo.br/j/

浏览 5提问于2021-08-27得票数 0

回答已采纳

1回答

使用rvest从主页获取href (SelectorGadget和检查源代码)

、、、

我正在使用rvest抓取一个网站(here)。我正在尝试获取列出的所有582个人的URL。例如，其中一个人的网址是here。一旦我在一个单独的URL中，我就能够成功地抓取我正在寻找的信息。下面是一个这样的例子： link = "https://www.supercluster.com/astronauts/jessica-u.-meir?sort=&ascending=false&life%20form=human&" page = read_html(link) # Time in space and spacewalk time page %

浏览 30提问于2021-02-01得票数 0

2回答

使用rvest进行Tripadvisor评级的Web抓取

、、

? 我正在尝试使用rvest (R编程)抓取tripadvisor的评论(评级服务、价值、位置)，但我无法这样做。 library(tidyverse) library(rvest) url <- "https://www.tripadvisor.com.sg/Hotel_Review-g294265-d1770798-Reviews-or5-Marina_Bay_Sands-Singapore.html#REVIEWS" reviews <- read_html(url) %>% html_nodes(".ui_bubble_ratin

浏览 25提问于2019-12-10得票数 1

2回答

使用rvest进行Web抓取

、、

我正在尝试使用rvest将web抓取到以下网页：https://www.superu.ad/oli-de-girasol_c360259/ 但似乎rvest (R)不能找到url中已经存在的一些css选择器，如.product-name webpage<-read_html('https://www.superu.ad/oli-de-girasol_c360259/') rank_data_html <- html_nodes(webpage,'.product-name') #returns nothing 我期望出现在url中的不同产品名称的输

浏览 17提问于2019-05-25得票数 0

回答已采纳

7回答

如何从下载的zip文件安装软件包

我已经以压缩文件的形式下载了这个。是否可以使用此压缩或解压缩版本从R控制台将其安装到特定路径？ install.packages("C:/Users/Desktop/rvest-master.zip', lib='C:/R/R-3.2.1',repos = NULL) 我输入了前面的命令，但不起作用 > setwd("C:/Users/Desktop/") > unzip("rvest-master.zip") > file.rename("rvest-master", "rvest&#

浏览 1提问于2015-06-23得票数 22

1回答

字符串看似是一个空格字符，但事实并非如此

、、

我正在用rvest做一些网页抓取，我遇到了一些奇怪的事情。我在两台电脑上复制了这个字符串，一台运行R3.6.3的Mac系统和一台运行R3.6.3的Windows10系统。 library(rvest) library(stringr) # scrape website, no issue webpage <- rvest::read_html("https://www.usms.org/longdist/ldnats00/1hrf4044.php") html <- rvest::html_nodes(webpage, css = "td") re

浏览 13提问于2020-04-17得票数 1

回答已采纳

1回答

意外的token -R包安装附近出现语法错误

我正在尝试安装一个R包及其依赖项。但这是抛出错误。 $ install.packages(rvest_0.3.5.tar.gz, dependencies=True) -bash: syntax error near unexpected token `rvest_0.3.5.tar.gz,' 我是R的新手，请帮助我如何将其与依赖项一起下载。在此之前，我尝试了以下操作 $ R CMD INSTALL rvest_0.3.5.tar.gz * installing to library ‘/Library/Frameworks/R.framework/Versions/4.0/Res

浏览 0提问于2020-06-13得票数 0

1回答

R:发布搜索表单和抓取结果

、

我是一个网络抓取的初学者，我还不熟悉我试图解决的问题的命名。尽管如此，我已经详尽地寻找了这个特定的问题，但没有成功地找到解决方案。如果它已经在其他地方，我提前道歉，并感谢您的建议。开始吧。我正在尝试使用R构建一个脚本，它将：在报纸网站中搜索特定关键字；为我提供所需数量的结果/页面的标题、日期和内容。我已经知道如何发布表单以进行搜索，并从第一页抓取结果，但到目前为止，我还没有成功地从下一页获得内容。老实说，我甚至不知道从哪里开始(我读过关于RCurl等等的东西，但对我来说仍然没有太大的意义)。下面，它遵循了我到目前为止编写的代码的一部分样本(为了简单起见，只抓取了第一页的标题)。 cur

浏览 0提问于2014-08-03得票数 0

1回答

R: not抓取HTML中不包含的数据

、、、

我正在尝试从诸如these之类的网页中抓取R。但是html只有50行，所以我假设这些数字隐藏在一个javascript文件中或它们的服务器上。我不知道如何找到我想要的数字(例如，学生人数下的注册号)。当我尝试使用rvest时，如在 num <- school_webpage %>% html_elements(".number no-mrg-btm") %>% html_text() 我得到一个错误，说“无法找到函数"html_elements"”，即使我已经安装和加载rvest。我获得这些不同数字的最佳策略是什么?为什么我会得

浏览 6提问于2021-07-13得票数 0

1回答

如何将XPATH值定义为R中html_nodes中的变量

、、

在使用R (rvest)进行web抓取时，我需要将XPATH值定义为html_nodes中的一个变量。这样我就可以迭代大量的XPATH。当我在外部定义XPATH时，它会抛出错误(例如，当xpath =//*@id=“横幅”时出现错误)。你能帮帮我吗。我的守则： xpath <- as.character('//*[@id="title-overview-widget"]') name <- lego %>% html_nodes(xpath) %>% html_text() Error Message

浏览 3提问于2016-03-05得票数 2

回答已采纳

1回答

调用clickElement()函数时出现RSelenium未知错误

、、

我想使用R包'Rvest‘抓取holidayiq.com酒店评论数据，例如。'RSelenium‘用于单击"Next >“链接，以访问更多页面。每当我使用代码nxtButton = mybrowser$findElement(using = 'css selector', "#next") nxtButton$clickElement()访问下一个页面时，我都会得到以下错误：请告诉我如何处理这个错误。提前感谢您的帮助。

浏览 1提问于2016-03-02得票数 0

1回答

从公共Google工作表中抓取数据-相同的url用于不同的选项卡

、、

我想从Google页面的公共网页上抓取数据。这是。我对第四个选项卡“美国每日下午4点ET”中的数据特别感兴趣，但是该标签的网址与所有其他选项卡相同(至少根据我尝试过的浏览器的地址栏--包括Chrome和Firefox)。当我试图使用R中的rvest包刮取数据时，我最终得到了第二个选项卡“”中的数据。我用鼠标右键检查了第一个选项卡，“自述”，看看我是否能找出标签名的内容。看上去第四个标签的名字是工作表按钮-916628299。但是，在我的浏览器中输入以/pubhtml#gid=sheet-按钮-916628299或/pubhtml#gid=916628299结尾的URLS并没有带我到第四个选

浏览 1提问于2020-03-15得票数 0

回答已采纳

1回答

Rvest html_nodes span div和Xpath

、、

我试图通过读取XPath代码来抓取网站。当我进入开发人员部分时，我看到了这些行： <span class="js-bestRate-show" data-crid="11232895" data-id="928723" data-abc="0602524361510" data-referecenceta="44205406" data-catalog="1"> 我想要抓取data-abc的所有值。假设站点上的每个元素都是一部电影，所以我想抓取页面上每部电影的所有数据-abc元素。我想

浏览 16提问于2018-02-06得票数 1

回答已采纳

2回答

使用rvest、xml2和选择器小工具在xml_missing <NA>中进行网络抓取结果

、、、、

我试图从以下URL中抓取信息：我想检索高亮显示的"812 H“：target 选择器小工具(铬扩展)建议使用以下节点“.桌面-标题-内容” 然而，我得到安娜作为一个结果，我不知道如何解决这个问题。这是我的代码： link <- "https://www.google.com/search?q=812-800%20H%20St%20NW" xml2::read_html(link) %>% rvest::html_node(".desktop-title-content") %>% rvest::html_text() [

浏览 5提问于2020-01-29得票数 1

回答已采纳

1回答

rvest html_nodes()返回空字符

、、、、

我正在尝试抓取一个网站(https://genelab-data.ndc.nasa.gov/genelab/projects?page=1&paginate_by=281)。特别是，我正在尝试抓取所有281个“发布日期”(第一个是'30-Oct-2006') 为此，我使用了R包rvest和SelectorGadget Chrome扩展。我使用的是Mac 10.15.6版。我尝试了以下代码： library(rvest) library(httr) library(xml2) library(dplyr) link = "https://genelab-da

浏览 41提问于2020-10-17得票数 1

回答已采纳

1回答

R编程Web抓取

、

我试着从下面的链接中抓取网页，使用R编程中的R背心包。我抓取的链接是我的代码是： library("xml2") library("rvest") url<-read_html("http://dk.farnell.com/c/office-computer-networking-products/prl/results") tbls_ls <- url %>% html_nodes("table") %>% html_table(fill = TRUE)%>% gsub("^

浏览 13提问于2017-12-22得票数 1

1回答

在Wiki的网球桌上使用Rvest进行Web抓取

、、

我在这里，完全是一个R的初学者，我正在努力学习更多关于rvest的知识和如何从网络上抓取。这是维基页面()，下面是我想转移到R的表格。使用CSS Selector，我发现特定的表在".wikitable“上。在其他网页上的一些教程之后，下面是我使用的代码： library(rvest) tennis <- read_html("https://en.wikipedia.org/wiki/Andy_Murray") trial <- tennis %>% html_nodes(".wikitable") %>% html

浏览 2提问于2016-08-19得票数 2

回答已采纳

1回答

rvest返回{xml_nodeset (0)}

、、

我正在尝试抓取以下网站的数据框架 https://infogram.com/detallecasos-1h7z2l9yqgdy2ow 使用R.中的rvest包但我得到了 {xml_nodeset (0)} 我试着用多个堆栈溢出的答案来解决这个问题，但没能解决。感谢能帮助我的人。 library(rvest) read_html("https://infogram.com/detallecasos-1h7z2l9yqgdy2ow") %>% html_nodes('table') %>% html_table(fill = TRUE)

浏览 27提问于2020-03-23得票数 0

回答已采纳

1回答

在R中抓取Javascript生成的内容

、、

我发现，通过获取生成网页的html代码，可以轻松地使用rvest包实现R中的web抓取任务。然而，当网站使用Javascript显示相关数据时，这种“通常”的方法(我可以这样称呼它)似乎遗漏了一些功能。作为一个工作的例子，我想从网站上抓取新闻标题。通常方法的两个主要障碍是底部的“load more”按钮和使用xpath提取标题。特别是： library(rvest) library(magrittr) url = "http://www.nestle.com/media/news-archive#agregator-search-results" webs = read_ht

浏览 3提问于2016-01-05得票数 0

1回答

在R中抓取BigFuture时出现问题

、、

我正在尝试使用rvest抓取以获得到学院的链接(CSS选择器显示为rvest和国际学生部分的一些文本(可以通过侧边栏访问)。无论我怎么尝试，html_nodes()都无法将此信息读入R。我尝试使用chrome中的开发人员工具选项来获取信息，但即使这样也不起作用。我遗漏了什么？ base_url = "https://bigfuture.collegeboard.org/college-university-search/princeton-university" page = read_html(base_url) page %>% html_nodes("#

浏览 2提问于2018-04-06得票数 0

1回答

如何使用rvest抓取网页的链接和文本？

、、、、

我正在尝试使用R中的rvest来抓取阿根廷总统的演讲。以下是我到目前为止编写的代码： library(purrr) library(rvest) library(stringr) url_president <- "https://www.casarosada.gob.ar/informacion/discursos?page=%d" # extract relevant data on webpage map_df(1:2, function(i) { pg <- read_html(sprintf(url_president, i)) data.f

浏览 19提问于2021-11-13得票数 0

回答已采纳

2回答

rvest html_nodes返回{xml_nodeset (0)}

、、、

我一直在尝试使用rvest和selectorGadge来抓取this page。我可以抓取产品描述，但当我尝试获取图片中所示的值时： ? 但是，当我运行代码时： library(dplyr) library(rvest) read_html("https://www.dicasanet.com.br/material-de-construcao") %>% html_nodes(".product-payment") 我一直得到结果"{xml_nodeset (0)}“。我注意到，与其他值(如产品名称)不同，这不是一个div.a，而

浏览 90提问于2021-04-29得票数 0

回答已采纳

1回答

从页面中抓取所有细节

、、

我试着从网站上抓取一些数据，但它只存储第一行。也许我应该运行一个循环或使用应用功能，但我不知道如何为网络抓取。这是我的代码： library(rvest) nobel.table <- read_html("https://niir.org/directory/directory/agriculture-agro-based-companies/z,,dc,0,32/index.html") table_node<-html_node(nobel.table, css = '.d-con') agro<-html_text(table_nod

浏览 1提问于2018-12-06得票数 0

回答已采纳