使用rvest和html_nodes()和html_table()提取网站表

rvest是R语言中一个用于网页抓取和解析的包，它可以帮助我们从网页中提取所需的数据。html_nodes()函数用于选择网页中的特定元素，而html_table()函数用于提取网页中的表格数据。

首先，我们需要安装和加载rvest包：

install.packages("rvest")
library(rvest)

接下来，我们可以使用html_nodes()函数选择网页中的表格元素，然后使用html_table()函数提取表格数据。以下是一个示例：

# 提取网页内容
url <- "https://example.com"
page <- read_html(url)

# 选择表格元素
table_nodes <- html_nodes(page, "table")

# 提取表格数据
table_data <- html_table(table_nodes)

在上面的示例中，我们首先使用read_html()函数读取网页内容，并将其存储在变量page中。然后，我们使用html_nodes()函数选择网页中的表格元素，并将其存储在变量table_nodes中。最后，我们使用html_table()函数提取表格数据，并将其存储在变量table_data中。

需要注意的是，html_table()函数返回的是一个列表，每个元素代表一个提取到的表格。如果网页中有多个表格，你可以通过索引来选择特定的表格数据。

对于rvest包的更多详细用法和示例，请参考腾讯云的相关产品和产品介绍链接地址：rvest包使用文档。

总结：使用rvest和html_nodes()和html_table()可以方便地提取网站中的表格数据，从而进行进一步的数据分析和处理。

rvest html_table

、、

我试图使用html_table和rvest包提取一个表 library(rvest) test <- html("http://www.privacyrights.org/data-breach/new?title=") test %>% html_table(html_nodes("table.data-breach-table")[[1]]) 但是，我一直有个错误 UseMethod中的错误(“html_nodes”)：没有适用于类“字符”对象的“html_nodes”方法

浏览 3提问于2015-10-15得票数 0

1回答

使用rvest和html_nodes()和html_table()提取网站表

、

我正在尝试从篮球参考网站上提取数据。 library(rvest) data7 <- read_html("http://www.basketball-reference.com/teams/CLE/2017.html") %>% html_nodes("[id=roster]") %>% html_table() data7 上面的代码返回"roster“表中的数据。但是，下面的代码不会返回"team_misc“表，而是返回一个带有零的列表： html_nodes("[id=team_misc]") %>

浏览 17提问于2017-03-01得票数 0

回答已采纳

2回答

rvest是从该表中收集信息的最佳工具吗？

、、、、

我已经使用rvest包提取了公司列表和每个公司中的a.href元素，我需要这些元素来继续数据收集过程。这是该网站的链接：。我使用了以下代码来提取该表，但没有任何结果。我使用了其他方法，就像“用rvest抓取NBA统计数据表”和类似的链接，但我不能得到我想要的。任何帮助都将不胜感激。我的代码： link.main <- "http://www.bursamalaysia.com/market/listed-companies/list-of-companies/main-market/" web <- read_html(link.main) %>%

浏览 0提问于2018-07-24得票数 1

回答已采纳

1回答

尝试使用r对合并的Html表进行web抓取

、、、

我正在尝试能够抓取劳工统计局任何一页上的所有表格(特别是这一页：)。然而，我在该网站上的一个特定表上遇到了R问题。最后一个表被标记为表7。使用包rvest，我使用了一个递归循环，它将首先创建一个从网站获取的tableID矩阵，过滤掉那些没有实际使用的tableID，然后将其放入html_table函数()中。因为有合并的单元格，所以我为循环保留了fill = TRUE，并且我还添加了额外的条件，以便考虑到一些实际具有html表但仍然具有表id的表(图4、6和7)。问题在于，对于最终的表，第二行实际上没有足够的输入来输入给定的列数，并且rvest函数以一种奇怪的方式填充它。第二行不应该有2016

浏览 3提问于2018-02-13得票数 2

1回答

如何在web刮除的html表中包含属性

、、

我使用rvest从内部网站的HTML表中刮取数据。行的颜色是有意义的，因此我希望将BGCOLOR属性作为列提取到我的最后一个表中，但是html_table()当然只提取内容。到目前为止我的情况是这样的。下面是html表的一个片段。我怎样才能包括一个颜色列？ html_nodes(samplepage,"table") tbl_content <- samplepage %>% html_nodes("table") %>% html_table(fill = TRUE, trim = TRUE) tbl_content

浏览 2提问于2017-08-26得票数 1

回答已采纳

2回答

表的标题行与html_table函数冲突

、、

我正在尝试提取页面上的表。然而，使用html_table和rvest，第一行文本是表的一部分，显然是与html_table冲突的。我留下密码 #Library's library(rvest) library(XML) url<-"http://www.svs.cl/institucional/mercados/consulta.php?mercado=V&Estado=VI&entidad=RVEMI" #page url<-read_html(url) table<-html_nodes(url,&

浏览 6提问于2017-03-23得票数 2

回答已采纳

1回答

使用RVEST从sports参考中抓取表格

、、

我试图从这个网页中抓取不同的表格：https://www.pro-football-reference.com/years/2020/ 在检查页面的元素时，我发现使用以下代码可以很容易地获得前两个表： ### packages library(tidyverse) library(rvest) ### Scrape offense url_off <- read_html("https://www.pro-football-reference.com/years/2020/") ## AFC Standings url_off %>% html_tab

浏览 8提问于2020-10-29得票数 0

回答已采纳

2回答

带R的篮球参考抓取

、、

我在试着抓取网站 https://www.basketball-reference.com/playoffs/NBA_2021_standings.html 用于扩展的排行榜。我已经使用rvest库尝试了许多变体，但似乎都不能正常工作。使用的最新代码是： url = "https://www.basketball-reference.com/playoffs/NBA_2021_standings.html" test = url %>% rvest::read_html() %>% rvest::html_nodes("table")

浏览 40提问于2021-11-14得票数 0

1回答

将html表刮到R数据帧中

、、、

我有个问题。我必须从网站上提取信息：，包括俱乐部的名称，他们的网站地址(transfermarkt配置文件)，以及球队简介中的球场名称。这是我第一次接触从网站中提取数据。任何帮助都很感激。起初，我写了这样的代码： library(rvest) theurl <- "https://www.transfermarkt.co.uk/premier-league/startseite/wettbewerb/GB1" file<-read_html(theurl) tables<-html_nodes(file, "table") table1 <

浏览 0提问于2017-11-14得票数 0

回答已采纳

2回答

为什么我不能使用rvest解压这个表？

、

我正在尝试从中提取按地区和股东分类的销售信息。我尝试使用rvest，但结果提取的表是空的。除了使用RSelenium之外，还有其他方法可以做到这一点吗？ library(dplyr) library(tidyverse) library(rvest) url <- "https://www.marketscreener.com/ZURICH-INSURANCE-GROUP-2955923/company/" wahis.session <- html_session(url) r1 <-

浏览 0提问于2019-06-29得票数 0

1回答

使用rvest网刮时警告xml_find_all.xml_node

、、、

我想从这个中抓取数据。我用了一个循环和一个循环来得到桌子。这是我的密码： require(dplyr) require(rvest) # store web url url <- "https://corona.thueringen.de/covid-19-bulletin/" # check xpath xpath_part1="/html/body/main/div[2]/div/section[2]/ul/li[" xpath_part2="]/div/div/div[2]/div/table" # save tables fo

浏览 6提问于2020-05-12得票数 2

回答已采纳

1回答

关于大学篮球统计数据的Web抓取表

、、

我对网络抓取和测试项目的工作是新的，在这个测试项目中，我试图为这个特定的团队抓取以下网站上的每个数据表。应该有15个表，但是当我运行我的代码时，它似乎只提取了15个表中的前6个，我如何获取其余的表呢？代码如下： library(tidyverse) library(rvest) library(stringr) library(lubridate) library(magrittr) iowa_stats<- read_html("https://www.sports-reference.com/cbb/schools/iowa/2021.html") iowa_s

浏览 6提问于2021-02-11得票数 1

回答已采纳

1回答

R中的web抓取(使用循环)

、、、

我需要从中抓取数据并将表保存在csv中。我现在所拥有的:我可以使用rvest删除第一页和第二页，并使用以下代码保存这些表： library(rvest) webpage <- read_html("https://bra.areacodebase.com/number_type/M?page=0") data <- webpage %>% html_nodes("table") %>% .[[1]] %>% html_table() url<- "https://bra.areacodebase.com

浏览 20提问于2017-03-16得票数 3

1回答

Rvest返回空表

、、

我正在尝试使用以下代码来获取这个网站上的表格：： library(rvest) url <- "http://fluxnet.fluxdata.org/sites/site-list-and-pages/?view=table" tbl <- url %>% read_html() %>% html_nodes(xpath='//*[@id="siteTable"]') %>% html_table() 然而，返回的表只有头部，没有任何数据。我遗漏了什么？

浏览 28提问于2018-06-05得票数 1

回答已采纳

2回答

R中的WebScraping :处理WebSites上的选项卡

、

这是我的网站： url<-https://projects.fivethirtyeight.com/2017-nba-predictions/ 正如您在这个问题上所看到的：您可以选择不同的日期，然后更改您的表。但我的问题是不同的:如何从不同的日子提取表格？我只能提取与“今日”日期有关的表格。我知道，每次更改日期时，我都需要使用id id="standings-table-wrapper"。但我该怎么处理呢？这就是我如何提取关于“今日”日期的表格： library(rvest) library(magrittr) page <- read_html(&#

浏览 1提问于2019-09-14得票数 2

回答已采纳

1回答

使用R从网站上抓取数据的问题

、

我正试图从这个网站上刮数据使用rvest软件包。但是当我运行我的代码时，我会得到一个我不认识的错误。我不确定我是否没有使用正确的html类。下面是当我检查元素时看到的html 这是我的代码：#下载数据- 2021时间表 library(rvest) url <- "https://www.footballdb.com/games/index.html?lg=NFL&yr=2021" data <- url %>% html_nodes("statistics") %>% html_table()

浏览 5提问于2022-01-17得票数 -2

回答已采纳

1回答

使用rvest抓取名称相似的表

、、、

我正在尝试使用rvest从fbref.com上的不同页面抓取数据表。我已经能够使用以下命令从一个页面中抓取数据： library(rvest) URL <- "https://fbref.com/en/squads/822bd0ba/Liverpool" WS <- read_html(URL) passStats <- WS %>% rvest::html_nodes(xpath = '//*[(@id = "ks_sched_all")]') %>% rvest::html_table() %>% data

浏览 5提问于2020-06-02得票数 1

回答已采纳

1回答

强制出租识别表(html_tag(x) == "table“不是真)

、

我似乎永远不能让html_table()工作。这是一个完美的例子：(试着刮6局:表) library(rvest) hockey <- html("http://www.hockey-reference.com/boxscores/2015/3/6/") hockey %>% html_nodes("#stats .tooltip , #stats td , #stats a") %>% html_table() 但是我得到了一个html_tag(x) == "table" is not TRUE。这显然是

浏览 3提问于2015-07-08得票数 4

回答已采纳

2回答

使用R从网页中抓取表格和链接

、、、、

我正在尝试抓取一个网站与R。我需要的表和该表中与表中正确的行相关联的链接。我可以得到表和链接，但是因为在web表中有两列有链接，表中的一些行没有链接，并且链接不能通过文件名进行排序和连接。我不知道如何使用与正确行相关联的列和链接来创建日期框。 library(rvest) #Read HTML from EPA website content <- read_html("https://www.epa.gov/national-aquatic-resource-surveys/data-national-aquatic-resource-surveys") ta

浏览 30提问于2021-01-29得票数 2

1回答

使用R (rvest)从金融网站上抓取数据

、、

我正在尝试从中抓取数据。我正在使用R的rvest库来拉取数据。下面是我正在运行的代码 library(rvest) url ="https://www.e-adm.com/futr/futr_composite_window.asp" table1 = html(url) %>% html_nodes(".miniText tr:nth-child(1) td:nth-child(1) .smTextBlk") %>% html_nodes("table") %>%html_table table2 = html(url)

浏览 3提问于2017-02-07得票数 0

回答已采纳

1回答

从基于JavaScript的网页中提取表格

、、、、

我想使用R-提取以下网页的选项链选项卡下的表- https://nseindia.com/get-quotes/derivatives?symbol=SBIN ? 我正在尝试使用rvest来达到这个目的，然而从简单的基于html的网页中提取表格的标准方法似乎不起作用。以下是我正在尝试的-- library('rvest') x <- c('https://nseindia.com/get-quotes/derivatives?symbol=SBIN') url <- paste(x,collapse="") webpage

浏览 17提问于2020-01-05得票数 2

回答已采纳

1回答

只从多个表中抓取某些列

、、、

我只想从这些表和第三列(在图像、候选人名称之后)报告的选票中刮除候选人的名字。这就是我所得到的。 library(rvest) ndp_leadership<-url('https://en.wikipedia.org/wiki/New_Democratic_Party_leadership_elections') results<-read_html(ndp_leadership, 'table') results<-html_nodes(results, 'table') out<-results %>%

浏览 2提问于2017-11-06得票数 1

回答已采纳

1回答

用rvest刮html表。为什么它只提取有限的行数？

、

所有人！我需要一点帮助..。需要提取--从表中提取所有行，但它只提取10 (10) results...why？这是我使用的代码： library(rvest) URL <- "https://cip.org.pt/associativismo/associados/" CIP_html <- read_html(URL) CIP_html CIP_html %>% html_nodes("table") %>% html_table 也在其他网页上试过代码，效果很好.提取所有的行。我不知道这件事有什么问题。有

浏览 2提问于2021-11-25得票数 0

1回答

Rvest找不到eq标记

、、、

我目前正在使用R来捕获一个包含列的表。使用Rvest以及找到它的css选择器，我能够使用html_nodes或html_table函数提取其中的大多数。但是，在某些情况下，当css选择器包含"eq(somenumber)“时，我无法提取数据。据我所知，这个eq标签与Java有关，但我想知道是否有一种方法可以使用Rvest来获取这些标签，或者是否有其他包可以做到这一点。

浏览 13提问于2021-07-31得票数 0

回答已采纳

1回答

用RVEST抓取纳斯达克网站时崩溃

、、

我正试图在上刮这个网站，以获得即将上市和定价的IPO表格，但Rstudio总是使用rvest。这是我的密码： library(rvest) url="https://www.nasdaq.com/market-activity/ipos" web <- read_html(url) datos_web <- web %>% html_nodes(xpath = '//*[@class="market-calendar-table__table"]') %>% html_table() 我怎样才能把这张桌子放

浏览 3提问于2021-11-13得票数 0

回答已采纳

1回答

(iframe)搜索的Web抓取结果为r

、、

我想从下面的网站上抓取所有的NPI和细节。"“ 代码： library("rvest") library("xml2") url="https://www.pverify.com/npi-lookup-find-npi-number-of-doctors-physicians/" webpage<-read_html(url) data_html <- html_nodes(webpage,'iframe') data_html <-html_table(data_html) 当我尝试上面的代码时，错误信

浏览 0提问于2017-10-10得票数 0

1回答

使用rvest包进行Web抓取不起作用

、、、

我正在尝试使用rvest获取一个表，但它无法识别数字，并使用NAs创建了两个额外的列几个月前它起作用了，但显然他们对网站做了修改，现在它不能工作了。我不知道问题出在哪里。 url <- paste0("https://climatologia.meteochile.gob.cl/application/mensual/temperaturaMediaMensual/170007/2021/08") tmp <- read_html(url) tmp <- html_nodes(tmp,"table") sapply(tmp, functi

浏览 3提问于2021-09-03得票数 0

1回答

使用rvest提取链接(包括空白行)

我正在尝试使用rvest从表中提取链接。该表还包括没有链接的行。由于我需要将链接连接到原始表，因此需要包括空行。html_attr("href")跳过这些行，这使得不可能将链接合并到原始表。例如，下面的代码获取包含普通text/的表 library("rvest") url <- "http://en.wikipedia.org/wiki/List_of_The_Simpsons_episodes" simp <- url %>% read_html() %>% html_nodes(xpath='

浏览 8提问于2019-04-14得票数 0

回答已采纳

2回答

从R中的网站中提取html表

、、

您好，我正在尝试从premierleague网站上提取表格。我使用的包是rvest包，我在初始阶段使用的代码如下： library(rvest) library(magrittr) premierleague <- read_html("https://fantasy.premierleague.com/a/entry/767830/history") premierleague %>% html_nodes("ism-table") 我找不到一个html标签来提取rvest包的html_nodes。我使用类似的方法从"“中提取数据，并且

浏览 3提问于2017-01-06得票数 1

回答已采纳

1回答

配管和出租的问题

、、、

我正试图用rvest从中提取期权价格，我想得到一些帮助，帮我整理代码。我想要管道，最后得到一个数据帧。上面链接的页面有两个表格，第一个有股价信息，第二个有所有选项。当我运行以下代码时，我得到了第二个表的数据： html <- read_html("http://www.asx.com.au/asx/markets/optionPrices.do?by=underlyingCode&underlyingCode=ANZ&expiryDate=&optionType=B") nodes <- html_nodes(html, "tabl

浏览 4提问于2018-01-03得票数 0

1回答

从.csv文件中的url中列出的5K多个网站中的Web抓取表，全部在R中

、、

因此，我正致力于从以下网站中提取数据： ...at the县级，并尝试了许多不同的迭代方法，使用rvest包来提取数据。不幸的是，大约有5K个县。我已经将所有urls解压缩到一个列.csv文件中。这些urls的形式是“.”“.”是州代码后面的县代码。我想要的数据具有css标识符(来自SelectorGadget) css = '.wages_table .even .col-NaN , .wages_table .results .col-NaN' 的xpath。 xpath = //*[contains(concat( " ", @class, "

浏览 3提问于2016-11-28得票数 3

回答已采纳

1回答

尝试从网站抓取表格时，rvest返回空列表

、、、、

我正在尝试从这个网站抓取表格，rvest返回空列表。它适用于其他网站。问题可能是什么？谢谢, library(rvest) urlONGov <- "https://www.ontario.ca/page/2019-novel-coronavirus" ONGov <- urlONGov %>% xml2::read_html() %>% html_nodes(xpath='//*[@id="pagebody"]/table[1]') %>% html_table() ONGov

浏览 23提问于2020-03-26得票数 0

1回答

Xpath在Rvest中看不到表

、、

我正试图在这个网站上刮桌子。我已经在几个网站上做过了，但在这个网站上做不到。这与表是生成的而不是静态的这一事实有关吗？下面是我的代码： library(tidyverse) library(rvest) link <- "https://portal.vietcombank.com.vn/Personal/TG/Pages/ty-gia.aspx?devicechannel=default" webpage <- read_html(link) webpage %>% html_nodes(xpath = "//*[@class =

浏览 28提问于2021-10-05得票数 0

回答已采纳

1回答

是什么使桌面上的网页刮擦有时失败？

、、

我正在使用包，并试图弄清楚为什么有时它不能刮掉那些看起来很像表的对象。例如，考虑这样的脚本： require(rvest) url <- "http://bigcharts.marketwatch.com/quickchart/options.asp?symb=SPY" population <- url %>% xml2::read_html() %>% html_nodes(xpath='//*[@id="options"]/table/tbody/tr/td/table[2]/tbody') %>%

浏览 0提问于2019-07-16得票数 1

回答已采纳

1回答

刮擦桌子

、、、

我正在使用rvest库抓取一个webpage，我的兴趣是从网页中的表格中提取所有的数据。 library(rvest) library(tidyr) url <- '' # Parsing the HTML Code from Website hdb_webpage <- read_html(url) ## Grabbing Page Info - Table Input 1 dat_1 <- hdb_webpage %>% html_table(header=FALSE) %>% .[[2]] %>% as.data.f

浏览 0提问于2019-02-28得票数 0

回答已采纳

1回答

利用R从足球参考文献中抓取阵容数据

、、

我似乎总是在使用Python或R抓取参考站点时遇到问题，每当我在R中使用我的普通xpath方法(Python)或R背心方法时，我想要的表似乎永远不会被刮刀捡到。 library(rvest) url = 'https://www.pro-football-reference.com/years/2016/games.htm' webpage = read_html(url) table_links = webpage %>% html_node("table") %>% html_nodes("a") boxscore_link

浏览 3提问于2017-11-21得票数 1

回答已采纳

1回答

WebscrapingR背心无法从html页面运行，表格显示NA'S - Mc Donalds

、、、、

我试图从中抓取数据，用所有的纽崔值和变应原下拉菜单(进一步的信息，每100克，每部分包含过敏)生成数据，但是我的rvest无法检测到表中的信息。我甚至没有表现出任何必要的价值 library(rvest) url4 <- "https://www.mcdonalds.com/de/de-de/product/grand-cheese-n-beef-classic-5642.html" test <- url4 %>% read_html() %>% html_nodes(xpath = '//*[@id="collapseOne

浏览 3提问于2022-08-28得票数 1

1回答

不能再用httr和rvest刮网站了

、

自从用户在5年前给我的的答案后，我一直在成功地从这个网站上抓取一张桌子。最近网站上的一些东西变了，我再也找不到数据了。 URL <- "http://www.fiskistofa.is/veidar/aflaupplysingar/landanir-eftir-hofnum/" library(httr) library(rvest) res <- POST(url = URL, query = list(lang="is"), body = list(magn = "Sundurlidun",

浏览 2提问于2021-11-29得票数 2

回答已采纳

1回答

试图使用R对整个表进行get搜索，但只能获得第一行

、

这是我想要从网站上刮到的：我试图得到的表有匹配的统计，但当我试图刮它，我只得到第一行，其中只包括球队的名字！这是我使用的代码： library(rvest) url <- "https://www.premierleague.com/match/38413" my_html <- read_html(url) tbls_ls <- my_html %>% html_nodes("table") %>% .[2] %>% html_table(fill = TRUE) 我不是R专家，所以我不确定我做错了什么

浏览 0提问于2018-11-09得票数 0

1回答

网络抓取NBA幻想预测-R

、

有一些NBA幻想的预测，我想在一个更精简的方法。目前，我在google中使用importhtml函数，并使用简单的古体剪切‘n’粘贴。我经常使用R从互联网上抓取其他数据，但是，我无法设法让这些表被刮掉。我遇到麻烦的表格位于三个不同的地址(每页一个表)，它们是： 1) 2) 3) 对于我所有的其他抓取活动，我使用包rvest和xml。按照相同的过程，我尝试了下面列出的两种方法，从而得到了所示的输出。我确信这与网站上表格的格式有关，但是我还没有找到一些可以帮助我的东西。方法1 library(XML) projections1 <- readHTMLTable("http

浏览 1提问于2016-11-14得票数 0

1回答

解析来自非结构化信息框的rvest输出

、、、

我试图使用R中的rvest包从wiki粉丝网站中提取数据，但是我遇到了几个问题，因为信息框不是作为一个HTML表结构的。关于我处理这一问题的努力，请见下文： library(tidyverse) library(data.table) library(rvest) library(httr) url <- c("https://starwars.fandom.com/wiki/Anakin_Skywalker") #See here that the infobox information does not appear when checking for HTML

浏览 1提问于2022-05-14得票数 0

回答已采纳

1回答

如何使用AJAX单击动态网页中的按钮？

、、、

如何修改以下R代码以提取季度数据？我正在尝试从Yahoo获取数据，这是一个使用AJAX的动态网页，因此年度数据和季度数据的地址保持不变。选择器是“Button.p(0px)”。到目前为止，我已经成功地提取了AAPL损益表的年度数据，但仍然难以获得季度数据。欢迎任何建议:) library(rvest) url <- 'https://finance.yahoo.com/quote/AAPL/financials?p=AAPL' webpage <- read_html(url) tableIS <- html_table(html_nodes(webpage,

浏览 0提问于2019-03-09得票数 1

1回答

如何使用rvest()获取表

、、

我想获取一些数据从专业足球参考网站使用rvest软件包。首先，让我们从这个url http://www.pro-football-reference.com/years/2015/games.htm中获取2015年所有游戏的结果 library("rvest") library("dplyr") #grab table info url <- "http://www.pro-football-reference.com/years/2015/games.htm" urlHtml <- url %>% read_html()

浏览 3提问于2016-08-30得票数 6

回答已采纳

1回答

R中rvest在多个网页上刮表

、、

我是新的网络刮刮，并试图在多个网页上刮表。以下是网站：我可以很容易地使用rvest在一页上刮表。有多个表，但我只想刮第一个表，下面是我的代码 library(rvest) url4 <- "http://www.baseball-reference.com/teams/MIL/2016.shtml" Brewers2016 <- url4 %>% read_html() %>% html_nodes(xpath = '//*[@id="div_team_batting"]/table[1]') %>% htm

浏览 2提问于2016-10-19得票数 3

回答已采纳

1回答

网络抓取足球数据不返回任何内容

、

我想从网站上刮下比赛结果表我正在使用带有以下代码的rvest包： library(rvest) url.tournament <- "https://www.whoscored.com/Regions/247/Tournaments/36/Seasons/5967/Stages/15737/Fixtures/International-FIFA-World-Cup-2018" df.tournament <- read_html(url.tournament) %>% html_nodes(xpath='//*[

浏览 0提问于2018-06-25得票数 0

1回答

在使用带rvest包的xpath进行擦除时，下标超出界限错误

、

我正在尝试使用rvest包从一个网站上抓取一张表： library("rvest") uci_html <- read_html("http://archive.ics.uci.edu/ml/datasets.html") uci_data <- uci_html %>% html_nodes(xpath="/html/body/table[2]/tbody/tr/td[2]/table[2]") %>% html_table() uci_data <- uci_data[[1]] 就我所看到的所有例子而言，

浏览 2提问于2017-04-17得票数 0

1回答

用不同长度的字符向量设置df的名称

、、

我在为一个从网站上刮来的df设置名称时遇到了麻烦。html_table有一组列，它们没有正确的列名。当我使用purrr::set_names时，会收到一条错误消息，因为这些列与html_table上的列有不同的长度。有什么办法可以解决这个问题吗？缺少的列集似乎是重复的数据。它们与data中的列data相同。例子如下： library(tidyverse) # url url <- "https://legacy.baseballprospectus.com/pitchfx/leaderboards/index.php?hand=&reportType=avg&pr

浏览 6提问于2019-10-18得票数 2

回答已采纳

1回答

使用rvest抓取HTML data.table

、

我正在尝试使用R rvest包从中抓取“鱼肉样本”表数据。我使用chrome扩展SelectorGadget来查找表的xpath。我无法从网页中获取任何表格数据到R.非常感谢您的帮助。 library(rvest) urllakes<- read_html("http://www.dnr.state.mn.us/lakefind/showreport.html? downum=27011700") lakesnodes <- html_nodes(urllakes,xpath = '//*[(@id = "lake-survey")]&#

浏览 1提问于2017-10-01得票数 0

回答已采纳

1回答

阅读网球运动员活动页面中的所有html表格

、、、

我想从这个网站上读取包含费德勒结果的所有html表，并将数据存储在一个单独的数据帧中。我想出的一种方法是使用rvest包，但正如您可能注意到的，我的代码只适用于特定数量的锦标赛。有没有办法用一个命令就能读取所有相关的表？谢谢你的帮助! Url <- "http://www.atpworldtour.com/en/players/roger-federer/f324/player-activity" x<- list(length(4)) for (i in 1:4) { results <- Url %>% read_html() %&g

浏览 3提问于2016-06-14得票数 2

1回答

RVEST -从表中提取文本.访问正确表的问题

、、、

我想提取这个网页右上角表中的值： (W rmster Monat: VALUE，K ltester: VALUE，Jahresniedersch剂: VALUE) 不幸的是，如果我使用html_nodes(“特定值的Selectorgadgets结果”)，就会收到链接顶部的表的值： (网页类似，如果单击顶部栏上的“Uhrzeit/Uhrzeit”，可以访问第二个页面和表，如果单击"Wetter“--> "Klima"，则访问第一个页面/表(我希望从中提取值的页面/表！) num_link= "https://www.timeanddate.de/we

浏览 1提问于2021-04-05得票数 0

回答已采纳