使用R中的Rvest从表中删除多个标题行

文章/答案/技术大牛

发布

1回答

、、、

我试着从Sports Reference中找出一张表： cu_url <- "https://www.sports-reference.com/cbb/schools/creighton/" 我可以将表放入数据框中<- data.frame(html_table(cu_table))cu_info <- cu_info[-1,] 但是，

浏览 8提问于2020-12-02得票数 2

回答已采纳

1回答

如何从dataframe中删除不需要的行？

、、

如果您查看棒球-reference.com并单击球队和击球，您可以看到他们有将表转换为CSV的选项，但是当URL不能与read.csv()一起使用时，我如何获取它们我正在尝试使用rvest包从棒球参考网站上的特定球队导入击球数据我只想包括外野手，省略投手，重复的列名，以及网站从数据中生成的球队总数。如果我可以只使用CSV，我就不会有这个问题，但是html_table()只从网站抓

浏览 32提问于2019-10-10得票数 1

回答已采纳

1回答

如何使用xpath从表单元格中刮取值？

、、、

我在R工作，试图从www.baseball-reference.com中为多个玩家收集一些统计数据。我已经能够从站点上的特定页面中抓取其他元素，但是从出现在所有玩家统计页面上的特定表中刮取时遇到了问题。表id为“batting_value”，而显示在页面上的节点标题为“Player Value-Batting”。下面是一个示例页面： https:

浏览 2提问于2018-11-03得票数 0

回答已采纳

1回答

抓取每个链接页面并将其存储为XML表

、、

你好，我刚开始使用R从互联网上抓取数据，不幸的是，我对HTML和XML知之甚少。我试图抓取以下父页面上的每个故事链接：我不关心父页面上的任何其他链接，但需要创建一个表，为网址，故事的标题列，然后为页面的完整文本(可以是几个文本段落)休息。我尝试使用rvest包，得到了urls，但真正的问题是遍历所有文章，提取文本并将所有内容存储在一个表中。对于谷

浏览 2提问于2018-06-04得票数 0

7回答

如何从下载的zip文件安装软件包

我已经以压缩文件的形式下载了这个。我输入了前面的命令，但不起作用TRUE > shell("R CMD build

浏览 1提问于2015-06-23得票数 22

1回答

抓取PHP页面上的关键字

、、

我想要抓取这个网页下拉表中的关键字 rvest::html_table() 我想把以Keywords:开头的每一行都删掉，但我

浏览 3提问于2021-09-12得票数 0

1回答

使用rvest从多个XML文件创建数据库

、、、、

使用R从多个联机XML文件中提取相关数据以创建数据库我的问题是我想收集从搜索中<

浏览 0提问于2019-09-17得票数 1

回答已采纳

1回答

html_table()使用第二行作为标题

、、、

我试图从fbref上的表中抓取数据，但是这些表包含两个标题，子标头被合并到第一行数据中。有人知道如何跳过第一行，并使用第二行作为表头，以便能够维护数据类型吗？下面是我的代码。library(rvest) team_link = "https://fbref.com/en/squads

浏览 5提问于2022-05-31得票数 2

1回答

如何从在R中有多个表的网站中提取特定的表？

、

我正在尝试从中提取一个表。我想要的是(每场比赛的统计数据)。这个网页有多个表，当我试图从其中提取表时，它给出了页面中的前两个表。library(rvest) url <- "https://www.basketball-refer

浏览 1提问于2019-04-13得票数 0

回答已采纳

1回答

从R中的表中刮取数据，找不到里面的数据

、、、

我试图从这里给出的表格中刮取航班到达数据，在R中使用rvest。不管我用什么来查找数据(SelectorGadget，用铬进行手动检查，使用邮递员程序)，我似乎找不到表中显示的数据，我得到的最接近的是通过跟踪它的选择器得到表的标题。我怀疑其中包含了javascript，但我不确定如何在R中处理

浏览 0提问于2018-12-18得票数 0

回答已采纳

1回答

使用rvest抓取可折叠表格时出现问题

、、、

我试图从一个名为APIS的网站上从多个可折叠的表中抓取信息。我正在尝试收集的一个示例是link = "http://

浏览 0提问于2021-07-08得票数 0

1回答

使用rvest抓取名称相似的表

、、、

我正在尝试使用rvest从fbref.com上的不同页面抓取数据表。我已经能够使用以下命令从一个页面中抓取数据：URL <- "https://fbref.com/en/squads/822bd0ba/Liverpool"passStats <- WS %>% rve

浏览 5提问于2020-06-02得票数 1

回答已采纳

2回答

如何使用rvest* R从google新闻中获取标题？*

、

我想在R中使用rvest从google新闻中获取头条新闻。url=read_html("https://www.google.com/search?hl=en&tbm=nws&authuser=0&q=american+president")fnames<-html_nodes(x = url,

浏览 1提问于2016-09-24得票数 2

回答已采纳

1回答

使用rvest包进行Web抓取不起作用

、、、

我正在尝试使用rvest获取一个表，但它无法识别数字，并使用NAs创建了两个额外的列几个月前它起作用了，但显然他们对网站做了修改，现在它不能工作了。我不知道问题出在哪里。

浏览 3提问于2021-09-03得票数 0

1回答

用rvest网络抓取嵌入式桌面

、

我正在学习如何使用rvest和R进行网络抓取，并且我想提取嵌入在以下网站中的表格： {xml_nodeset (0)} 我还使用了检查功能来查看表名(下面)，并得到了相同<em

浏览 3提问于2022-05-21得票数 0

回答已采纳

1回答

R编程Web抓取

、

我试着从下面的链接中抓取网页，使用R编程中的R背心包。我抓取的链接是library("xml2") 我

浏览 13提问于2017-12-22得票数 1

1回答

使用rvest抓取HTML data.table

、

我正在尝试使用R rvest包从中抓取“鱼肉样本”表数据。我使用chrome扩展SelectorGadget来查找表的xpath。我无法从网页中获取任何表格数据到R.非常感谢您的帮助。library(rvest) urllakes<- read_html("http://www.dnr.state.mn.us/lakefind

浏览 1提问于2017-10-01得票数 0

回答已采纳

2回答

不识别css选择器

、、

我试着刮这个网站：不幸的是，rvest似乎无法通过CSS选择器识别节点。例如，如果我试图提取每个表(等级、奖励、距离)标题中的信息，其CSS选择器为".black“，并运行以下代码： URL <- read_html("http://www.racingpost.com/greyhounds

浏览 4提问于2015-12-26得票数 2

回答已采纳

1回答

维基百科.抓取:处理内联参考编号

、

当我用rvest抓取维基百科的表格时，我很难找到小的内嵌参考数字。它们似乎包含在一个名为"sup“的类中，但我在刮擦过程中不能删除它们。library(rvest)read_html("https://de.wikipedia.org/wiki/Ergebnisse_der_Landtagswahlen_in_der_Bundesrepublik_Deu

浏览 0提问于2018-04-13得票数 2

回答已采纳

1回答

表关系与查询实体框架

、、、、

父表AspNetUser ->子表Ad

浏览 1提问于2015-07-26得票数 0

点击加载更多