Rvest中的多个页面_使用rvest读取多个页面_使用rvest提取一个页面中的多个表 - 腾讯云开发者社区

、、、

我正在尝试使用rvest从fbref.com上的不同页面抓取数据表。我已经能够使用以下命令从一个页面中抓取数据： library(rvest) URL <- "https://fbref.com/en/squads/822bd0ba/Liverpool" WS <- read_html(URL) passStats <- WS %>% rvest::html_nodes(xpath = '//*[(@id = "ks_sched_all")]') %>% rvest::html_table() %>% data

浏览 5提问于2020-06-02得票数 1

回答已采纳

2回答

数据-锚文本-Web-抓取相关问题

、、、

我正在尝试从这个页面中抓取：我需要刮更多类似于这个页面，但模式是不一样的。我可以通过这个xpath - //*[@id="articleText"]/div[1]刮取文本，但实际上我想从div- class="articleSection"；数据锚名" text“中刮取文本。 div号在链接上改变，但是模式数据-锚名"Text"，不行。我包括这张图片是为了给出一些背景： R码： library(dplyr) library(rvest) article <- "https://www.scielo.br/j/

浏览 5提问于2021-08-27得票数 0

回答已采纳

2回答

rvest返回NA

、

我正在使用"rvest“进行网页抓取，但我无法从页面提取模型的价格:- 。我需要从页面中提取"$720.00“。我的代码是： library(rvest) data<-read_html("https://www.motorola.com/us/products/moto-z-force-droid-edition") price<-data%>% html_nodes(".price-amount")%>% html_text() print(price) 我不断地从价格中得到字符(0)。请帮帮忙。

浏览 16提问于2017-01-26得票数 1

1回答

使用rvest填写搜索表格并下载附件

、、

我正试着用rvest来搜集劳工部的数据。我有一个清单的EINs和PNs (参数在网络搜索表格)，我想搜索。到目前为止，我的情况如下： library(rvest) library(magrittr) ## URL to page with search form to be populated site <- "http://www.efast.dol.gov/portal/app/disseminate?execution=e1s1" session <- html_session(site) form <- session %>% html

浏览 2提问于2016-12-23得票数 2

2回答

在R中将字符串插入URL的中间

、

我正在使用rvest刮一个IMDB列表，并希望访问完整的演员名单和船员。不幸的是，当您单击标题时，IMDB创建了一个摘要页，并将我带到错误的页面。这是我得到的网页：https://www.imdb.com/title/tt1375666/?ref_=ttls_li_tt 这是我需要的网页：https://www.imdb.com/title/tt1375666/fullcredits/?ref_=tt_ql_cl 请注意在URL中添加了/fullcredits。如何将/fullcredits插入到我构建的URL的中间？ #install.packages("rvest")

浏览 2提问于2021-11-28得票数 1

回答已采纳

1回答

从下载的html文件中提取的Dataframe包含由空格分隔的浮点数；如何清除？

、、、、

这是对的后续，在其中，我从CDS下载了一个文件，并使用以下脚本使用rvest解压缩： library(rvest) download.file("https://cdsarc.cds.unistra.fr/viz-bin/nph-Cat/html?J/MNRAS/495/1706/subaru.dat.gz", "subaru.dat.gz") x <- rvest::read_html("subaru.dat.gz") y <- rvest::html_table(x) write.csv(y, file = 'suba

浏览 2提问于2022-01-11得票数 0

回答已采纳

1回答

如何使用rvest选择所有没有属性的节点？

、

使用rvest，如何选择没有属性的节点？例如： <nodes> <node attribute1="aaaa"></node> <node attribute1="bbbb"></node> <node></node> <- FIND THIS </nodes> 下面是一个使用XPath的相关thread，但当我尝试在rvest中使用类似于 wp %>% html_read(.) %>% html_nodes(xpath

浏览 17提问于2019-06-27得票数 0

回答已采纳

1回答

在R中使用rvest进行网络抓取

我想抓取这个页面，但是，它返回了一个空的数据框，有没有办法去抓取这个页面呢？ # Test library(rvest) library(dplyr) link <- "https://www.sreality.cz/hledani/prodej/byty/brno" page <- read_html(link) name <- page %>% html_elements("name ng-binding") %>% html_text() price <- page %>% html_elements(

浏览 4提问于2021-11-15得票数 0

回答已采纳

1回答

在抓取html页面之前，是否需要在rvest中使用read_html？

、

我正在使用rvest来刮网页。我曾经用url打开一个会话，并直接调用函数(如html_node() )。我注意到，我看到的大多数示例都是在分析页面内容之前先阅读的。我测试了这两个选项，并测量了系统运行时间，没有发现明显的差异。如果真的需要用read_html()提前阅读整页，有人能告诉我吗？这是一个样本测试 library(rvest) url="https://cran.r-project.org/doc/manuals/r-release/R-lang.html" sess=html_session(url ) system.time(html_nodes(sess,&

浏览 1提问于2015-11-30得票数 4

回答已采纳

3回答

用R搜索后面的asp javascript分页表

、、、、

我试图用rvest或RSelenium在rvest或RSelenium上提取内容，但当javascript页面以搜索框开头时却找不到指导？只要把所有这些内容都放到一个简单的CSV文件中就好了。在那之后，从像这样的单独文件中提取数据似乎是可能的。但我也希望有个干净的建议去做。谢谢

浏览 0提问于2018-08-10得票数 11

回答已采纳

1回答

R:发布搜索表单和抓取结果

、

我是一个网络抓取的初学者，我还不熟悉我试图解决的问题的命名。尽管如此，我已经详尽地寻找了这个特定的问题，但没有成功地找到解决方案。如果它已经在其他地方，我提前道歉，并感谢您的建议。开始吧。我正在尝试使用R构建一个脚本，它将：在报纸网站中搜索特定关键字；为我提供所需数量的结果/页面的标题、日期和内容。我已经知道如何发布表单以进行搜索，并从第一页抓取结果，但到目前为止，我还没有成功地从下一页获得内容。老实说，我甚至不知道从哪里开始(我读过关于RCurl等等的东西，但对我来说仍然没有太大的意义)。下面，它遵循了我到目前为止编写的代码的一部分样本(为了简单起见，只抓取了第一页的标题)。 cur

浏览 0提问于2014-08-03得票数 0

1回答

在html表中找到包含特定图标的单元格

、

我正在寻找代码，它可以告诉我特定图标驻留在html表的哪个单元格中。下面是我正在做的工作： u <- "http://www.transfermarkt.nl/lionel-messi/leistungsdaten/spieler/28003/saison/2014/plus/1" doc <- rvest::html(u) tab <- rvest::html_table(doc, fill = TRUE)[[6]] 专栏“Pos”指定球员在场上的位置。其中有些有一个额外的图标。我可以看到这些图标出现在页面上如下： rvest::html_nodes(doc

浏览 4提问于2015-05-31得票数 3

回答已采纳

1回答

使用rvest抓取html -获取http错误416

、、、

我正在尝试使用R (package rvest)来抓取这个页面的HTML，但是我得到了“客户端错误416:请求的范围不满足” 经过长时间的搜索，我似乎找不到解决方案。它在尝试使用rvest的html函数时抛出错误，该函数解析HTML页面： url <- "http://shop.tcgplayer.com/magic/onslaught/polluted-delta" html(url) 我使用的是R版本3.2.0。任何帮助都将不胜感激！

浏览 0提问于2015-06-28得票数 3

1回答

在html页面上使用rvest和xpath时不返回任何内容

、、、、

我使用xpath和rvest来抓取htm页面。rvest的其他示例可以很好地使用管道，但是对于这个特定的脚本，不会返回任何内容。 webpage <- read_html("https://www.sec.gov/litigation/admin/34-45135.htm") whomst <- webpage %>% html_nodes(xpath = '/html/body/table[2]/tbody/tr/td[3]/font/p[1]/table/tbody/tr/td[1]/p[2]') 返回的内容为： {

浏览 35提问于2018-06-20得票数 0

1回答

循环页和爬虫excel文件路径

、、、

对于来自的条目，我需要单击每个条目，然后在页面的左侧底部部分爬行excel文件路径的url：如何使用R中的web擦伤包(如rvest等)来实现这一目标？请提前表示衷心的感谢。 library(rvest) # Start by reading a HTML page with read_html(): common_list <- read_html("http://www.csrc.gov.cn/csrc/c100121/common_list.shtml") common_list %>% # extract paragraphs rves

浏览 10提问于2022-01-11得票数 0

回答已采纳

2回答

在使用rvest抓取时缺少值的地方输入NA

、、

我想使用rvest来抓取一个页面，该页面包含最近一次会议上的演讲的标题和运行时间，然后将这些值组合到一个tibble中 library(tibble) library(rvest) url <- "https://channel9.msdn.com/Events/useR-international-R-User-conferences/useR-International-R-User-2017-Conference?sort=status&direction=desc&page=14" title <- page %>%

浏览 41提问于2017-08-27得票数 2

回答已采纳

1回答

在SelectorGadget不适用的情况下抓取数据表的标题数据？(抓取基本面)

、

这两个页面具有相同的数据表(一个用作备份，如果另一个关闭)。我可以从library(XML)的readHTMLTable()中获取每个页面的表中的列数据，但无法获得表的标题。我所需要的只是日期-年份时间戳(目前是August 2019)，以分配给数据。在我所做的一些小的抓取中，在其他类似的页面上，我已经使用SelectorGadget (https://selectorgadget.com/) Chrome扩展通过输入library(rvest)的html_text()参数来识别要抓取的节点，但是SelectorGadget似乎在这两种情况下都不起作用，所以我对另一种方法一无所知。关于如何

浏览 23提问于2019-09-03得票数 0

回答已采纳

2回答

用rvest进行网刮:用NA替换缺少的html_nodes值

、、、

我抓取页面以获得(1)名称，(2)角色/编辑标题，(3)列出的每个人的机构联系。问题是有些人没有机构联系。我想用NA替换这些缺失的值，但我的尝试都没有奏效。我很感谢你的帮助！到目前为止，我的代码如下： journal_url <- "https://www.journals.elsevier.com/academic-pediatrics/editorial-board" webpage <- xml2::read_html(journal_url) webpage <- rvest::html_nodes(webpage,

浏览 1提问于2020-12-14得票数 0

回答已采纳

2回答

使用rvest或RSelenium刮表

、、、、

的目标：使用R. 网站：让我陷入困境的：我使用rvest来自动化我的大部分数据收集过程，但是这个特定的站点似乎超出了rvest的工作范围(或者至少超出了我的经验水平)。不幸的是，当页面打开时，它不会立即加载表。我试图通过RSelenium找到一个解决方案，但是没有找到正确的路径(RSelenium对我来说是全新的)。在导航到页面并暂停一小段时间以允许表加载之后，下一步是什么？到目前为止我所拥有的： library("rvest") library("RSelenium") url <- "https://evanalytics.com/ml

浏览 22提问于2019-12-31得票数 2

回答已采纳

1回答

如何从一个求职网站上获取公司评级

、、、、

我从来没有使用过HTML或CSS，但我知道R，所以我在网上和Stack中查看了几种抓取方法来在R中做这件事。我一直在从职位列表页面提取公司评级时遇到问题。我得到了character(0)，在示例url中，该公司具有4.0评级。这是我的尝试： library(rvest) library(tidyverse) library(xml2) #example URL url<- "https://www.indeed.com/viewjob?jk=a25a91736b1f7042&tk=1e3q54n49heai800&from=serp&vjs=3&am

浏览 22提问于2020-03-20得票数 0

回答已采纳

2回答

使用rvest进行抓取和循环的简单解决方案，将for循环的结果存储在一个变量中

、、、

我需要从3页收集链接，每个有150个链接，使用R与rvest库。我使用了一个for循环来遍历页面。我知道这是一个非常基本的问题，已经在其他地方得到了回答：R web scraping across multiple pages Scrape and Loop with Rvest我尝试了以下代码的不同版本。它们中的大多数都有效，但只返回了50个链接，而不是150个链接 library(rvest) baseurl <- "https://www.ebay.co.uk/sch/i.html?_from=R40&_nkw=chain+and+sprocket&_s

浏览 15提问于2019-10-06得票数 0

回答已采纳

2回答

+选择器小工具返回空列表

、、

我试图从维基百科表格(一个相当通用的抓取任务)中收集政治支持数据，而在选择器小工具标识的css路径上使用rvest的常规过程正在失败。 wiki页面是，css路径.jquery-tablesorter:nth-child(11) td似乎选择了页面的右边部分。有了css，我通常只需要使用rvest直接访问这些数据，如下所示： "https://en.wikipedia.org/wiki/Endorsements_for_the_Republican_Party_presidential_primaries,_2012" %>% html %>%

浏览 2提问于2015-08-24得票数 1

回答已采纳

1回答

如何正确识别特定的值以使用rvest进行解析

、

亲爱的集体智慧我正努力用rvest来解析来自的表我需要循环遍历表的所有节点并逐个提取它的值。然后迭代到下一页并重复。我打算单独读取表值，因为我需要在代码中添加一个变体循环--对于每一行，如果"Data urodzenia“列中的值等于”，则程序应该输入与该行对应的网页，然后提取其他值(标记为"Rocznik")。就目前而言，我在强迫rvest读取表中的值时遇到了困难。我想我不太遵循html选择器的想法.我能够在以下函数中使用(".museumTableRow")标记读取整个表(每页)： library(rvest) library(tidyve

浏览 6提问于2021-12-16得票数 0

回答已采纳

1回答

带有rvest的xpath失败，返回一个空列表

、

在使用"rvest“从页面提取COVID数据时，我遇到了问题：https://www.cdc.gov/coronavirus-interactive/index.html 耽误您时间，实在对不起! 下面是我的代码： library("rvest") url = "https://www.cdc.gov/coronavirus-interactive/index.html" tbl <- url %>% read_html() %>% html_nodes(xpath = '//*[@id="viz030_w

浏览 9提问于2020-04-24得票数 0

回答已采纳

7回答

如何从下载的zip文件安装软件包

我已经以压缩文件的形式下载了这个。是否可以使用此压缩或解压缩版本从R控制台将其安装到特定路径？ install.packages("C:/Users/Desktop/rvest-master.zip', lib='C:/R/R-3.2.1',repos = NULL) 我输入了前面的命令，但不起作用 > setwd("C:/Users/Desktop/") > unzip("rvest-master.zip") > file.rename("rvest-master", "rvest&#

浏览 1提问于2015-06-23得票数 22

1回答

抓取每个链接页面并将其存储为XML表

、、

你好，我刚开始使用R从互联网上抓取数据，不幸的是，我对HTML和XML知之甚少。我试图抓取以下父页面上的每个故事链接：我不关心父页面上的任何其他链接，但需要创建一个表，为网址，故事的标题列，然后为页面的完整文本(可以是几个文本段落)休息。我尝试使用rvest包，得到了urls，但真正的问题是遍历所有文章，提取文本并将所有内容存储在一个表中。对于谷歌新闻应用程序： library(rvest) url <- 'https://news.google.com/search?q=NREGA&hl=en-IN&gl=IN&ceid=IN%3Aen'

浏览 2提问于2018-06-04得票数 0

1回答

使用相同的代码为xpathSApply搜索多条路径

、、、

我在试着提取包含一首阿拉伯诗的表格。您可以在中查看这首诗我试着解析表..。 URL <- "http://www.adab.com/modules.php?name=Sh3er&doWhat=shqas&qid=65546&r=&rc=1" Data <- htmlTreeParse(URL, useInternalNodes = TRUE,encoding = "Windows-1256") Poem <- xpathSApply(Data,"//p[@class='poem']

浏览 4提问于2016-09-30得票数 1

回答已采纳

1回答

如何使用R触发文件下载

、、、

我正在尝试使用R在这个网站上触发一个文件下载：http://www.regulomedb.org。基本上，在表单中输入ID，例如rs33914668，然后单击Submit。然后在新页面中，单击左下角的download，触发文件下载。在其他帖子的帮助下，我尝试了rvest。 library(httr) library(rvest) library(tidyverse) pre_pg <- read_html("http://www.regulomedb.org") POST( url = "http://www.regulomedb.org",

浏览 15提问于2018-12-19得票数 1

1回答

如何使用R分割没有分隔符的合并/粘合单词

、、、、

我正在使用下面的代码在R中使用rvest从本文页面中抓取文本关键字： #install.packages("xml2") # required for rvest library("rvest") # for web scraping library("dplyr") # for data management #' start with get the link for the web to be scraped page <- read_html("https://www.sciencedirect.com/scien

浏览 0提问于2021-01-29得票数 0

1回答

如何在R中抓取无限滚动页面？

、、

我试图在一个网站上获取一些信息，但它有一个无限的滚动页面。rvest包是否适用于这种情况？如果是这样，我如何修改下面的代码？ library(rvest);library(dplyr) url <- "https://www.yemeksepeti.com/istanbul/burger-kadikoy-caferaga-mah-moda#ors:false" df <- read_html(url) %>% html_nodes("div.restaurant-display-name") %>% html_text() 提

浏览 0提问于2020-11-14得票数 0

1回答

在rvest/xml2 2中使用R2HTML

、、

我当时正在读博客上关于新包XML2的文章。以前，rvest依赖于XML，通过将函数组合到两个包中(至少)，它使我做了很多更容易的工作:例如，当我不能使用html (现在他们称为read_html)读取HTML页面时，我会使用XML中的htmlParse。参见作为一个示例，然后我可以在解析的页面上使用html_nodes、html_attr等rvest函数。现在，对于依赖于rvest的XML2，这是不可能的(至少在表面上是这样)。我只是想知道XML和XML2之间的基本区别是什么。除了将XML2的作者归因于我前面提到的中的作者之外，package的作者没有解释XML和XML2之间的区别。另一

浏览 0提问于2015-06-22得票数 3

回答已采纳

1回答

在R中从finviz中刮表

、、

我想从中提取季度表:损益表、资产负债表和现金流量。我对多只股票感兴趣，但要实现自动化，我必须知道如何刮掉一只股票。以下是一个例子：我们可以在页面底部看到这些表格。在这个页面上，还有其他的表格，我们可以用rvest来抓取，但是这是另一种情况，我还没有能够刮掉前面提到的表。如果有人能帮我解决这个问题，我将不胜感激。

浏览 3提问于2021-11-21得票数 3

回答已采纳

1回答

R形网刮刀

、、、、

首先，我想花点时间感谢SO社区，你曾经帮助过我很多次，而我甚至不需要创建一个帐户。我目前的问题是用R.刮网，而不是我的优点。我想放弃我试过的是： library(rvest) url <- "http://www.cbs.dtu.dk/services/SignalP/" seq <- "MTSKTCLVFFFSSLILTNFALAQDRAPHGLAYETPVAFSPSAFDFFHTQPENPDPTFNPCSESGCSPLPVAAKVQGASAKAQESDIVSISTGTRSGIEEHGVVGIIFGLAFAVMM"

浏览 3提问于2017-09-07得票数 3

回答已采纳

1回答

rvest::html_text和RSelenium::getPageSource之间有什么区别？

、、、、

我正在抓取许多网页，在那里我注意到rvest (read_html，然后是html_text)提供的不同结果，以及RSelenium (getPageSource())提供的结果。更具体地说，当涉及下拉菜单时，使用html_text只给出选项的名称，而使用RSelenium时，您可以获得一旦选择一个页面的网址。我在这里的问题是：(1)为什么有差别，区别的本质是什么？(2)是否有一种方法可以获得与RSelenium相同的源文本提取，但是使用一种更快的方法，比如rvest？我尝试过根据来自PhantomJS的建议使用webdriver (一个实现)，并且他们的getSource函数确实提供了

浏览 1提问于2019-08-06得票数 3

回答已采纳

1回答

使用rvest从CSS中刮取标题属性

、、、、

我用rvest来刮网络数据。我有来自一个网站的下列CSS代码： <abbr class="intabbr" title="2.856.890">2,9M</abbr> 我用 library(rvest) library(dplyr) n <- read_html("https://www.last.fm/de/music/Fang+Island") n %>% html_node("abbr") %>% html_text() 这给了我“2米”，但我想得到的是"2.856.890“

浏览 2提问于2017-07-27得票数 0

回答已采纳

1回答

Web-使用登录和重定向使用R和rvest/httr进行抓取

、、、

我想从网页上搜集信息。有一个登录屏幕，当我登录时，我可以访问我想要从其中抓取信息的所有类型的页面(例如播放机的姓氏，对象.lastName)。我使用的是R和软件包rvest和httr。不知怎么的，登录似乎是有效的，但我不知道如何被重定向到我需要从页面获取信息。登录表单可以在http://kickbase.sky.de/anmelden上访问，相关页面具有表单http://kickbase.sky.de/spielerprofil/player-name/number，例如http://kickbase.sky.de/spielerprofil/nadiem-amiri/1639#。这是我

浏览 0提问于2018-12-18得票数 1

回答已采纳

1回答

使用rvest从闪存页面中刮取数据

、

我正在尝试从这个页面中抓取数据：如果我试图使用css选择器和通常的rvest语法刮取播放机的名称： names <- read_html("http://www.atpworldtour.com/en/tournaments/brisbane-international-presented-by-suncorp/339/2016/match-stats/r975/f324/match-stats?") %>% html_nodes(".scoring-player-name") %>% sapply(html_text) 万事如意。不幸

浏览 2提问于2016-06-05得票数 0

回答已采纳

1回答

使用observeEvent在golem应用程序中呈现表

、、

我是新来的，所以我一直在为基本的闪亮手术而挣扎。此时，我无法根据动作按钮触发的observeEvent呈现表。当提供到google学者页面的链接时，这个模块应该用于刮除，这是任何研究员的合著者。当我点击按钮时什么都不会发生。你能帮我找出我做错了什么吗？ #' seleciona_autores UI Function #' #' @description A shiny Module. #' #' @param id,input,output,session Internal parameters for {shiny}. #' #' @

浏览 3提问于2021-11-21得票数 0

回答已采纳

1回答

如何访问使用RSelenium与rvest刮过的页面？

、、、、

我正在尝试刮一个使用angular.js的网页。我的理解是，R中唯一的选项是首先使用RSelenium加载页面，然后解析内容。但是，我发现rvest比RSelenium更直观地解析内容，因此我希望尽可能少地使用RSelenium，然后尽快切换到rvest。到目前为止，我已经意识到，我可能至少需要使用RSelenium来使用htmlTreeParse连接和下载html代码。假设这是我输出的一部分： structure(list(name = "div", attributes = structure(c("im_dialog_date", "dialo

浏览 2提问于2017-09-03得票数 0

回答已采纳

1回答

Rvest:使用css选择器从URL中的不同选项卡中提取数据

、、

我是一个非常新的抓取，并试图从这个网站的一部分- 的数据。我试图获取的数据在第二个选项卡“匹配”中，是标题为“即将到来的比赛”的部分。我试着用SelectorGadget和rvest来做这件事，如下所示- library(rvest) url <- ("https://projects.fivethirtyeight.com/soccer-predictions/premier-league/") url %>% html_nodes(".prob, .name") %>% html_text() 这将返回值，无论该值与页面上的第

浏览 7提问于2022-03-17得票数 0

回答已采纳

1回答

在<a rel=中提取链接的rvest ...href=>

、、、、

我正在尝试使用rvest包来抓取嵌入在页面上的链接列表。在我使用这样的东西之前： library(rvest) page <- read_html("link") page %>% html_nodes('{a href}') %>% html_attr('href') 但是，这只给了我与<a href="https://www.abcefg.com">Here</a>相关的链接，而不是这个链接<a rel="external nofollow noopener" h

浏览 1提问于2020-11-04得票数 0

1回答

在R中刮取HTML文本的某一部分

、、

我试图刮一个国家气象局的网页，只取一部分文本，并将其变成R中的字符对象，这将是一个小段落，如NWS页面所示。(见下文) 我一直在用rvest包抓取网页，并尝试了一些XML包的代码。这是我的代码，其中包含了天气服务URL。 weather_con <- read_html("http://forecast.weather.gov/product.php?site=TWC&issuedby=TWC&product=AFD&format=txt&version=1&glossary=1") weather_con <- weat

浏览 5提问于2017-05-24得票数 1

回答已采纳

1回答

从Javascript弹出窗口中使用R抓取数据

、、

我想从这个站点上抓取名为" Constraints“的弹出窗口的内容： (单击左侧的Constraints链接后会显示弹出窗口)。我需要获得如下所示的约束、意外情况和影子价格数据。使用SelectorGadget，我将该信息标识为"#frmConstraints\:tblConstraints_data .col-left“ 我可以在这里看到我想要的信息(带有类“col-left”的信息)：我运行了这个R代码，但没有用。const_info未返回任何内容。 library(rvest) library(stringr) library(plyr) libra

浏览 0提问于2018-02-28得票数 1

2回答

与本地主机连接

、、

我正在创建一种将SPSS标签读入R中的方法。使用库(SjPlot)，view_spss(df，useViewer = FALSE)，我可以创建一个本地html页面，比如，它显示了一个很好的表，其中包含变量名和我要寻找的标签的列。现在，我想使用rvest来刮掉它，但是当我开始使用像page <- rvest::html("http://localhost:11773/session/file1e0c67270a5.html") R这样的命令时，它似乎被卡住了。我尝试过搜索“连接本地主机”，但我似乎找不到任何与R包相关的问题或答案。

浏览 14提问于2015-06-12得票数 2

回答已采纳

1回答

如何使用R中的WikipediR包从维基百科页面中获取数据？

、、

我需要从多个维基百科页面中获取一部分数据。我怎样才能使用WikipediR包做到这一点？或者还有其他更好的选择。准确地说，我只需要从所有的页面标记以下部分。我怎么能拿到呢？任何帮助都将不胜感激。

浏览 2提问于2015-07-10得票数 1

回答已采纳

1回答

从使用JSON的网站解析数据表

、、、

我试图解析来自明尼苏达DNR页面的数据，它说他们正在使用JSON。我想构建一个脚本从许多不同的页面下载数据表，但我首先要关注的是一个。我尝试过rvest、JSONIO和许多其他软件包，但都没有效果。我遇到的最令人沮丧的错误是： UseMethod中的错误(“xml_find_first”)：没有适用于类“列表”对象的“xml_find_first”方法这是我的代码： library(rvest) kk<-read_html("http://www.dnr.state.mn.us/lakefind/showreport.html?downum=56003100"

浏览 0提问于2017-03-03得票数 0

回答已采纳

1回答

用R实现多个页面循环的with抓取

我试图在网络上搜索维也纳房地产的位置，因为其中一个页面正在运行，但多个页面却没有： library(rvest) library(dplyr) link <- "https://www.immobilienscout24.at/regional/wien/wien/immobilie-kaufen/seite-4" page <- read_html(link) location <- page %>% html_elements(".YqNih") %>% html_text() flat <- data.frame(

浏览 3提问于2022-02-02得票数 1

回答已采纳

1回答

尝试使用rvest和V8抓取呈现javascript的网页时出现c++异常

、、、

我想要抓取一个javascript渲染的网页，这样rvest本身就不能完成我想要的工作。我熟悉RSelenium，但我不想使用它来完成这项任务，因为我想抓取多个页面，而且这需要时间。我不熟悉V8，但我使用页面作为指南来编写这段代码。 library(rvest) library(V8) ctx <- v8() link <- "https://www.pff.com/nfl/players/Drew-Bledsoe/36" link %>% read_html() %>% html_nodes('script') %>

浏览 0提问于2021-03-12得票数 0

1回答

使用rvest跟踪具有相对路径的"next“链接

、、、

我正在使用rvest包从页面中抓取信息。在抓取第一页后，我想遵循底部的“下一步”链接，刮掉第二页，移动到第三页，等等。下面的行给出一个错误： html_session("http://www.radiolab.org/series/podcasts") %>% follow_link("Next") ## Navigating to ## ## ./2/ ## Error in parseURI(u) : cannot parse URI ## ## ./2/ 检查HTML显示，"./2/“

浏览 2提问于2015-01-07得票数 7

1回答

RVest1.0.0-最新更新不兼容

、、、、

的目标：登录到一个使用rvest的网站。问题：我的代码不再适用于rvest (版本1.0.0)。什么起作用了:使用以前版本的rvest的代码(版本0.3.6)： rg.headers <- c('User-Agent' = 'Mozilla/5.0') rg.url <- "https://rotogrinders.com/" rg.session <- html_session(rg.url, httr::add_headers(.headers=rg.headers)) rg.session <- rvest:::

浏览 1提问于2021-03-30得票数 2

回答已采纳