使用Rvest抓取文本、表格，并从多个页面中组合这两者_从多个页面中抓取表格并从链接中添加数据 - 腾讯云开发者社区

r、css-selectors、rvest

你好，我刚开始使用R从互联网上抓取数据，不幸的是，我对HTML和XML知之甚少。我试图抓取以下父页面上的每个故事链接：我不关心父页面上的任何其他链接，但需要创建一个表，为网址，故事的标题列，然后为页面的完整文本(可以是几个文本段落)休息。我尝试使用rvest包，得到了urls，但真正的问题是遍历所有文章，提取文本并将所有内容存储在一个表中。对于谷歌新闻应用程序： library(rvest) url <- 'https://news.google.com/search?q=NREGA&hl=en-IN&gl=IN&ceid=IN%3Aen'

浏览 2提问于2018-06-04得票数 0

1回答

在R中从finviz中刮表

javascript、r、web-scraping

我想从中提取季度表:损益表、资产负债表和现金流量。我对多只股票感兴趣，但要实现自动化，我必须知道如何刮掉一只股票。以下是一个例子：我们可以在页面底部看到这些表格。在这个页面上，还有其他的表格，我们可以用rvest来抓取，但是这是另一种情况，我还没有能够刮掉前面提到的表。如果有人能帮我解决这个问题，我将不胜感激。

浏览 3提问于2021-11-21得票数 3

回答已采纳

1回答

通过一列url编写一个循环到read_html

r、rvest

我正在使用rvest从美国证券交易委员会( and )获取一些公司文件。从一家特定的公司开始，我成功地提取了他们10k个文档中每个文档的URL，并将这些URL放在一个名为xcel的数据框中。然后我想进一步抓取这些URL中的每一个。我认为使用for循环遍历xcel$fullurl列中的每个URL、对每个URL使用read_html函数并提取每个页面上的表是最有意义的。我在运行实际的for循环时遇到了问题。如果你认为for循环不合适，我很想听听其他的建议。 library(rvest) library(stringi) sec<-read_html("https://www.

浏览 16提问于2019-04-14得票数 0

回答已采纳

1回答

如何将最优惠产出转化为表

r、web-scraping、rvest、tabular

全新的R，所以我会尽我最大的努力来解释这一点。我一直在玩数据抓取使用"rvest“包。在这个例子中，我从维基百科上的一个表格中抓取了美国的州人口。我使用的代码是： library(rvest) statepop = read_html("https://en.wikipedia.org/wiki/List_of_U.S._states_and_territories_by_population") forecasthtml = html_nodes(statepop, "td") forecasttext = html_text(forecasthtml

浏览 6提问于2017-02-17得票数 0

2回答

数据-锚文本-Web-抓取相关问题

html、r、web-scraping、rvest

我正在尝试从这个页面中抓取：我需要刮更多类似于这个页面，但模式是不一样的。我可以通过这个xpath - //*[@id="articleText"]/div[1]刮取文本，但实际上我想从div- class="articleSection"；数据锚名" text“中刮取文本。 div号在链接上改变，但是模式数据-锚名"Text"，不行。我包括这张图片是为了给出一些背景： R码： library(dplyr) library(rvest) article <- "https://www.scielo.br/j/

浏览 5提问于2021-08-27得票数 0

回答已采纳

1回答

网络抓取，选择器小工具和rvest的麻烦

r、web-scraping、rvest

我对网络抓取相当陌生，目前正在努力浏览下一页的表格：我测试了从表外的网站上抓取文本，这没有问题，但是当我试图刮表的一列时，它只返回输出“字符(0)”。我使用选择器小工具来识别特定的CSS选择器。后来我试了一下： library(rvest) library(dplyr) url <- "https://www.ggesports.com/en-us/stats/lol/global/Team" Stats <- read_html(url) Name <- hot100 %>% rvest::html_nodes('body&#

浏览 4提问于2021-07-18得票数 0

回答已采纳

1回答

使用rvest抓取名称相似的表

r、xpath、web-scraping、rvest

我正在尝试使用rvest从fbref.com上的不同页面抓取数据表。我已经能够使用以下命令从一个页面中抓取数据： library(rvest) URL <- "https://fbref.com/en/squads/822bd0ba/Liverpool" WS <- read_html(URL) passStats <- WS %>% rvest::html_nodes(xpath = '//*[(@id = "ks_sched_all")]') %>% rvest::html_table() %>% data

浏览 5提问于2020-06-02得票数 1

回答已采纳

2回答

+选择器小工具返回空列表

r、web-scraping、rvest

我试图从维基百科表格(一个相当通用的抓取任务)中收集政治支持数据，而在选择器小工具标识的css路径上使用rvest的常规过程正在失败。 wiki页面是，css路径.jquery-tablesorter:nth-child(11) td似乎选择了页面的右边部分。有了css，我通常只需要使用rvest直接访问这些数据，如下所示： "https://en.wikipedia.org/wiki/Endorsements_for_the_Republican_Party_presidential_primaries,_2012" %>% html %>%

浏览 2提问于2015-08-24得票数 1

回答已采纳

1回答

使用R或数据挖掘工具从在线服装网站抓取图像URL

r、rvest

我想从'‘网站抓取图像URL。总共有9个页面，所以我想从所有页面抓取图像，还想下载带有图像名称的网址。我试过这段代码： library(rvest) url <- "https://www.raworange.com/collections/all-clothing" imgsrc <- read_html(url) %>% html_node(xpath = '#bc-sf-filter-products img') %>% html_attr('src') imgsrc download.file(pa

浏览 0提问于2018-05-02得票数 1

3回答

在R中抓取篮球-reference.com (XML包不能完全工作)

xml、r、screen-scraping

我已经在R中使用"readHTMLtable“使用XML包抓取了篮球-ref的多个页面，没有任何问题，但现在我有了一个。当我尝试抓取玩家页面的拆分部分时，它只返回表格的第一行，而不是全部。例如： URL="http://www.basketball-reference.com/players/j/jamesle01/splits/" tablefromURL = readHTMLTable(URL) table = tablefromURL[[1]] 这使我在表中只有一行，即第一行。不过，我想要所有的行。我认为问题在于表中有多个标题，但我不确定如何解决这个问题。谢谢

浏览 1提问于2015-01-08得票数 2

1回答

用rvest网络抓取嵌入式桌面

r、rvest

我正在学习如何使用rvest和R进行网络抓取，并且我想提取嵌入在以下网站中的表格：如果你在中间滚动，你会看到一张嵌入了星巴克商店和它们的工会状态的表格。当我使用CSS选择器工具并突出显示表主体时，我会得到代码"td"。然而，当我使用下面的rvest代码时，我会得到： {xml_nodeset (0)} 我还使用了检查功能来查看表名(下面)，并得到了相同的错误。 "table#wpgmza_table_1.responsive.wpgmza_table.dataTable.no-footer.dtr-inline.collapsed" 有人能帮我把那张表提

浏览 3提问于2022-05-21得票数 0

回答已采纳

1回答

rvest是否可以使用html_table保持内联html标记，如<br>？

html、r、rvest

我试图在R中抓取一个表格，这个表格是以html形式给我的。Rvest在获取表中的所有文本方面非常有用，但我希望保留其HTML表单中的内联样式。例如，表中的文本可能是 "This is a sentence <BR> this is another sentence" 我想保留BR 我试着读完整张表： my_table <- my_table_html %>% html_nodes("table") %>% html_table(fill=TRUE) 我还尝试在表中选择特定的列： my_column <- my_tabl

浏览 0提问于2015-06-19得票数 9

1回答

在Wiki的网球桌上使用Rvest进行Web抓取

r、web-scraping、rvest

我在这里，完全是一个R的初学者，我正在努力学习更多关于rvest的知识和如何从网络上抓取。这是维基页面()，下面是我想转移到R的表格。使用CSS Selector，我发现特定的表在".wikitable“上。在其他网页上的一些教程之后，下面是我使用的代码： library(rvest) tennis <- read_html("https://en.wikipedia.org/wiki/Andy_Murray") trial <- tennis %>% html_nodes(".wikitable") %>% html

浏览 2提问于2016-08-19得票数 2

回答已采纳

1回答

从网页中获取内部信息的r中使用的web抓取

我在将rvest/XML包加载到R时遇到了困难，并且无法处理代码。我应该如何使用rvest进行网络抓取？如何从网页"“中读取表格？ library(rvest) forbs <- readHTMLTable("https://www.forbes.com/powerful-brands/list/") head(forbs) View(forbs) 它显示的错误就像 forbs1 1<-html_text(“#list_table”)在UseMethod("xml_text")中的错误:不适用于类“字符”对象的“xml_text”方法

浏览 2提问于2019-04-05得票数 1

1回答

使用R抓取包含Ajax表的网站

ajax、web-crawler、rstudio、rvest

我是R的新手，一直在尝试抓取这个网站：我试图获得表格中所有项目的列表，包括指向“查看”按钮的url，但一直失败得很糟糕。单击表单下方的搜索按钮后，将显示该表。到目前为止，我已经尝试使用Rvest，但没有成功，因为我似乎找不到url或分页更改变量来尝试爬行站点上的表。有没有办法搜索表中的所有788个项目？我是否应该使用其他工具或Rselenium？

浏览 1提问于2018-07-16得票数 1

1回答

在R中刮取HTML文本的某一部分

r、xml、rvest

我试图刮一个国家气象局的网页，只取一部分文本，并将其变成R中的字符对象，这将是一个小段落，如NWS页面所示。(见下文) 我一直在用rvest包抓取网页，并尝试了一些XML包的代码。这是我的代码，其中包含了天气服务URL。 weather_con <- read_html("http://forecast.weather.gov/product.php?site=TWC&issuedby=TWC&product=AFD&format=txt&version=1&glossary=1") weather_con <- weat

浏览 5提问于2017-05-24得票数 1

回答已采纳

1回答

使用R rvest对表进行with抓取

r、web-scraping、rvest

作为自学rvest的一个例子，我试图抓取一个网站来抓取已经以表格格式编写的数据。唯一的问题是我不能得到底层表格数据的输出。我唯一真正需要的是player专栏。 library(tidyverse) library(rvest) base <- "https://www.milb.com/stats/" base2 <- "?page=" base3 <- "&playerPool=ALL" html <- read_html(paste0(base,"pacific-coast/",

浏览 8提问于2021-06-25得票数 0

1回答

Rvest:使用css选择器从URL中的不同选项卡中提取数据

r、web-scraping、rvest

我是一个非常新的抓取，并试图从这个网站的一部分- 的数据。我试图获取的数据在第二个选项卡“匹配”中，是标题为“即将到来的比赛”的部分。我试着用SelectorGadget和rvest来做这件事，如下所示- library(rvest) url <- ("https://projects.fivethirtyeight.com/soccer-predictions/premier-league/") url %>% html_nodes(".prob, .name") %>% html_text() 这将返回值，无论该值与页面上的第

浏览 7提问于2022-03-17得票数 0

回答已采纳

1回答

尝试从网站抓取表格时，rvest返回空列表

html、database、web-scraping、rvest、empty-list

我正在尝试从这个网站抓取表格，rvest返回空列表。它适用于其他网站。问题可能是什么？谢谢, library(rvest) urlONGov <- "https://www.ontario.ca/page/2019-novel-coronavirus" ONGov <- urlONGov %>% xml2::read_html() %>% html_nodes(xpath='//*[@id="pagebody"]/table[1]') %>% html_table() ONGov

浏览 23提问于2020-03-26得票数 0

1回答

从R中的HTML中刮取类似表格的索引

html、r、rvest、scrape

我目前正致力于从ICPSR的路径调查数据中抓取表，该表包含变量ID、问题文本、变量类型和原始数据集。我的最终目标是通过在R中抓取这些信息来创建一个包含变量it及其相应的问题文本的电子表格库存矩阵，但是我很难让它正常工作。简单地说，，，我的目标是将上面的url中显示的表放入电子表格中。我尝试过使用rvest、XML和许多其他包/策略(read.table、htmltab、htmltable等)，但如果愿意的话，底层表似乎不是一个类似于表的对象。因此，我很难找到一个资源/前面的问题，它可以帮助刮掉一个表，这个表的结构不一定是一个表，但它确实是一个直观的表。如果能在这方面提供任何帮助，将不胜感激

浏览 1提问于2021-08-13得票数 0

回答已采纳

1回答

从coinmarketcap中抓取历史数据

r、web-scraping、tidyverse、rvest

我一般不会从web上抓取表格，但由于某些原因，当我试图从下一页抓取历史数据时，我无法选择想要的表格。这是链接和我的代码 library(tidyverse) library(rvest) url <-read_html("https://coinmarketcap.com/currencies/bitcoin/historical-data/") table <- url %>% html_table() %>% .[[1]] %>% as.data.frame() 谢谢

浏览 85提问于2020-11-10得票数 1

回答已采纳

1回答

在R中使用rvest进行网络抓取

我想抓取这个页面，但是，它返回了一个空的数据框，有没有办法去抓取这个页面呢？ # Test library(rvest) library(dplyr) link <- "https://www.sreality.cz/hledani/prodej/byty/brno" page <- read_html(link) name <- page %>% html_elements("name ng-binding") %>% html_text() price <- page %>% html_elements(

浏览 4提问于2021-11-15得票数 0

回答已采纳

1回答

R:使用rvest从FIFA抓取表时出现的问题

r、web-scraping、dplyr、rvest

我试图从过去30年中至少参加过一次世界杯的每一支球队中收集数据。我对如何使用R包rvest从web上抓取表格和其他东西的知识充其量也是最基本的。目前，我的代码看起来像这样 library(rvest) library(dplyr) fifadata <- read_html("http://www.fifa.com/fifa-tournaments/teams/association=BRA/index.html") fifa_data_html <- html_nodes(fifadata, xpath='/html/bod

浏览 1提问于2017-11-22得票数 0

1回答

对没有html类的表进行with抓取

r、web-scraping、rvest

我探索了the抓取一些天气数据，特别是这个页面右侧面板上的表格我可以导航到适当的位置(见下文)，但还不能拉出表格，例如html_nodes("table")。 library(tidyverse) library(rvest) url<- read_html("https://wrcc.dri.edu/cgi-bin/cliMAIN.pl?ak4988") url %>% html_nodes("frame") %>% magrittr::extract2(2) # {html_n

浏览 2提问于2019-12-21得票数 0

1回答

使用rvest从闪存页面中刮取数据

r、rvest

我正在尝试从这个页面中抓取数据：如果我试图使用css选择器和通常的rvest语法刮取播放机的名称： names <- read_html("http://www.atpworldtour.com/en/tournaments/brisbane-international-presented-by-suncorp/339/2016/match-stats/r975/f324/match-stats?") %>% html_nodes(".scoring-player-name") %>% sapply(html_text) 万事如意。不幸

浏览 2提问于2016-06-05得票数 0

回答已采纳

2回答

在R中从Wikipedia中抓取多个表

r、web-scraping、tidyverse、rvest

我正在尝试使用R中的rvest库来抓取这个Wiki页面的内容。 () 我想提取4个表格，其中包含2019年宝莱坞电影wrt发行的数据(1月至3月、4月至6月、7月至9月、10月至12月)。已经做了 library(rvest) url <- "https://en.wikipedia.org/wiki/List_of_Bollywood_films_of_2019" webpage <- read_html(url) tbls <- html_nodes(webpage, "table") #Then I match with the wo

浏览 2提问于2019-12-31得票数 2

回答已采纳

1回答

and抓取选择器小工具和rvest的问题

r、web-scraping、screen-scraping、rvest

我正在尝试使用SelectorGadget和rvest从https://3g.dxy.cn/newh5/view/pneumonia中抓取数据我用下面的代码成功地抓取了页面中的一些文本。 library(rvest) url <- 'https://3g.dxy.cn/newh5/view/pneumonia' webpage <- read_html(url) TEXT_html <- html_nodes(webpage,'.descText___Ui3tV') TEXT <- html_text(

浏览 16提问于2020-01-28得票数 1

回答已采纳

2回答

rvest返回NA

r、rvest

我正在使用"rvest“进行网页抓取，但我无法从页面提取模型的价格:- 。我需要从页面中提取"$720.00“。我的代码是： library(rvest) data<-read_html("https://www.motorola.com/us/products/moto-z-force-droid-edition") price<-data%>% html_nodes(".price-amount")%>% html_text() print(price) 我不断地从价格中得到字符(0)。请帮帮忙。

浏览 16提问于2017-01-26得票数 1

1回答

使用Rvest和Selector Gadget时遇到问题(新程序员需要帮助)

html、web-scraping、css-selectors、rvest

我正在尝试尽可能多地使用互联网学习，但我到处都在试图弄清楚这一点。我正在使用rvest和Selector Gadget从一个允许抓取(linecombinations.com)的网站上的表格中抓取数据。我在这上面花了几天时间，这就是我现在所处的位置。会更喜欢一些教育而不是一个具体的解决方案。谢谢! install.packages("rvest") install.packages("dplr") install.packages("stringr") install.packages("magrittr") library(

浏览 38提问于2019-09-27得票数 1

1回答

响应使用效果/组件-Did装入与状态钩子+函数

reactjs

在我看来，可以用状态挂钩和函数组件替换useEffect/ComponentDid悬置。例如，如果我想在useEffect或componentDidMount中进行提取，我可以简单地创建一个函数组件来呈现所需的抓取，在函数中添加抓取方法(该方法将在呈现时执行)来修改状态挂钩(这样，一旦数据到达，页面将与数据一起重新呈现)。由于function具有选择性呈现，因此函数组件中任何其他被更新的部分都不会导致不必要的提取。我说得对吗？是否还有任何其他特定的实例可以使useEffect/componentDidMount严格地更好呢？

浏览 1提问于2022-01-23得票数 -2

1回答

在R中从HTML中抓取实时更新值

r、rvest

我正在尝试从这样的页面中抓取值: R中的，目前正在使用rvest。具体来说，我要的是当前的价格和隐含的波动性。使用SelectorGadget工具，我能够找到这些值所需的节点。使用以下方法，我能够得到隐含的波动率： library(rvest) html <- read_html("https://www.barchart.com/futures/quotes/CBX22/options/nov-22") html_text(html_nodes(html, '.text-medium-up-center strong')) [1] "43.

浏览 3提问于2022-09-19得票数 0

回答已采纳

1回答

在SelectorGadget不适用的情况下抓取数据表的标题数据？(抓取基本面)

r、rvest

这两个页面具有相同的数据表(一个用作备份，如果另一个关闭)。我可以从library(XML)的readHTMLTable()中获取每个页面的表中的列数据，但无法获得表的标题。我所需要的只是日期-年份时间戳(目前是August 2019)，以分配给数据。在我所做的一些小的抓取中，在其他类似的页面上，我已经使用SelectorGadget (https://selectorgadget.com/) Chrome扩展通过输入library(rvest)的html_text()参数来识别要抓取的节点，但是SelectorGadget似乎在这两种情况下都不起作用，所以我对另一种方法一无所知。关于如何

浏览 23提问于2019-09-03得票数 0

回答已采纳

1回答

使用rvest抓取HTML data.table

r、rvest

我正在尝试使用R rvest包从中抓取“鱼肉样本”表数据。我使用chrome扩展SelectorGadget来查找表的xpath。我无法从网页中获取任何表格数据到R.非常感谢您的帮助。 library(rvest) urllakes<- read_html("http://www.dnr.state.mn.us/lakefind/showreport.html? downum=27011700") lakesnodes <- html_nodes(urllakes,xpath = '//*[(@id = "lake-survey")]&#

浏览 1提问于2017-10-01得票数 0

回答已采纳

2回答

在使用rvest抓取时缺少值的地方输入NA

r、rvest、tibble

我想使用rvest来抓取一个页面，该页面包含最近一次会议上的演讲的标题和运行时间，然后将这些值组合到一个tibble中 library(tibble) library(rvest) url <- "https://channel9.msdn.com/Events/useR-international-R-User-conferences/useR-International-R-User-2017-Conference?sort=status&direction=desc&page=14" title <- page %>%

浏览 41提问于2017-08-27得票数 2

回答已采纳

1回答

当有一个下拉框时刮擦

r、rvest

我试图从以下网站抓取数据：我可以使用以下代码干净地刮第一个代码： require(xml2) require(rvest) require(janitor) require(tidyverse) link <- "https://electproject.github.io/Early-Vote-2020G/SC.html" raw_webpage <- read_html(link) html_table(raw_webpage, fill = TRUE)[[1]] 然而，页面中包含县级信息的第二个表格让我感到困惑。有人知道如何在r中刮擦吗？在Show En

浏览 1提问于2020-10-27得票数 1

回答已采纳

2回答

用rvest进行网刮:用NA替换缺少的html_nodes值

r、web-scraping、nested-lists、rvest

我抓取页面以获得(1)名称，(2)角色/编辑标题，(3)列出的每个人的机构联系。问题是有些人没有机构联系。我想用NA替换这些缺失的值，但我的尝试都没有奏效。我很感谢你的帮助！到目前为止，我的代码如下： journal_url <- "https://www.journals.elsevier.com/academic-pediatrics/editorial-board" webpage <- xml2::read_html(journal_url) webpage <- rvest::html_nodes(webpage,

浏览 1提问于2020-12-14得票数 0

回答已采纳

1回答

如何使用R分割没有分隔符的合并/粘合单词

r、text-mining、gsub、rvest、strsplit

我正在使用下面的代码在R中使用rvest从本文页面中抓取文本关键字： #install.packages("xml2") # required for rvest library("rvest") # for web scraping library("dplyr") # for data management #' start with get the link for the web to be scraped page <- read_html("https://www.sciencedirect.com/scien

浏览 0提问于2021-01-29得票数 0

1回答

抓取维基(不是维基百科) infobox

r、web-scraping、rvest、wiki

我可以使用rvest在任何维基百科网站上抓取信息箱，但我想在维基页面上做同样的事情，但不能让它工作…… 链接：https://dc.fandom.com/wiki/Wonder_Woman_(Diana_Prince)页面上的infobox (看起来像一个普通的维基百科表格) CSS选择器显示为“.pi-https://dc.fandom.com/wiki/Wonder_Woman_(Diana_Prince)-default” 我想要一个包含真实姓名，别名等的数据框。你知道该怎么做吗？

浏览 23提问于2019-03-12得票数 1

回答已采纳

1回答

R:发布搜索表单和抓取结果

r、rcurl

我是一个网络抓取的初学者，我还不熟悉我试图解决的问题的命名。尽管如此，我已经详尽地寻找了这个特定的问题，但没有成功地找到解决方案。如果它已经在其他地方，我提前道歉，并感谢您的建议。开始吧。我正在尝试使用R构建一个脚本，它将：在报纸网站中搜索特定关键字；为我提供所需数量的结果/页面的标题、日期和内容。我已经知道如何发布表单以进行搜索，并从第一页抓取结果，但到目前为止，我还没有成功地从下一页获得内容。老实说，我甚至不知道从哪里开始(我读过关于RCurl等等的东西，但对我来说仍然没有太大的意义)。下面，它遵循了我到目前为止编写的代码的一部分样本(为了简单起见，只抓取了第一页的标题)。 cur

浏览 0提问于2014-08-03得票数 0

1回答

在多个页面中抓取一个web表(缺少一些行)

r、web-scraping、html-table、rvest、rselenium

我想使用从rvest中抓取一个表格(包含关于31,385名士兵的信息)。 library(rvest) library(dplyr) page <- read_html(x = "https://irelandsgreatwardead.ie/the-archive/") table <- page %>% html_nodes("table") %>% html_table(fill = TRUE) %>% as.data.frame() 这是可行的，但只适用于前10名士

浏览 9提问于2021-11-20得票数 1

回答已采纳

1回答

使用R从网站中的表中抓取数据

css、r、web-scraping

我正在尝试学习R中的web抓取，并且尝试从下面的链接中从各种表中抓取数据。在页面的底部，有几张表格列出了不同的菜系，我想单独读一读。我尝试使用css-选择器，但我认为我使用它们是错误的，下面是我的代码片段： require(rvest) require(magrittr) connection = html_session("https://en.wikipedia.org/wiki/List_of_cuisines") connection %>% html_nodes("table:nth-child(1) a") %>% html_text()

浏览 3提问于2015-10-19得票数 0

回答已采纳

2回答

通过循环rvest::follow_link()函数来抓取链接的HTML网页

r、web-scraping、rvest

我如何循环rvest::follow_link()函数来抓取链接的网页？用例：识别所有乐高电影演员跟随所有乐高电影演员会员连结为所有演员抓取一张每部电影(+年)的表格我所需的选择器如下： library(rvest) lego_movie <- html("http://www.imdb.com/title/tt1490017/") lego_movie <- lego_movie %>% html_nodes(".itemprop , .character a") %>% html_text()

浏览 2提问于2015-03-04得票数 4

2回答

使用rvest进行Tripadvisor评级的Web抓取

r、web-scraping、rvest

? 我正在尝试使用rvest (R编程)抓取tripadvisor的评论(评级服务、价值、位置)，但我无法这样做。 library(tidyverse) library(rvest) url <- "https://www.tripadvisor.com.sg/Hotel_Review-g294265-d1770798-Reviews-or5-Marina_Bay_Sands-Singapore.html#REVIEWS" reviews <- read_html(url) %>% html_nodes(".ui_bubble_ratin

浏览 25提问于2019-12-10得票数 1

1回答

选择器不更新URL时抓取网页

html、r、web-scraping

我正在尝试抓取给定区域和时间的网页(https://nc.211counts.org) (例如，“Onslow”，“昨天”)。我想从左上角的表格中提取所有信息(COVID、住房等通过其他)。不幸的是，当选择过滤器时，URL不会更新。我一直在遵循教程here，但找不到一种方法来拉入我需要抓取的区域名称的位置。由于html_nodes函数返回为空，因此我认为映射是关闭的。这里我漏掉了什么？ # docker run -d -p 4445:4444 selenium/standalone-chrome # docker ps remDr <- RSelenium::remoteDrive

浏览 11提问于2020-04-18得票数 2

回答已采纳

1回答

R-自动网页文本刮除

r、web-scraping、rvest、scrape

我正在尝试使用rvest自动从网站中抓取文本，但是当我尝试一个循环从向量：book.titles.urls读取网页urls时，我会发现下面的错误。但是，当我试图从单个页面(没有循环)中抓取想要的文本时，它工作得很好：工作代码 library(rvest) library(tidyverse) #Paste URL to be read by read_html function lex.url <- 'https://fab.lexile.com/search/results?keyword=The+True+Story+of+the+Three+Little+Pigs

浏览 1提问于2018-08-10得票数 2

回答已采纳

1回答

利用rvest从Facebook上抓取图像src

r、facebook、facebook-graph-api、rvest

我使用rvest包来抓取Facebook的帖子并提取img src url。 library(rvest) UrlPage <- read_html ("https://www.facebook.com/AmazonIN/photos/a.142199085973905.1073741828.100281786832302/458742987652845/?type=3") UrlPage %>% html_node("#fbPhotoImage") 错误:没有匹配 rvest软件包适用于其他网站，但似乎与Facebook有一些问题。有没有

浏览 4提问于2016-01-08得票数 0

1回答

维基百科.抓取:处理内联参考编号

r、rvest

当我用rvest抓取维基百科的表格时，我很难找到小的内嵌参考数字。它们似乎包含在一个名为"sup“的类中，但我在刮擦过程中不能删除它们。 library(rvest) library(tidyverse) read_html("https://de.wikipedia.org/wiki/Ergebnisse_der_Landtagswahlen_in_der_Bundesrepublik_Deutschland") %>% html_nodes(xpath = '//*[@id="mw-content-text"]/d

浏览 0提问于2018-04-13得票数 2

回答已采纳

1回答

在R中的URL列表上运行html解析函数

html、r、xml、web-scraping、supervised-learning

因此，我有一个新闻文章URL的列表/df，我从一个地方政府机构的“新闻档案”中抓取了大约5000条。我编写了以下函数，使用rvest来刮除文章的标题、正文和发表日期，下面将包括以下内容： get_title <- function(url){ html <- read_html(url) html %>% rvest::html_nodes('body') %>% xml2::xml_find_first("//div[contains(@class, 'page-header col-xs-12')

浏览 1提问于2020-03-21得票数 0

1回答

可以从网站的robots.txt文件中爬行/提取一行吗？

r、rvest

我有一个网站，我想抓取在根文件夹中存在的机器人文件。在这里，我想抓取一个特定的行，例如，第3行，并提取该值，以检查它是否包含不允许的内容。在RVest中可以这样做吗？我还想按预定的频率自动爬行这个页面。

浏览 3提问于2021-06-16得票数 0

回答已采纳

1回答

使用rvest抓取html -获取http错误416

html、r、scrape、rvest

我正在尝试使用R (package rvest)来抓取这个页面的HTML，但是我得到了“客户端错误416:请求的范围不满足” 经过长时间的搜索，我似乎找不到解决方案。它在尝试使用rvest的html函数时抛出错误，该函数解析HTML页面： url <- "http://shop.tcgplayer.com/magic/onslaught/polluted-delta" html(url) 我使用的是R版本3.2.0。任何帮助都将不胜感激！

浏览 0提问于2015-06-28得票数 3