使用R抓取文本的html_nodes_文本挖掘抓取的数据(%R)_在R中使用rvest时替换缺少的html_nodes - 腾讯云开发者社区

、

我想从R中的中抓取报告，所有的工作都与我的以下代码很好，此外，一些报告包含一个嵌入在报告下的元素，这是报告文本的CSS节点的一部分。例如，有一个嵌入的文本"How to get a LPG gas connection“。因此，我最终得到了不同页面的不同长度的字符向量，这取决于具有嵌入元素的报表的数量。我的问题是，如何删除节点的这个特定元素，而只抓取报告的文本 SelectorGadget告诉我这个节点可以用"em“来调用。因此，我尝试了以下方法： #DO NOT RUN scraper <- function(pages){ bribe <- read_htm

浏览 0提问于2020-01-10得票数 0

1回答

Rvest html_nodes span div和Xpath

、、

我试图通过读取XPath代码来抓取网站。当我进入开发人员部分时，我看到了这些行： <span class="js-bestRate-show" data-crid="11232895" data-id="928723" data-abc="0602524361510" data-referecenceta="44205406" data-catalog="1"> 我想要抓取data-abc的所有值。假设站点上的每个元素都是一部电影，所以我想抓取页面上每部电影的所有数据-abc元素。我想

浏览 16提问于2018-02-06得票数 1

回答已采纳

1回答

在R中抓取BigFuture时出现问题

、、

我正在尝试使用rvest抓取以获得到学院的链接(CSS选择器显示为rvest和国际学生部分的一些文本(可以通过侧边栏访问)。无论我怎么尝试，html_nodes()都无法将此信息读入R。我尝试使用chrome中的开发人员工具选项来获取信息，但即使这样也不起作用。我遗漏了什么？ base_url = "https://bigfuture.collegeboard.org/college-university-search/princeton-university" page = read_html(base_url) page %>% html_nodes("#

浏览 2提问于2018-04-06得票数 0

1回答

R web抓取:我不能拉出我想要的元素

、、、

我是一个使用R进行网页抓取的初学者。我正在尝试抓取以下网页：。我想用class="company_name"获取div节点下的所有文本元素，以及td节点下的文本元素。例如，我正在尝试获取以下HTML文本中的公司名称("MOMO APPARELS")。 <div class="comapny_header"> <div class="company_name">MOMO APPARELS LTD</div> <div class="view_all">

浏览 5提问于2021-02-22得票数 1

回答已采纳

1回答

rvest是否可以使用html_table保持内联html标记，如<br>？

、、

我试图在R中抓取一个表格，这个表格是以html形式给我的。Rvest在获取表中的所有文本方面非常有用，但我希望保留其HTML表单中的内联样式。例如，表中的文本可能是 "This is a sentence <BR> this is another sentence" 我想保留BR 我试着读完整张表： my_table <- my_table_html %>% html_nodes("table") %>% html_table(fill=TRUE) 我还尝试在表中选择特定的列： my_column <- my_tabl

浏览 0提问于2015-06-19得票数 9

1回答

如何使用rvest抓取网页的链接和文本？

、、、、

我正在尝试使用R中的rvest来抓取阿根廷总统的演讲。以下是我到目前为止编写的代码： library(purrr) library(rvest) library(stringr) url_president <- "https://www.casarosada.gob.ar/informacion/discursos?page=%d" # extract relevant data on webpage map_df(1:2, function(i) { pg <- read_html(sprintf(url_president, i)) data.f

浏览 19提问于2021-11-13得票数 0

回答已采纳

1回答

使用rvest从交互式网站上抓取表格

、、、、

我正在尝试抓取这个交互式网页上的表格以下是我的原始代码： url='https://games.crossfit.com/leaderboard/open/2019?country_champions=0&division=1&citizenship=US&citizenship_display=United+States&sort=0&scaled=0&page=1' US_male=read_html(url)%>% html_nodes('#leaderboard')%>% html_n

浏览 9提问于2019-07-24得票数 0

回答已采纳

1回答

rvest:根据链接文本选择链接

、、、

我正在尝试抓取一些网页，其中我需要的链接在不同的位置(所以CSS选择器是不同的)，但文本保持不变。我希望能够根据它的文本选择链接，这样我就可以抓取该链接以供以后使用。下面是我尝试过的一个例子： test <- read_html("http://www.yaroslavl.vybory.izbirkom.ru/region/yaroslavl?action=show&global=true&root=762000007&tvd=276200077535&vrn=1001000882950&prver=0&pronetvd=null

浏览 0提问于2018-06-19得票数 0

1回答

抓取每个链接页面并将其存储为XML表

、、

你好，我刚开始使用R从互联网上抓取数据，不幸的是，我对HTML和XML知之甚少。我试图抓取以下父页面上的每个故事链接：我不关心父页面上的任何其他链接，但需要创建一个表，为网址，故事的标题列，然后为页面的完整文本(可以是几个文本段落)休息。我尝试使用rvest包，得到了urls，但真正的问题是遍历所有文章，提取文本并将所有内容存储在一个表中。对于谷歌新闻应用程序： library(rvest) url <- 'https://news.google.com/search?q=NREGA&hl=en-IN&gl=IN&ceid=IN%3Aen'

浏览 2提问于2018-06-04得票数 0

1回答

抓取html表rvest时遇到问题

、、、

尝试使用rvest将https://www.cefconnect.com/closed-end-funds-daily-pricing抓取到R数据帧中。继续尝试各种css和xpath选择器，但无法收集主数据表。使用了'table‘、'tbody’、'td‘和'tr xpath选择器，但没有成功。两列是超链接，其余是静态文本。 URL <- 'https://www.cefconnect.com/closed-end-funds-daily-pricing' html <- read_html(URL) html2 <- h

浏览 7提问于2019-01-07得票数 0

1回答

如何在R中抓取<div data-key“”>

、

我想使用R来抓取下面的超文本标记语言文本。我知道我可以使用示例： scrape_css_attr <- function(css, group, attribute, html){ txt <- html %>% html_nodes(group) %>% lapply(. %>% html_nodes(css) %>% html_attr(attribute) %>% ifelse(identical(.,character(0)),NA,.)) %>% unlist() return(txt) }

浏览 12提问于2020-09-18得票数 1

1回答

通过rvest获取网页中的电子邮件地址

、

嗨，我正试图通过R语言的web抓取来获取关于这个网页的一些信息，使用软件包rvest。我得到的名字和一切，但我无法获得电子邮件身份，即info@brewhemia.co.uk。如果我在read_html中看到文本，我就不会在html解析文本中看到email id。有人能帮忙吗？我对网络刮擦很陌生。但我懂R语言。 link <- 'https://food.list.co.uk/place/22191-brewhemia-edinburgh/' page <- read_html(link) name_html <- html_nodes(page,'.

浏览 2提问于2017-10-27得票数 0

回答已采纳

1回答

如何在R中从HTML选择/选项标记中刮取值

、

我有一个类似的问题，如这个问题所示：。我正在抓取这个，我想下载选项值中的文本，我的意思是，您可以在其中阅读"Seleccionar“，即html代码中的下一个节点： <select name="txtMunicipio" id="txtMunicipio" class="inputText"><option value="">-------------------------------------</option> <option value="001"&g

浏览 0提问于2018-10-11得票数 1

回答已采纳

1回答

使用rvest进行Web抓取

我想要抓取以下网站中的所有文本：我的代码： html = http://curia.europa.eu/juris/document/document.jsf?text=&docid=49703&pageIndex=0&doclang=en&mode=lst&dir=&occ=first&part=1&cid=656172 main_content <- html_nodes(html, css = "#document_content") main_text <- main_conte

浏览 2提问于2016-06-02得票数 0

1回答

R WebScraping在使用Rvest时获取额外文本

、、

我正在尝试使用R和RVest网络抓取从eBay获得销售日期网址是字面意思第一项销售日期的完整xpath是：//*[@id="srp-river-results"]/ul/li[1]/div/div[2]/div[2]/div/span/span[1] 如果我使用它，然后在这个路径上使用html_text()，我将一无所获。character(0) 当我删除跨度，并添加正节点，我得到日期，但也有一堆额外的文本。 R码： readHTML <- url %>% read_html() SoldDate <- readHTM

浏览 4提问于2021-02-27得票数 0

回答已采纳

2回答

使用R、内容进行Web抓取

、、、、

我刚开始在R中进行网络抓取，我把下面的代码： mps <- read_html("http://tunisie-annonce.com/AnnoncesImmobilier.asp") mps %>% html_nodes("tr") %>% html_text() 以获取我在文本文件中输入的所需内容。我的问题是我想消除这些红点，但我不能。你能帮帮我吗？我认为这些点正在取代html代码中的<b>和<br>。

浏览 4提问于2017-05-07得票数 3

回答已采纳

1回答

R:用unicode编写csv，需要实际文本

、、

我有下面的R脚本，用于从网站上抓取一些文本数据。 library('rvest') term_data_final <- c() defn_data_final <- c() for (term in 1:10) { url_base <- 'http://www.nplg.gov.ge/gwdict/index.php?a=term&d=9&t=' url <- paste(url_base, term, sep="") webpage <- read_htm

浏览 1提问于2018-04-07得票数 1

1回答

rbind by for循环从网页抓取

、、

我正在尝试从一个网页上抓取数据并对其进行rbind。 1.从网页中抓取数据 for (i in 1:10) { url <- paste0("https://www.nest.co.uk/pendants?page=",i) Pandents <- read_html(url) PanInfos <- html_nodes(Pandents, css = '.fn.name') PanInfos[1] %>% html_nodes('.brand') %>% html_text() 2.提取“品牌” BRAN

浏览 10提问于2017-03-02得票数 0

回答已采纳

1回答

不包括使用r中html_nodes()的注释

、、

我正在使用R.中的rvest包来抓取股票市场价格，我想在使用html_nodes()时排除节点。以下类以股价出现在网站上：[4] <span id="ctl00_ctl00_Content_LeftContent_IssueList_StockList_repIssues_ctl02_DifferenceBlock_lblRelativeDifferenceDown" class="ValueDown">-0,51%</span> [5] <span id="ctl00_ctl00_Content_LeftContent

浏览 0提问于2019-02-28得票数 0

回答已采纳

1回答

如何将XPATH值定义为R中html_nodes中的变量

、、

在使用R (rvest)进行web抓取时，我需要将XPATH值定义为html_nodes中的一个变量。这样我就可以迭代大量的XPATH。当我在外部定义XPATH时，它会抛出错误(例如，当xpath =//*@id=“横幅”时出现错误)。你能帮帮我吗。我的守则： xpath <- as.character('//*[@id="title-overview-widget"]') name <- lego %>% html_nodes(xpath) %>% html_text() Error Message

浏览 3提问于2016-03-05得票数 2

回答已采纳

3回答

open.connection(x，"rb")中出错:使用map_df时出现HTTP错误500

、、、

当我试图抓取一个新闻网站时，我得到了这个错误。我查过了，网站第32页坏了。我想跳过错误，继续抓取其余的urls。我已经尝试了函数TryCatch来避免断开的链接，但由于我对R非常陌生，我不知道如何正确地编写代码。我应该用这个函数包装read_html吗？如果是这样的话，是怎么做的？ url_silla <- 'https://lasillavacia.com/buscar/farc?page=%d' map_df(0:573, function(i) { pagina <- read_html(sprintf(url_silla, i, '%s&#

浏览 45提问于2019-08-09得票数 2

回答已采纳

1回答

使用R在多个页面上进行Web抓取

、

我正在尝试使用R中的以下url来抓取产品的评论。当我运行下面的代码时，我能够获得单个评论被抓取。 comment<- read_html("https://www.influenster.com/reviews/chobani-greek-yogurt") comment %>% html_node(".content-item-text") %>% html_text() comment %>% html_node(".date") %>% html_text() 但是，当我使用下面的代码抓取多个页面上的多个注释时

浏览 10提问于2017-06-27得票数 0

1回答

用R google搜索进行网络抓取

、、

我正在寻找一种方法来做谷歌搜索与R的网络抓取。考虑到不同的特性(cookie和不稳定的标签)，我想分享一下关于如何在google搜索上与R一起进行网络抓取的想法。举个例子。我选择谷歌“法拉利”，并试图检索所有谷歌搜索页面的h3。我特别想得到每个h3 aref-链接。但是，我只能检索h3标记和其他一些内容。 url = 'https://www.google.com/search?q=ferrari' first_page <- read_html(url) h3 <- first_page %>% html_nodes("a h3&#

浏览 2提问于2021-03-15得票数 0

3回答

如何使用循环来抓取R中多个网页的网站数据？

、、

我想要应用一个循环来从R中的多个网页中抓取数据。我能够抓取一个网页的数据，但是当我尝试使用多个页面的循环时，我得到了一个令人沮丧的错误。我花了几个小时修修补补，却一无所获。任何帮助都将非常感谢！这是可行的： ########################### # GET COUNTRY DATA ########################### library("rvest") site <- paste("http://www.countryreports.org/country/","Norway",".htm&

浏览 1提问于2015-01-08得票数 4

1回答

在Web抓取中找不到网页，如何在R中找到它？

、

我已经使用R大约一年了，我很喜欢它。我最近进入了文本挖掘领域，遇到了一些困难。我正在尝试创建一个包含来自网站的信息的数据框。我一直在抓取数据，并成功地创建了两个变量。在尝试创建第三个变量时，它不起作用。当我查看我创建的表时，该变量的内容显示“对不起，找不到网页”。但是，我知道它在那里！有什么想法吗？谢谢大家！ link = "https://www.fmprc.gov.cn/mfa_eng/wjdt_665385/zyjh_665391/" page = read_html(link) title = page %>% html_nodes(".newsLst_

浏览 18提问于2021-10-11得票数 0

1回答

R中的网络抓取

、

我正在尝试抓取网站property 24网站。但是，它会返回不在页面上的额外数据行。这是我的代码。 library(rvest) property<- read_html("https://www.property24.com/houses-for-sale/cape- town/western-cape/432") price <-property%>% html_nodes(".p24_price") %>% html_text() desc <-property%>% html_nodes(".p24_e

浏览 0提问于2017-06-05得票数 2

1回答

使用R背心进行Web抓取，刮完后没有显示正确的页面

、、

我正在学习R中的网页抓取，我用下面的代码从math.stackexchange中抓取一些内容，但是当我看到最后的输出时，它没有显示正确的页面内容也不同，请您在这方面提供帮助，会有很大的帮助。谢谢 library(rvest) library(data.table) link <- "https://math.stackexchange.com/questions/tagged/integration" url <- read_html(link) page <- url %>% html_nodes(".question-hyp

浏览 3提问于2021-12-08得票数 0

1回答

使用R抓取IMDb用户评论，只得到了第一条评论

、、

我是网络抓取的新手，希望能用它来进行情感分析。下面是我使用的代码，它只在第一个review...thanks之前返回！ library(rvest) library(XML) library(plyr) HouseofCards_IMDb <- read_html("http://www.imdb.com/title/tt1856010/reviews?ref_=tt_urv") #Used SelectorGadget as the CSS Selector reviews <- HouseofCards_IMDb %>% html_nodes("

浏览 2提问于2016-12-20得票数 1

1回答

使用rvest: css选择器获取“更多文本”的Web抓取

、、、

我正在看一个从网站上抓取文本数据并努力从特定部分获取所有文本的例子，特别是在该文本框中有一个名为“Read More”的字段。我尝试了不同的css选择器(使用Selector Gadget识别)，但都没有成功，捕获的文本并不是所有可用的文本。对如何获取完整的文本字段有什么想法吗？谢谢! library(rvest) link = "https://www.property24.com/for-sale/camps-bay/cape-town/western-cape/11014/109734849" html_link = read_html(link) # Me

浏览 12提问于2021-04-02得票数 1

回答已采纳

1回答

R:使用rvest从FIFA抓取表时出现的问题

、、、

我试图从过去30年中至少参加过一次世界杯的每一支球队中收集数据。我对如何使用R包rvest从web上抓取表格和其他东西的知识充其量也是最基本的。目前，我的代码看起来像这样 library(rvest) library(dplyr) fifadata <- read_html("http://www.fifa.com/fifa-tournaments/teams/association=BRA/index.html") fifa_data_html <- html_nodes(fifadata, xpath='/html/bod

浏览 1提问于2017-11-22得票数 0

1回答

如何在使用rvest抓取R时跳过空页？

、

我正在尝试从https://spotifycharts.com/regional/nl/daily/上抓取spotify图表。到目前为止，一切都很顺利，直到我尝试每天抓取多个页面。在某些日子里，腐败图上没有可用的数据。是否有某种R函数可以跳过空页或忽略页上没有可用数据的错误，并继续抓取下一页？如果没有可供抓取的数据，甚至可以将NA值添加到我的数据帧中？我试着使用tryCatch，但没有用。下面的代码片段显示了我的工作代码(在2017-05-30之前，页面上没有要抓取的腐败图表数据)。 #import libraries library(tidyverse) library(dplyr) l

浏览 8提问于2020-09-22得票数 0

回答已采纳

3回答

网页抓取时出现r编码问题-如何修复损坏的文本？

、、、

在web抓取时，检索到的一些文本被破坏，这与使用错误编码时的外来文本非常相似。问题是:编码似乎是正确的："UTF-8“。有没有办法修复文本，即使它应该是正确的格式？下面的代码块就是这里报告的问题。Rstudio是用"UTF-8“编码配置的，而改变所用编码的函数总是返回更多的乱码。提前感谢大家。 library(rvest) url <- "https://www1.folha.uol.com.br/poder/2020/01/folhas-da-manha-da-tarde-e-da-noite-se-uniram-sob-um-so-titulo-folha

浏览 14提问于2020-01-14得票数 2

回答已采纳

1回答

尝试用R从网页中抓取商业网站

、、

我正在尝试抓取网站链接： https://www.anelegantaffairbridal.com/?utm_source=theknot.com&utm_medium=referral&utm_campaign=theknot 从使用R Studio的https://www.theknot.com/marketplace/an-elegant-affair-cedar-falls-ia-537984上的联系人约会弹出窗口。我试过了 page <- read_html("https://www.theknot.com/marketplace/an-elega

浏览 22提问于2020-08-23得票数 0

回答已采纳

1回答

R中的变量[[n]]是什么意思？

、

在这些封锁的日子里，我正在学习网络抓取。第二行代码在R中是什么意思？ tab <- h %>% html_nodes(“表”) 制表符<- tab[2]

浏览 23提问于2020-05-01得票数 0

1回答

用R抓取带有“查看更多”的连续页面

、、

我是R新手，需要抓取此网站上帖子的标题和日期使用rvest，我能够编写获取信息的基本代码： url <- 'https://www.healthnewsreview.org/?post_type=news-release-review&s=' webpage <- read_html(url) date_data_html <- html_nodes(webpage,'span.date') date_data <- html_text(date_data_html) head(date_data) webpage <-

浏览 0提问于2018-10-14得票数 1

1回答

如何使用带有R (rvest)的selectorgadget对.dpbox表进行网络抓取？

、、、、

我一直在尝试使用R中的selectorgadget从一个特定的网站上抓取数据。例如，我以前成功地从上抓取数据。通常，我只需使用selectorgadget扩展单击我想要的表，并将CSS选择结果按如下方式放入代码中。 urlx <- "http://www.dotabuff.com/heroes/abaddon/matchups" rawData <- html_text(html_nodes(read_html(urlx),"td:nth-child(4) , td:nth-child(3), .cell-xlarge")) 在这种情况下，html_

浏览 2提问于2017-09-02得票数 0

回答已采纳

1回答

基本returning返回:字符(0)错误

、、

我刚开始学习R，在尝试我的第一次非教程尝试时遇到了一些问题。我通过本教程学习了basic：我试图从以下链接中获取评论文本和星级评级：我创建了以下程序来尝试获取我想要的两个项目： library('rvest') review <- read_html("https://www.wildberries.ru/catalog/4234190/detail.aspx?targetUrl") body <- review %>% html_nodes(".body") %>% html_text() body rating &

浏览 0提问于2017-10-10得票数 2

1回答

R: Webscraping抓取不规则的值块

、、

因此，我试图在网页上刮起一个不规则数据块的网页，这些数据是以一种易于用眼睛识别的方式组织起来的。让我们想象一下我们在看维基百科。如果我从以下链接的文章中抓取文本，我将得到33个条目。如果我只抓取标题，最后只得到7(参见下面的代码)。这一结果并不令我们感到惊讶，因为我们知道，条款的某些部分有多个段落，而其他部分只有一个或没有段落文本。我的问题是，我如何把我的标题和我的文本联系起来。如果每个标题有相同数量的段落或多个段落，这将是微不足道的。 library(rvest) wiki <- html("https://en.wikipedia.org/wiki/Web_scraping

浏览 2提问于2015-07-21得票数 2

回答已采纳

1回答

链接重定向问题-使用Rvest在R中进行Web抓取

、、、、

当我使用Rvest工具从新闻网站抓取链接时，我经常偶然发现重定向到另一个链接的链接。在这些情况下，我只能抓取第一个链接，而第二个链接实际上包含数据。例如： library(dplyr) library(rvest) scraped.link <- "http://www1.folha.uol.com.br/folha/dinheiro/ult91u301428.shtml" article.title <- read_html(scraped.link) %>% html_nodes('body') %>% h

浏览 19提问于2020-01-23得票数 0

回答已采纳

1回答

我正在学习R中的web抓取，在运行代码: error后面对错误

、、

我正在学习R中的web抓取，试图在数学堆栈交换中抓取问题页，并在下面的代码帮助下：以下代码的目的是收集所有问题的链接，然后刮除被接受的问题解决方案。然而，当我运行代码时，我得到了最后的错误： Open.connection中的错误(x，"rb")：HTTP错误404。 library(rvest) link <- "https://math.stackexchange.com/questions/tagged/integration" url <- read_html(link) page <- url %>% html_nod

浏览 3提问于2021-12-06得票数 0

1回答

我正在尝试从网站上抓取数据到R中

、、

我不确定我的代码中遗漏了什么。我正在尝试将中的数据从the抓取到R中的tibble中，到目前为止我的代码如下： library(tidyverse) library(rvest) # url I want the data from. NFL_2010.url <- "https://www.espn.com/nfl/standings/_/season/2010" # Use webscraping to import the data from the url into R NFL_2010 <- NFL_2010.url %>% read_htm

浏览 2提问于2020-06-04得票数 1

1回答

使用R (rvest)从金融网站上抓取数据

、、

我正在尝试从中抓取数据。我正在使用R的rvest库来拉取数据。下面是我正在运行的代码 library(rvest) url ="https://www.e-adm.com/futr/futr_composite_window.asp" table1 = html(url) %>% html_nodes(".miniText tr:nth-child(1) td:nth-child(1) .smTextBlk") %>% html_nodes("table") %>%html_table table2 = html(url)

浏览 3提问于2017-02-07得票数 0

回答已采纳

1回答

使用R从网站中的表中抓取数据

、、

我正在尝试学习R中的web抓取，并且尝试从下面的链接中从各种表中抓取数据。在页面的底部，有几张表格列出了不同的菜系，我想单独读一读。我尝试使用css-选择器，但我认为我使用它们是错误的，下面是我的代码片段： require(rvest) require(magrittr) connection = html_session("https://en.wikipedia.org/wiki/List_of_cuisines") connection %>% html_nodes("table:nth-child(1) a") %>% html_text()

浏览 3提问于2015-10-19得票数 0

回答已采纳

1回答

当页面末尾出现"Load more“选项时，使用rvest抓取数据

、、、、

我正在学习网络抓取，并试图从抓取信息。下面是我的代码: rm(list=ls()) library(httr) library(rvest) library(xml2) library(curl) url <- "https://www.kununu.com/us/google1/reviews" reviews <- url %>% read_html() %>% html_nodes(".panel-body") quote <- reviews %>% html_nodes("h2

浏览 0提问于2016-05-31得票数 2

1回答

R编程Web抓取

、

我试着从下面的链接中抓取网页，使用R编程中的R背心包。我抓取的链接是我的代码是： library("xml2") library("rvest") url<-read_html("http://dk.farnell.com/c/office-computer-networking-products/prl/results") tbls_ls <- url %>% html_nodes("table") %>% html_table(fill = TRUE)%>% gsub("^

浏览 13提问于2017-12-22得票数 1

1回答

使用rvest - Football Stats在R中进行循环抓取

、

我正在尝试让R循环通过transfermarket.com上的球员配置文件，我首先使用以下内容获取球员名单的URL。 #/ Add the Team’s URL to scrape TeamScrape <- read_html("http://www.transfermarkt.com/jumplist/startseite/verein/2778") #// Get Club Name ClubName <- TeamScrape %>% html_nodes(".spielername-profil") %>% html_t

浏览 0提问于2016-02-05得票数 0

1回答

将ifelse()添加到Map函数中

、

我有一个简单的Map函数，可以从博客站点抓取文本文件。获取所有文本文件并将其下载到我的工作目录中的抓取器非常容易。我的目标是:使用ifelse()或普通的if语句仅根据特定日期抓取文件。例如，如果在1/31/19发布了四个文件，并且我在那个日期指向了我的ifelse，该函数将返回这四个文件。代码： library(tidyverse) library(rvest) # URL set up url <- "https://www.example-blog/posts.aspx" page <- html_session(url, config(ssl_veri

浏览 35提问于2019-02-20得票数 2

回答已采纳

2回答

选择器节点缺失值时如何抓取数据

、

嗨，我正在尝试在R中从ebay抓取数据，我使用了下面提到的代码，但我遇到了一个问题，其中有一个特定选择器元素的缺失值，为了绕过它，我使用了一个for循环，如下所示(检查每个列表并给出丢失数据的数量)，因为抓取的数据较少，所以可以检查，但是当有大量数据需要抓取时如何操作。提前感谢 library(rvest) url<-"https://www.ebay.in/sch/i.html_from=R40&_sacat=0&LH_ItemCondition=4&_ipg=100&_nkw=samsung+j7" web<- read_ht

浏览 0提问于2017-09-28得票数 0

1回答

使用rvest抓取网站(更改页面，单击链接)

、、

我正在为一个研究项目刮一个有租金的网站，我遇到了两个问题： 1)我的循环似乎是一遍又一遍地重复同一页上的刮擦，而不是移动到下面的页面。 2)我无法访问我正在抓取的链接中的全文。换句话说，我不仅想抓取搜索结果，而且还希望每个显示的链接的内容。我有代码在每个单独的页面上这样做(见下文)，但由于有2600个链接，我想将它们的单独内容集成到抓取(就好像rvest是“点击”这些链接和抓取它们的内容)。背景:法国政府网页。我正在寻找所有的内容，与“非平等主义者的圣特”。这给出了大约2600个结果，每页显示30个结果。因此，我运行了88次循环来收集所有结果。然而，它给了我一次又一次的30个相同的结果，只是

浏览 0提问于2017-04-04得票数 2

回答已采纳

1回答

使用rvest包在R中抓取博客文章

、

对于一个大学项目，我想抓取Instagram博客(https://about.instagram.com/blog/announcements/break-down-how-instagram-search-works)上的博客文章。获取文章的标题、日期和作者没有问题，但当我尝试获取实际的文章文本时，它什么也不返回。有没有人知道问题出在哪里？这是我的代码： require ("rvest") require ("stringr") require ("tidyverse") library (tidyverse) library (rvest

浏览 12提问于2021-09-06得票数 0