使用rvest进行循环_使用rvest和for循环进行高效抓取_使用rvest进行Web抓取 - 腾讯云开发者社区

、、

我正在尝试从以下url中抓取数据-：我想单击每个大学的名称并获取每个大学的特定数据。首先，我收集了一个矢量形式的所有大学网址： #loading the package: library(xml2) library(rvest) library(stringr) library(dplyr) #Specifying the url for desired website to be scrapped baseurl <- "https://university.careers360.com/colleges/list-of-degree-colleges-in-India&#

浏览 0提问于2019-02-04得票数 1

2回答

这个URL循环中的错误是什么？

、、、

对于一个url，代码可以工作，但是对于一个列表中的多个url，这是不起作用的，这会产生一个错误。我是新来的，请帮帮忙。 library(rvest) for (url in data_list){ webpage = read_html(url) extracted_urls = webpage %>% rvest::html_nodes("a") %>% rvest::html_attr("href") extracted_urls = extracted_urls[grep("roster", extracted_url

浏览 6提问于2022-03-16得票数 0

7回答

如何从下载的zip文件安装软件包

我已经以压缩文件的形式下载了这个。是否可以使用此压缩或解压缩版本从R控制台将其安装到特定路径？ install.packages("C:/Users/Desktop/rvest-master.zip', lib='C:/R/R-3.2.1',repos = NULL) 我输入了前面的命令，但不起作用 > setwd("C:/Users/Desktop/") > unzip("rvest-master.zip") > file.rename("rvest-master", "rvest&#

浏览 1提问于2015-06-23得票数 22

1回答

R形网刮刀

、、、、

首先，我想花点时间感谢SO社区，你曾经帮助过我很多次，而我甚至不需要创建一个帐户。我目前的问题是用R.刮网，而不是我的优点。我想放弃我试过的是： library(rvest) url <- "http://www.cbs.dtu.dk/services/SignalP/" seq <- "MTSKTCLVFFFSSLILTNFALAQDRAPHGLAYETPVAFSPSAFDFFHTQPENPDPTFNPCSESGCSPLPVAAKVQGASAKAQESDIVSISTGTRSGIEEHGVVGIIFGLAFAVMM"

浏览 3提问于2017-09-07得票数 3

回答已采纳

1回答

使用rvest抓取名称相似的表

、、、

我正在尝试使用rvest从fbref.com上的不同页面抓取数据表。我已经能够使用以下命令从一个页面中抓取数据： library(rvest) URL <- "https://fbref.com/en/squads/822bd0ba/Liverpool" WS <- read_html(URL) passStats <- WS %>% rvest::html_nodes(xpath = '//*[(@id = "ks_sched_all")]') %>% rvest::html_table() %>% data

浏览 5提问于2020-06-02得票数 1

回答已采纳

1回答

R-在不同的excel数据表中刮取多个url并将每个数据url连接起来。

、、、

我试图抓取不同的URL，并在同一个Excel的文件中写入数据，但每个URL只在一个页面中。我的代码是： #install.packages("rvest") library(XLConnect) library(rvest) { for(i in c("2086","2167","2204")) { url<-paste0("https://www.silversanz.com/producto/",i,) } dades<-read_html(url) nom<-dades

浏览 0提问于2019-04-05得票数 1

回答已采纳

1回答

利用rvest从Facebook上抓取图像src

、、、

我使用rvest包来抓取Facebook的帖子并提取img src url。 library(rvest) UrlPage <- read_html ("https://www.facebook.com/AmazonIN/photos/a.142199085973905.1073741828.100281786832302/458742987652845/?type=3") UrlPage %>% html_node("#fbPhotoImage") 错误:没有匹配 rvest软件包适用于其他网站，但似乎与Facebook有一些问题。有没有

浏览 4提问于2016-01-08得票数 0

1回答

在多个页面中抓取一个web表(缺少一些行)

、、、、

我想使用从rvest中抓取一个表格(包含关于31,385名士兵的信息)。 library(rvest) library(dplyr) page <- read_html(x = "https://irelandsgreatwardead.ie/the-archive/") table <- page %>% html_nodes("table") %>% html_table(fill = TRUE) %>% as.data.frame() 这是可行的，但只适用于前10名士

浏览 9提问于2021-11-20得票数 1

回答已采纳

1回答

点击"Show More Products“滚动浏览网页链接，抓取产品信息

、、

我能够刮到11滚动，因为在那之后，我们需要点击“显示更多产品”按钮。要进一步滚动，需要做些什么？下面是我当前的代码： library(RSelenium) require(RCurl) require(XML) require(dplyr) require(stringr) require(rvest) shell.exec(paste0("C:/Users/Nitin Kansal/Desktop/R/batch.bat")) #start RSelenium checkForServer() startServer() remDr <- remoteDriver

浏览 0提问于2016-05-04得票数 1

1回答

循环页和爬虫excel文件路径

、、、

对于来自的条目，我需要单击每个条目，然后在页面的左侧底部部分爬行excel文件路径的url：如何使用R中的web擦伤包(如rvest等)来实现这一目标？请提前表示衷心的感谢。 library(rvest) # Start by reading a HTML page with read_html(): common_list <- read_html("http://www.csrc.gov.cn/csrc/c100121/common_list.shtml") common_list %>% # extract paragraphs rves

浏览 10提问于2022-01-11得票数 0

回答已采纳

1回答

网络抓取西里尔字母. rvest编码问题

、、、、

我试着在擦拭俄文杂志的名字，但我对编码有问题。 R不显示Автоматика и телемеханика，而是显示Àâòîìàòèêà è òåëåìåõàíèêà。即使使用rvest::guess_encoding()的第一个结果也不起作用。我也尝试了read_html(nauka_url, encoding="UTF-8")，但是收到了一个错误，告诉我：“输入不合适UTF-8，指示编码!” 到目前为止，我的代码如下： nauka_url <- "https://www.libnauka.ru/elektronnii-katalog/?PAGEN_1=1

浏览 3提问于2021-01-02得票数 1

回答已采纳

2回答

使用rvest进行抓取和循环的简单解决方案，将for循环的结果存储在一个变量中

、、、

我需要从3页收集链接，每个有150个链接，使用R与rvest库。我使用了一个for循环来遍历页面。我知道这是一个非常基本的问题，已经在其他地方得到了回答：R web scraping across multiple pages Scrape and Loop with Rvest我尝试了以下代码的不同版本。它们中的大多数都有效，但只返回了50个链接，而不是150个链接 library(rvest) baseurl <- "https://www.ebay.co.uk/sch/i.html?_from=R40&_nkw=chain+and+sprocket&_s

浏览 15提问于2019-10-06得票数 0

回答已采纳

2回答

使用rvest进行Tripadvisor评级的Web抓取

、、

? 我正在尝试使用rvest (R编程)抓取tripadvisor的评论(评级服务、价值、位置)，但我无法这样做。 library(tidyverse) library(rvest) url <- "https://www.tripadvisor.com.sg/Hotel_Review-g294265-d1770798-Reviews-or5-Marina_Bay_Sands-Singapore.html#REVIEWS" reviews <- read_html(url) %>% html_nodes(".ui_bubble_ratin

浏览 25提问于2019-12-10得票数 1

1回答

字符串看似是一个空格字符，但事实并非如此

、、

我正在用rvest做一些网页抓取，我遇到了一些奇怪的事情。我在两台电脑上复制了这个字符串，一台运行R3.6.3的Mac系统和一台运行R3.6.3的Windows10系统。 library(rvest) library(stringr) # scrape website, no issue webpage <- rvest::read_html("https://www.usms.org/longdist/ldnats00/1hrf4044.php") html <- rvest::html_nodes(webpage, css = "td") re

浏览 13提问于2020-04-17得票数 1

回答已采纳

1回答

在R中安装不同类型的软件包

、

有没有人知道如何修复这些错误。我在Ubuntu中安装了R，这是通过我的Mac电脑中的parallels实现的。我正在尝试安装整洁的诗句包，但我得到了以下错误： ERROR: dependencies ‘curl’, ‘openssl’ are not available for package ‘httr’ * removing ‘/home/parallels/R/x86_64-pc-linux-gnu-library/3.4/httr’ Warning in install.packages : installation of package ‘httr’ had non-zero e

浏览 0提问于2019-08-22得票数 1

回答已采纳

2回答

如何在编写R包时导入"%>%“？

、、、

当加载我正在编写的R包时，我会遇到以下错误。 Error in nations %>% rvest::html_nodes(".x") %>% rvest::html_nodes(".y") %>% : could not find function "%>%" 我不知道如何在我的R包中导入这个。这就是我如何设置函数的方式。 nations_url_odd<-nations %>% rvest::html_nodes('.x') %>% rvest::html_n

浏览 1提问于2020-08-02得票数 1

回答已采纳

1回答

使用getURL()从网站抓取返回urls字符串，而不是网站内容。我如何获得网站的内容？(R工作室，windows 10)

、、、

我是全新的刮刮，使用Windows 10个人电脑。我试图从类中运行这段代码，以从以下URL中抓取派对平台的内容： years=c(1968, 1972, 1976) urlsR=paste("https://maineanencyclopedia.com/republican-party-platform-", years,"/",sep='') urlsD=paste("https://maineanencyclopedia.com/democratic-party-platform-",

浏览 5提问于2022-02-17得票数 1

1回答

用R中的html_elements提取重复类

、、、

你好吗？我试图提取一些有关这个体育博彩网页的信息，使用rvest。几天前，我问了一个相关的问题，我实现了几乎100%的目标。到目前为止，感谢您，使用下面的代码成功地提取了标题、分数和比赛时间： library(rvest) library(tidyverse) page <- "https://www.supermatch.com.uy/live_recargar_menu/" %>% read_html() data=data.frame( Titulo = page %>% html_elements(".titulo"

浏览 3提问于2022-06-30得票数 2

回答已采纳

1回答

{r}循环/映射中的错误：“open.connection中的错误(x，"rb")：HTTP错误404。

、

TLDR:代码正常，循环中断。嘿伙计们。我编写了一个有趣的小东西，用每个缩写来表示一种货币(欧元、美元、cad等)。然后显示与其他货币的比率值。代码运行得很好，抓取也很好。直到我把它循环起来以便一次得到所有的货币。然后我得到了这个错误： Open.connection中的错误(x，"rb")：HTTP错误404。如果有人对如何解决这个问题有一个很好的想法，请:) 代码： library(tidyverse) library(rvest) # this is the function to convert currencies. currency_converter

浏览 5提问于2022-10-18得票数 0

2回答

在read_html中抓取网页后的字符(0)

、、、、

我用R写了下面的代码。 t2<-read_html("https://fortune.com/company/amazon-com/fortune500/") employee_number <- t2 %>% rvest::html_nodes('body') %>% xml2::xml_find_all("//*[contains(@class, 'info__value--2AHH7')]") %>% rvest::html_text() 然而，当我调用"employe

浏览 28提问于2021-12-04得票数 0

1回答

使用rvest进行网络抓取

、、

我试图使用rvest在这个网站上获取所有471个案例，但每次只能获取25个案例(无论列表是否扩展)。任何帮助都将不胜感激。 library("rvest") url <- "http://investmentpolicyhub.unctad.org/ISDS?status=100" cases <- url %>% read_html() %>% html_nodes(xpath='//*[@id="cases-list"]') %>% html_table() View(cases) 谢谢。

浏览 2提问于2016-10-07得票数 0

1回答

rvest：“class(out)中的错误”<- "XMLNodeSet“：尝试将属性设置为NULL”

、、

我试着用新的rvest软件包刮一组网页。它适用于大多数网页，但当没有特定字母的表格条目时，将返回一个错误。 # install the packages you need, as appropriate install.packages("devtools") library(devtools) install_github("hadley/rvest") library(rvest) 此代码工作正常，因为网页上有字母E的条目。 # works OK url <- "https://www.propertytaxcard.com/ShopHills

浏览 5提问于2014-11-02得票数 0

回答已采纳

1回答

使用purrr::map抓取多篇文章，而不是使用R中的循环

、、、、

嗨，亲爱的社区成员。我现在试图从这个网站()获得R. 我执行了以下代码。 ### read HTML ### html_narou <- rvest::read_html("https://yomou.syosetu.com/search.php?&type=er&order_former=search&order=new&notnizi=1&p=1", encoding = "UTF-8") ### create the common part ob

浏览 9提问于2022-11-11得票数 2

回答已采纳

1回答

R:使用RVest刮取特定网站的发布日期

、、

我目前正在使用RVest在R中进行网络抓取。我现在的网站是"“。但我没办法抢到地产报价的个人pushlishDates。这是我在脚本中找到的HTML部分。 "@publishDate":"2019-10-12T10:50:57.831+02:00“ 我找不到合适的RVest-Selector.下面的代码返回字符，因为节点"publishDate“不工作。刮每个单独的html_node()所需的html_node()是什么？提前谢谢。 library(rvest) immo_webp <- read_html ("https://www

浏览 4提问于2019-10-12得票数 1

回答已采纳

2回答

用data.frame循环在R中进行网络抓取

、、、

library(rvest) df <- data.frame(Links = c("Qmobile_Noir-M6", "Qmobile_Noir-A1", "Qmobile_Noir-E8")) for(i in 1:3) { webpage <- read_html(paste0("https://www.whatmobile.com.pk/", df$Links[i])) data <- webpage %>% html_nodes(".specs") %>

浏览 1提问于2017-07-04得票数 0

回答已采纳

1回答

使用rvest进行循环

我对这一切都很陌生，正在尝试通过一些关于stackoverflow的例子来建立我的信心。我通过@RonakShah找到了这个答案 Using rvest to scrape data that is not in table 我想我应该使用它，因为我熟悉HTML来建立我对循环的信心。我的问题是我不能让循环工作。有没有人能指出我哪里错了？这是我在留言板上找到的零碎代码，但我什么也没得到！ library(rvest) page<- (0:2) urls <- list() for (i in 1:length(page)) { url<- paste0("

浏览 4提问于2020-07-21得票数 0

回答已采纳

1回答

如何在rvest中进行web抓取时跳过网页

、、

我正在尝试使用R中的rvest包收集信息。当使用for循环收集数据时，我发现一些页面不包含信息，因此会出现错误: Error in open.connection(x，"rb")：HTTP error404。这是我的R代码。页码15138和15140有信息，而15139没有信息。如何使用for循环函数跳过15139？ library(rvest) library(dplyr) library(tidyr) library(stringr) library(stringi) source_url <- "https://go2senkyo.com/loca

浏览 14提问于2020-04-15得票数 0

回答已采纳

2回答

带R的篮球参考抓取

、、

我在试着抓取网站 https://www.basketball-reference.com/playoffs/NBA_2021_standings.html 用于扩展的排行榜。我已经使用rvest库尝试了许多变体，但似乎都不能正常工作。使用的最新代码是： url = "https://www.basketball-reference.com/playoffs/NBA_2021_standings.html" test = url %>% rvest::read_html() %>% rvest::html_nodes("table")

浏览 40提问于2021-11-14得票数 0

2回答

抓取R中的tbody类对象

、、、、

我对使用R进行web抓取是完全陌生的，我想抓取下表(图片)，它的行为就像tbody一样。如果我运行以下代码，我只看到标题，没有数据(捷克语网站)。我应该得到在CZK下订单的时间，价格，数量和数量。 library(rvest) library(dplyr) PSE_Page <- "https://www.pse.cz/detail/CZ0003519753?tab=detail-trading-data" Page <- read_html(PSE_Page) Our_table <- Page %>% rvest::html_nodes

浏览 0提问于2020-03-13得票数 0

3回答

用R搜索后面的asp javascript分页表

、、、、

我试图用rvest或RSelenium在rvest或RSelenium上提取内容，但当javascript页面以搜索框开头时却找不到指导？只要把所有这些内容都放到一个简单的CSV文件中就好了。在那之后，从像这样的单独文件中提取数据似乎是可能的。但我也希望有个干净的建议去做。谢谢

浏览 0提问于2018-08-10得票数 11

回答已采纳

1回答

为什么我的R for循环没有运行括号中的所有操作？

、、、

data_before <- read_excel("C:/Users/babyb/Desktop/Derrick Rancourt/Canadian Biotech Companies.xlsx", col_names = FALSE) companyName <- subset(na.omit(data_before, cols = 1), select = -c(2, 3, 4)) data_now <- setNames(data.table(matrix(nrow=0, ncol=2)), c("Company Name",

浏览 33提问于2020-08-13得票数 0

2回答

使用R从网站中刮取图像URL

、、

我试图从一个网页上获取图像URL，使用R中的'rvest‘，但是没有成功。以下是代码： library(rvest) library(magrittr) imageURL <- read_html("https://www.ajio.com/ajio-twill-snapback-cap/p/460022581_royalblue") %>% html_nodes(css = "img") %>% html_attr("src") 相同的代码适用于"“ 不知道我哪里出了问题。

浏览 0提问于2018-07-10得票数 1

回答已采纳

1回答

使用R从网站上抓取数据的问题

、

我正试图从这个网站上刮数据使用rvest软件包。但是当我运行我的代码时，我会得到一个我不认识的错误。我不确定我是否没有使用正确的html类。下面是当我检查元素时看到的html 这是我的代码：#下载数据- 2021时间表 library(rvest) url <- "https://www.footballdb.com/games/index.html?lg=NFL&yr=2021" data <- url %>% html_nodes("statistics") %>% html_table()

浏览 5提问于2022-01-17得票数 -2

回答已采纳

1回答

read_xml声明错误，而read_html没有

、、、

取下以下网址 URL <- "http://www.google.de/complete/search?output=toolbar&q=TDS38311DE" doc <- read_xml(URL) 我得到以下错误： Error: Input is not proper UTF-8, indicate encoding ! Bytes: 0xDF 0x20 0x2F 0x20 [9] 使用read_html代替一切都很好。我做错什么了吗？为什么会发生此错误？

浏览 0提问于2015-10-17得票数 2

回答已采纳

1回答

函数read_html()函数停止在"<“符号处读取

、、、

我想知道这种行为是否是rvest包中的故意行为。当rvest看到<字符时，它将停止读取<。 library(rvest) read_html("<html><title>under 30 years = < 30 years <title></html>") 指纹： [1] <head>\n <title>under 30 = </title>\n</head> 如果这是故意的，有解决办法吗？

浏览 5提问于2015-10-31得票数 1

回答已采纳

1回答

使用rvest填写搜索表格并下载附件

、、

我正试着用rvest来搜集劳工部的数据。我有一个清单的EINs和PNs (参数在网络搜索表格)，我想搜索。到目前为止，我的情况如下： library(rvest) library(magrittr) ## URL to page with search form to be populated site <- "http://www.efast.dol.gov/portal/app/disseminate?execution=e1s1" session <- html_session(site) form <- session %>% html

浏览 2提问于2016-12-23得票数 2

1回答

RVest1.0.0-最新更新不兼容

、、、、

的目标：登录到一个使用rvest的网站。问题：我的代码不再适用于rvest (版本1.0.0)。什么起作用了:使用以前版本的rvest的代码(版本0.3.6)： rg.headers <- c('User-Agent' = 'Mozilla/5.0') rg.url <- "https://rotogrinders.com/" rg.session <- html_session(rg.url, httr::add_headers(.headers=rg.headers)) rg.session <- rvest:::

浏览 1提问于2021-03-30得票数 2

回答已采纳

2回答

用于文本提取的rvest与RSelenium结果

、、

到目前为止，我正在使用RSelenium提取主页的文本，但我希望切换到像rvest这样的快速解决方案。 library(rvest) url = 'https://www.r-bloggers.com' rvestResults <- read_html(url) %>% html_node('body') %>% html_text() library(RSelenium) remDr$navigate(url) rSelResults <- remDr$findElement( using = "xpath

浏览 2提问于2019-07-02得票数 0

2回答

Web抓取基于IIS的网站

、

我正在使用R从上抓取一张桌子。我正在使用库rvest。 #install.packages("rvest", dependencies = TRUE) library(rvest) OPMpage <- read_html("https://www.opm.gov/policy-data-oversight/data-analysis-documentation/federal-employment-reports/historical-tables/total-government-employment-since-1962/") 我收到这个错误：

浏览 1提问于2016-02-29得票数 6

1回答

用rvest网络抓取嵌入式桌面

、

我正在学习如何使用rvest和R进行网络抓取，并且我想提取嵌入在以下网站中的表格：如果你在中间滚动，你会看到一张嵌入了星巴克商店和它们的工会状态的表格。当我使用CSS选择器工具并突出显示表主体时，我会得到代码"td"。然而，当我使用下面的rvest代码时，我会得到： {xml_nodeset (0)} 我还使用了检查功能来查看表名(下面)，并得到了相同的错误。 "table#wpgmza_table_1.responsive.wpgmza_table.dataTable.no-footer.dtr-inline.collapsed" 有人能帮我把那张表提

浏览 3提问于2022-05-21得票数 0

回答已采纳

1回答

解析表数据到R中，但它是空的，javascript？

、、

我的第一个帖子和一个R初学者问我是否应该在其他地方找到我的问题的答案。我正在尝试拼凑一个表格，其中包含来自CME的多个站点的数据(https://www.cmegroup.com/trading/energy/crude-oil/western-canadian-select-wcs-crude-oil-futures.html就是其中之一)。我尝试过使用rvest，但得到了一个空表。我想这是因为Javascript被用来实时填充表吗？我在这个网站上笨手笨脚地寻找类似的问题，但还没有完全弄清楚如何最好地提取这些数据。任何帮助都是非常感谢的。 library(rvest) library

浏览 14提问于2020-04-17得票数 1

1回答

如何访问使用RSelenium与rvest刮过的页面？

、、、、

我正在尝试刮一个使用angular.js的网页。我的理解是，R中唯一的选项是首先使用RSelenium加载页面，然后解析内容。但是，我发现rvest比RSelenium更直观地解析内容，因此我希望尽可能少地使用RSelenium，然后尽快切换到rvest。到目前为止，我已经意识到，我可能至少需要使用RSelenium来使用htmlTreeParse连接和下载html代码。假设这是我输出的一部分： structure(list(name = "div", attributes = structure(c("im_dialog_date", "dialo

浏览 2提问于2017-09-03得票数 0

回答已采纳

6回答

解析包含&nbsp；的html (不间断空格)

、

我正在使用rvest解析一个网站。我要用这些不间断的小空格撞墙了。如何删除已解析的html文档中由 元素创建的空格？ library("rvest") library("stringr") minimal <- html("<!doctype html><title>blah</title> <p> foo") bodytext <- minimal %>% html_node("body") %>% ht

浏览 0提问于2014-12-02得票数 9

1回答

在Amazon产品评审中使用R. i无法提取特定产品的评论

、、、、

使用R程序在Amazon产品审查中进行文本挖掘。我无法提取特定产品的评论(i.e.If iPhone11有6k的评论，我需要提取所有的评论)。我只得到一个标有x的列。 📷 请让我知道我需要在哪里做必要的改变。我需要那些来做情绪分析。 install.packages("rvest") library(rvest) install.packages("xml2") library(xml2) install.packages("magrittr") library(magrittr) url <-"https://www.

浏览 0提问于2020-10-18得票数 0

1回答

在Azure批上进行硒并行测试

、、、、

我正在使用最新版本的R在windows 7上。我希望使用RSelenium并行运行许多测试，因此，我的问题是：运行许多RSelenium测试的推荐方法是什么？假设我想运行1000次测试，每一步都需要1小时。运行测试一个接一个需要大量的时间(24测试一天，因此在总共42天)。我知道如何使用doParallel和foreach包在我的机器上并行运行测试：，但有时，这还不够。我想并行运行大约100个测试。为此，我尝试使用Azure批处理，但在启动selenium服务器时，会在某些节点上获得大量错误。更具体地说，我编写了dockerfile： FROM rocker/r-base:

浏览 0提问于2018-11-26得票数 22

1回答

R-自动网页文本刮除

、、、

我正在尝试使用rvest自动从网站中抓取文本，但是当我尝试一个循环从向量：book.titles.urls读取网页urls时，我会发现下面的错误。但是，当我试图从单个页面(没有循环)中抓取想要的文本时，它工作得很好：工作代码 library(rvest) library(tidyverse) #Paste URL to be read by read_html function lex.url <- 'https://fab.lexile.com/search/results?keyword=The+True+Story+of+the+Three+Little+Pigs

浏览 1提问于2018-08-10得票数 2

回答已采纳

1回答

意外的token -R包安装附近出现语法错误

我正在尝试安装一个R包及其依赖项。但这是抛出错误。 $ install.packages(rvest_0.3.5.tar.gz, dependencies=True) -bash: syntax error near unexpected token `rvest_0.3.5.tar.gz,' 我是R的新手，请帮助我如何将其与依赖项一起下载。在此之前，我尝试了以下操作 $ R CMD INSTALL rvest_0.3.5.tar.gz * installing to library ‘/Library/Frameworks/R.framework/Versions/4.0/Res

浏览 0提问于2020-06-13得票数 0

1回答

用RVEST开始刮电子商务网站有什么建议吗？

、、

我试图从一个电子商务网站上使用rvest报废一些数据。我没有找到任何好的例子来指导我。有什么想法吗？让我们举个例子，我是如何开始的： library(rvest) library(purrr) #Specifying the url url_base <- 'https://telefonia.mercadolibre.com.uy/accesorios-celulares/' #Reading the HTML code from the website webpage <- read_html(url) #Using CSS selectors to sc

浏览 0提问于2018-04-23得票数 1

回答已采纳

1回答

如何使用for循环变量作为csv文件名的一部分来编写许多csv文件？

、、

在R中，我正在做web-scraping (使用rvest)曲棍球选秀历史页面，我创建了一个for循环来遍历40个网页，抓取表格，然后我想把每个页面都写到一个单独的csv文件中。在我的循环中，我循环了几年，并将它们粘贴到每个url的url中。如何使用每个url中使用的年份作为csv文件名(例如1979.csv，1980.csv，...)。当我尝试使用： write_csv(export, path = paste0("~/hockey_draft/csv/1979.csv")) 这为我提供了一个名称为1979.csv的csv文件。我相信我必须使用paste0()并使用for

浏览 13提问于2019-02-05得票数 0

回答已采纳

1回答

需要提取以下文本，这些文本在R中没有清晰的xpath和rvest

、、、、

我有几个网页，我想刮(下面的html例子)。在我的示例中，我希望获得公司名称、位置、薪资、发布日期，因此我获取公司名称的方法如下： library(xml2) library(rvest) library(tidyverse) url <- "https://joblist.ala.org/job/library-director/53812381/" page <- xml2::read_html(url) company_name <- page %>% rvest::html_nodes("li") %>% rv

浏览 0提问于2020-04-23得票数 2

回答已采纳