首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Webscraping -无法用R获取页面的全部内容

Webscraping -无法用R获取页面的全部内容
EN

Stack Overflow用户
提问于 2020-08-17 10:17:10
回答 1查看 70关注 0票数 1

我试着在网上刮这个页面上的招聘广告:https://con.arbeitsagentur.de/prod/jobboerse/jobsuche-ui/?was=Soziologie%20(grundst%C3%A4ndig)%20(weiterf%C3%BChrend)&wo=&FCT.ANGEBOTSART=ARBEIT&FCT.BEHINDERUNG=AUS&page=1&size=50&aktualitaet=100

然而,我无法从个人招聘广告中获得信息。我尝试了rvest,xml2和V8,但是我是一个网络抓取的初学者,无法解决这个问题。该链接似乎不包含有关单个招聘广告的信息,因此使用xPath导航时不能正常工作。

有谁知道怎么解决这个问题吗?

谢谢:)

EN

回答 1

Stack Overflow用户

发布于 2021-12-16 19:29:29

我已经能够用以下代码提取职务说明:

代码语言:javascript
运行
复制
library(RSelenium)
shell('docker run -d -p 4445:4444 selenium/standalone-firefox')
remDr <- remoteDriver(remoteServerAddr = "localhost", port = 4445L, browserName = "firefox")
remDr$open()

remDr$navigate("https://www.arbeitsagentur.de/jobsuche/suche?angebotsart=1&was=Soziologie%20(grundst%C3%A4ndig)%20(weiterf%C3%BChrend)&id=10000-1189146489-S")
Sys.sleep(10)
list_Button <- remDr$findElements("class name", "ergebnisliste-item")
Sys.sleep(3)
list_Link_Job_Descriptions <- lapply(X = list_Button, FUN = function(x) x$getElementAttribute("href"))

nb_Links <- length(list_Link_Job_Descriptions)
list_Text_Job_Description <- list()

for(i in 1 : nb_Links)
{
  print(i)
  remDr$navigate(list_Link_Job_Descriptions[[i]][[1]])
  Sys.sleep(1)
  web_Obj2 <- remDr$findElement("id", "jobdetails-beschreibung")
  list_Text_Job_Description[[i]] <- web_Obj2$getElementText()
}
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63448846

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档