首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Rselenium web-用R抓取

Rselenium web-用R抓取
EN

Stack Overflow用户
提问于 2016-06-01 16:32:33
回答 1查看 1.2K关注 0票数 1

例如,我想要从该网页(空间、便利设施、Prices...and评论https://www.airbnb.com/rooms/9985824?guests=1&s=d2dNfFMd )中抓取数据

为此,我想使用rselenium包。这是我的代码:

代码语言:javascript
运行
复制
url <- "https://www.airbnb.com/rooms/9985824?guests=1&s=d2dNfFMd"
library('RSelenium')
pJS <- phantom()
library('XML')
shell.exec(paste0("C:\\Users\\Daniil\\Desktop\\R-language,Python\\file.bat"))
Sys.sleep(10)

checkForServer()
startServer()
remDr <- remoteDriver(browserName="chrome", port=4444)
remDr$open(silent=T)

然后在SelectorGadget的帮助下,我找到了正确的抓取元素:

代码语言:javascript
运行
复制
var <- remDr$findElements('css selector','#details hr+ .row')

我的问题是:如何将其带入文本(字符串)?或者可能存在其他使用rselenium收集数据的方法。

非常感谢

EN

Stack Overflow用户

发布于 2016-07-09 13:47:44

我不确定file.bat中有什么,但似乎您主要对收集有关清单的便利设施的数据感兴趣。我刚刚使用了firefox,跳过了phantomjs部分的代码:

代码语言:javascript
运行
复制
url <- "https://www.airbnb.com/rooms/9985824?guests=1&s=d2dNfFMd"

library('RSelenium')

checkForServer()
startServer()
remDr <- remoteDriver(browserName="firefox", port=4444)
remDr$open(silent=T)
remDr$navigate(url)

var <- remDr$findElement('css selector','#details hr+ .row')

print(var$getElementText())
[[1]]
[1] "The Space\nAccommodates: 2\nBathrooms: 1.5\nBed type: Real Bed\nBedrooms: 1\nBeds: 1\nProperty type: Apartment\nRoom type: Private room\nHouse Rules"

在这里,您可以解析字符串或执行额外的数据收集。

票数 1
EN
查看全部 1 条回答
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/37563409

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档