例如,我想要从该网页(空间、便利设施、Prices...and评论https://www.airbnb.com/rooms/9985824?guests=1&s=d2dNfFMd )中抓取数据
为此,我想使用rselenium包。这是我的代码:
url <- "https://www.airbnb.com/rooms/9985824?guests=1&s=d2dNfFMd"
library('RSelenium')
pJS <- phantom()
library('XML')
shell.exec(paste0("C:\\Users\\Daniil\\Desktop\\R-language,Python\\file.bat"))
Sys.sleep(10)
checkForServer()
startServer()
remDr <- remoteDriver(browserName="chrome", port=4444)
remDr$open(silent=T)然后在SelectorGadget的帮助下,我找到了正确的抓取元素:
var <- remDr$findElements('css selector','#details hr+ .row')我的问题是:如何将其带入文本(字符串)?或者可能存在其他使用rselenium收集数据的方法。
非常感谢
发布于 2016-07-09 13:47:44
我不确定file.bat中有什么,但似乎您主要对收集有关清单的便利设施的数据感兴趣。我刚刚使用了firefox,跳过了phantomjs部分的代码:
url <- "https://www.airbnb.com/rooms/9985824?guests=1&s=d2dNfFMd"
library('RSelenium')
checkForServer()
startServer()
remDr <- remoteDriver(browserName="firefox", port=4444)
remDr$open(silent=T)
remDr$navigate(url)
var <- remDr$findElement('css selector','#details hr+ .row')
print(var$getElementText())
[[1]]
[1] "The Space\nAccommodates: 2\nBathrooms: 1.5\nBed type: Real Bed\nBedrooms: 1\nBeds: 1\nProperty type: Apartment\nRoom type: Private room\nHouse Rules"在这里,您可以解析字符串或执行额外的数据收集。
https://stackoverflow.com/questions/37563409
复制相似问题