我正在尝试从http://google.com中抓取内容。错误信息出来了。
library(rvest)
html("http://google.com")
Open.connection中的错误(x,"rb"): 此外,还达到了超时: 警告消息:“html”被废弃。 用“read_html”代替。 见“帮助”(“不推荐”)
由于我使用的是公司网络,这可能是由防火墙或代理引起的。我试着使用set_config,但不起作用。
发布于 2017-03-03 01:46:33
在office网络中,我在代理后面工作时遇到了同样的Error in open.connection(x, “rb”) : Timeout was reached
问题。
这是对我有用的东西,
library(rvest)
url = "http://google.com"
download.file(url, destfile = "scrapedpage.html", quiet=TRUE)
content <- read_html("scrapedpage.html")
发布于 2016-08-04 16:43:50
这可能是调用read_html (或者在您的例子中是html )时遇到的一个问题,它没有正确地将自己标识到它试图从其中检索内容的服务器,这是默认行为。使用curl,将一个用户代理添加到read_html的handle参数中,以便让您的刮板识别自己。
library(rvest)
library(curl)
read_html(curl('http://google.com', handle = curl::new_handle("useragent" = "Mozilla/5.0")))
发布于 2017-09-30 03:49:35
我遇到这个问题是因为我的VPN被打开了。关掉它后,我立即重新尝试,它解决了这个问题.
https://stackoverflow.com/questions/33295686
复制相似问题