首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >open.connection(x,"rb")中的rvest错误:达到了超时

open.connection(x,"rb")中的rvest错误:达到了超时
EN

Stack Overflow用户
提问于 2015-10-23 05:54:29
回答 5查看 47.7K关注 0票数 18

我正在尝试从http://google.com中抓取内容。错误信息出来了。

代码语言:javascript
运行
复制
library(rvest)  
html("http://google.com")

Open.connection中的错误(x,"rb"): 此外,还达到了超时: 警告消息:“html”被废弃。 用“read_html”代替。 见“帮助”(“不推荐”)

由于我使用的是公司网络,这可能是由防火墙或代理引起的。我试着使用set_config,但不起作用。

EN

回答 5

Stack Overflow用户

发布于 2017-03-03 01:46:33

在office网络中,我在代理后面工作时遇到了同样的Error in open.connection(x, “rb”) : Timeout was reached问题。

这是对我有用的东西,

代码语言:javascript
运行
复制
library(rvest)
url = "http://google.com"
download.file(url, destfile = "scrapedpage.html", quiet=TRUE)
content <- read_html("scrapedpage.html")

信贷:https://stackoverflow.com/a/38463559

票数 35
EN

Stack Overflow用户

发布于 2016-08-04 16:43:50

这可能是调用read_html (或者在您的例子中是html )时遇到的一个问题,它没有正确地将自己标识到它试图从其中检索内容的服务器,这是默认行为。使用curl,将一个用户代理添加到read_html的handle参数中,以便让您的刮板识别自己。

代码语言:javascript
运行
复制
library(rvest)
library(curl)
read_html(curl('http://google.com', handle = curl::new_handle("useragent" = "Mozilla/5.0")))
票数 8
EN

Stack Overflow用户

发布于 2017-09-30 03:49:35

我遇到这个问题是因为我的VPN被打开了。关掉它后,我立即重新尝试,它解决了这个问题.

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/33295686

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档