问如何在R中抓取安全页面(https链接)(使用readHTMLTable from XML package)？
EN

Stack Overflow用户

提问于 2012-05-22 04:22:57

回答 2查看 13.1K关注 0票数 19

关于如何使用XML包中的readHTMLTable有很好的答案，我用常规的http页面做了，但是我不能用https页面解决我的问题。

我正在尝试读取此网站上的表格(url字符串)：

library(RTidyHTML)
library(XML)
url <- "https://ned.nih.gov/search/ViewDetails.aspx?NIHID=0010121048"
h = htmlParse(url)
tables <- readHTMLTable(url)

但是我得到了这个错误:文件https://ned.nih.gov/search/Vi...does不存在。

我试图用下面的代码(下面的前两行)来解决https问题(通过使用谷歌来找到解决方案)(比如这里：http://tonybreyal.wordpress.com/2012/01/13/r-a-quick-scrape-of-top-grossing-films-from-boxofficemojo-com/)。

此技巧有助于查看页面的更多部分，但任何提取表格的尝试都不起作用。任何建议都很感谢。我需要的表字段，如组织，组织头衔，经理。

 #attempt to get past the https problem 
 raw <- getURL(url, followlocation = TRUE, cainfo = system.file("CurlSSL", "cacert.pem", package = "RCurl"))
 head(raw)
[1] "\r\n<!DOCTYPE html PUBLIC \"-//W3C//DTD XHTML 1.0 Transitional//EN\" \"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd\">\n<html xmlns=\"http://www.w3.org/1999/xhtml\" xml:lang=\"en\" lang=\"en\">\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; 
...
 h = htmlParse(raw)
Error in htmlParse(raw) : File ...
tables <- readHTMLTable(raw)
Error in htmlParse(doc) : File ...

xml

web-scraping

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/10692066

复制

相似问题

问如何在R中抓取安全页面(https链接)(使用readHTMLTable from XML package)？
EN

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在R中抓取安全页面(https链接)(使用readHTMLTable from XML package)？EN

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在R中抓取安全页面(https链接)(使用readHTMLTable from XML package)？
EN