问用R屏幕抓取实际页面，而不是源html
EN

Stack Overflow用户

提问于 2014-07-19 01:48:22

回答 1查看 1K关注 0票数 3

我试图用R从这个页面中筛选出网球赛结果数据(点对点数据，而不仅仅是最终结果)。

http://www.scoreboard.com/au/match/wang-j-karlovic-i-2014/M1mWYtEF/#point-by-point;1

使用常规的R屏幕抓取函数(如readline()、htmlParseTree()等)，我能够为页面抓取源html，但这不包含结果数据。

是否有可能从页面中抓取所有文本，就好像我在浏览器中的页面上，选择了所有文本，然后进行复制？

screen-scraping

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-07-19 05:01:13

该数据是使用来自1的AJAX加载的，因此R不能只为您加载数据。但是，因为两者都使用代码M1mWYtEF，所以可以直接转到具有所需数据的页面。使用Chrome，我可以看到页面发送了一个X-Fsign: SW9D1eZo头，允许您访问该页面(否则会出现401 Unauthorized错误)。

下面是用于从示例页面获取保存所需数据的html的R代码：

library(httr)
page_code <- "M1mWYtEF"
linked_page <- paste0("http://d.scoreboard.com/au/x/feed/d_mh_", 
                      page_code, "_en-au_1")
GET(linked_page, add_headers("X-Fsign" = "SW9D1eZo"))

票数 7

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/24835984

复制

相似问题

问用R屏幕抓取实际页面，而不是源html
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用R屏幕抓取实际页面，而不是源htmlEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用R屏幕抓取实际页面，而不是源html
EN