首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >R从页面中抓取多个表

R从页面中抓取多个表
EN

Stack Overflow用户
提问于 2012-03-15 02:01:21
回答 1查看 225关注 0票数 1

我正在尝试通过网络抓取页面上的5个表: www.lme.com/copper.asp

我可以对整个页面进行webscape,但在没有HTML格式的情况下,我在将表格抓取成适当的数据帧时遇到了问题。

代码语言:javascript
运行
复制
library(XML)
lme.cu <- readHTMLTable('http://www.lme.com/copper.asp',stringsAsFactors = FALSE)

如果你能帮助我,我将不胜感激。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-03-15 05:23:46

这通常需要reqex的东西。抱歉,但那是刮刮艺术的一部分。我最喜欢的两个与正则表达式相关的抓取/清理函数是gsubstrsplit,如下所示:

代码语言:javascript
运行
复制
gsub("Â", "", "edsÂedfde", fixed=TRUE)
strsplit("e/d/sÂedfde", "Â", fixed=TRUE)[[1]][2]

如果您希望数据为数字,则还需要删除数字中的逗号。

我还建议你看看我的朋友布莱恩在(LINK)上做的一些解析数据的工作。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/9707492

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档