问将HTML解析为R中Div级别的文本
EN

Stack Overflow用户

提问于 2018-07-03 04:51:39

回答 1查看 331关注 0票数 0

library(XML)
html <- read_html("https://www.sec.gov/Archives/edgar/data/1011290/000114036105007405/body.htm")
doc.html = htmlTreeParse(html, useInternal = TRUE)
doc.text = unlist(xpathApply(doc.html, '//div', xmlValue))

由于div级别/结构的原因，上面的代码读取文本两次，我只需要读取文本一次。感谢您的时间和帮助。即

doc.text2 #包含在3到59

中再次重复的所有文本

regex

web-scripting

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51143566

复制

相似问题

问将HTML解析为R中Div级别的文本
EN

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将HTML解析为R中Div级别的文本EN

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将HTML解析为R中Div级别的文本
EN