问将HTML解析为R中Div级别的文本
EN

Stack Overflow用户

提问于 2018-07-03 04:51:39

回答 1查看 331关注 0票数 0

library(XML)
html <- read_html("https://www.sec.gov/Archives/edgar/data/1011290/000114036105007405/body.htm")
doc.html = htmlTreeParse(html, useInternal = TRUE)
doc.text = unlist(xpathApply(doc.html, '//div', xmlValue))

由于div级别/结构的原因，上面的代码读取文本两次，我只需要读取文本一次。感谢您的时间和帮助。即

doc.text2 #包含在3到59

中再次重复的所有文本

regex

web-scripting

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-07-03 05:33:22

试试这个：

library(rvest)
library(tidyverse)
html <- read_html("https://www.sec.gov/Archives/edgar/data/1011290/000114036105007405/body.htm")
text <- html %>% 
         html_nodes(xpath = "//text/div") %>%
         html_text(trim = TRUE) %>% 
         paste( collapse = ' ')

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51143566

复制

相似问题

问将HTML解析为R中Div级别的文本
EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将HTML解析为R中Div级别的文本EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将HTML解析为R中Div级别的文本
EN