首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >将HTML解析为R中Div级别的文本

将HTML解析为R中Div级别的文本
EN

Stack Overflow用户
提问于 2018-07-03 04:51:39
回答 1查看 331关注 0票数 0
代码语言:javascript
复制
library(XML)
html <- read_html("https://www.sec.gov/Archives/edgar/data/1011290/000114036105007405/body.htm")
doc.html = htmlTreeParse(html, useInternal = TRUE)
doc.text = unlist(xpathApply(doc.html, '//div', xmlValue))

由于div级别/结构的原因,上面的代码读取文本两次,我只需要读取文本一次。感谢您的时间和帮助。即

doc.text2 #包含在3到59

中再次重复的所有文本

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-07-03 05:33:22

试试这个:

代码语言:javascript
复制
library(rvest)
library(tidyverse)
html <- read_html("https://www.sec.gov/Archives/edgar/data/1011290/000114036105007405/body.htm")
text <- html %>% 
         html_nodes(xpath = "//text/div") %>%
         html_text(trim = TRUE) %>% 
         paste( collapse = ' ')
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51143566

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档