library(XML)
html <- read_html("https://www.sec.gov/Archives/edgar/data/1011290/000114036105007405/body.htm")
doc.html = htmlTreeParse(html, useInternal = TRUE)
doc.text = unlist(xpathApply(doc.html, '//div', xmlValue))
由于div级别/结构的原因,上面的代码读取文本两次,我只需要读取文本一次。感谢您的时间和帮助。即
doc.text2 #包含在3到59
中再次重复的所有文本
https://stackoverflow.com/questions/51143566
复制相似问题