我需要转换一个HTML页面的所有内容,以降低。但是我得到了一个错误。
library(stringr)
library(httr)
library(XML)
url <- "https://stackoverflow.com/"
request <- GET(url)
doc <- htmlParse(request, encoding = "UTF-8")
doc <- str_to_lower(doc)
as.vector(x,"character")中出现字符错误:无法将类型'externalptr‘强制为类型'character’的向量
我需要保留文档的XML结构,因为我必须使用xpath。
谢谢你的帮忙!
发布于 2018-08-03 23:26:39
您可以尝试将文档转换为字符,更改大小写,然后将解析重复为HTML代码。
library(stringr)
library(httr)
library(XML)
url <- "https://stackoverflow.com/"
request <- GET(url)
#convert to character then covert case
newdoc<-str_to_lower(as.character(request))
#reread the new doc to convert back to html
doc <- htmlParse(newdoc, encoding = "UTF-8")
这应该会创建所需的可读性文档。
https://stackoverflow.com/questions/51673167
复制相似问题