我有一个使用pdftools::pdf_text从PDF中提取的文本。例如,PDf包含点项目:
- project abstract
- project narrative提取后的文本如下所示:
project abstract project narrative现在,我想从文本中提取这些项目。我试过这样做:
grep("\\s[a-zA-Z]+\\s[a-zA-Z]+", text)但它找不到。什么是正确的regex表达式来提取列表项?或者,提取列表项的正确方法是什么?
发布于 2021-12-21 03:56:34
您可以使用来自str_split的stringr函数来识别每个含混的unicode字符之后的文本.
# install.packages("stringr")
library(stringr)
txt <- " project abstract project narrative"
trimws(unlist(str_split(txt, "\uf0b7"))[-1])
# [1] "project abstract" "project narrative"在示例中使用的unicode字符是\uf0b7。
https://stackoverflow.com/questions/70430349
复制相似问题