问从R中的文本中提取列表项
EN

Stack Overflow用户

提问于 2021-12-21 03:29:48

回答 1查看 34关注 0票数 0

我有一个使用pdftools::pdf_text从PDF中提取的文本。例如，PDf包含点项目：

 - project abstract
 - project narrative

提取后的文本如下所示：

   project abstract       project narrative

现在，我想从文本中提取这些项目。我试过这样做：

grep("\\s[a-zA-Z]+\\s[a-zA-Z]+", text)

但它找不到。什么是正确的regex表达式来提取列表项？或者，提取列表项的正确方法是什么？

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-12-21 03:56:34

您可以使用来自str_split的stringr函数来识别每个含混的unicode字符之后的文本.

# install.packages("stringr")
library(stringr)

txt <- "   project abstract       project narrative"

trimws(unlist(str_split(txt, "\uf0b7"))[-1])
# [1] "project abstract"  "project narrative"

在示例中使用的unicode字符是\uf0b7。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70430349

复制

相似问题

问从R中的文本中提取列表项
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从R中的文本中提取列表项EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从R中的文本中提取列表项
EN