首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >从R中的文本中提取列表项

从R中的文本中提取列表项
EN

Stack Overflow用户
提问于 2021-12-21 03:29:48
回答 1查看 34关注 0票数 0

我有一个使用pdftools::pdf_text从PDF中提取的文本。例如,PDf包含点项目:

代码语言:javascript
运行
复制
 - project abstract
 - project narrative

提取后的文本如下所示:

代码语言:javascript
运行
复制
   project abstract       project narrative

现在,我想从文本中提取这些项目。我试过这样做:

代码语言:javascript
运行
复制
grep("\\s[a-zA-Z]+\\s[a-zA-Z]+", text)

但它找不到。什么是正确的regex表达式来提取列表项?或者,提取列表项的正确方法是什么?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-12-21 03:56:34

您可以使用来自str_splitstringr函数来识别每个含混的unicode字符之后的文本.

代码语言:javascript
运行
复制
# install.packages("stringr")
library(stringr)

txt <- "   project abstract       project narrative"

trimws(unlist(str_split(txt, "\uf0b7"))[-1])
# [1] "project abstract"  "project narrative"

在示例中使用的unicode字符是\uf0b7

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70430349

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档