首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >从文本中提取和拆分单词,并仅使用shell终端regex按出现顺序列出它们。

从文本中提取和拆分单词,并仅使用shell终端regex按出现顺序列出它们。
EN

Stack Overflow用户
提问于 2019-10-24 21:45:51
回答 1查看 39关注 0票数 1

我有下面这个文本(以这种格式),我希望将单词分开,并按它们出现在垂直列表中的顺序逐一放置,如下面的示例https://stackoverflow.com/a/21672824/10824251。我尝试了egrep -vi "'?[^\\p{L}']+'?|^'|'$" mytext.txt > output.txt,但没有得到结果,只是output.txt没有(空的)内容。

我的短信:

教学心理学是教育心理学的一部分,是指学校教育。正如后面将看到的那样,两者都有着相同的目标:研究、解释和理解人们由于参与活动而产生的行为变化过程,教育赋予一个适合于教学心理学的实体,是行为变化研究基础上存在的教育活动的性质和特征。

我的葡萄牙文:

A psicologia do ensino éa parte da psicologia da educacão que se refere àeducacão escolar.Como se verámais adiante,ambas têm um mesmo objetivo: estudar,explicar e compreender os processos de mudanca comportamental se produzem nas comöêconseqüência da suãõo atividades .base uma entidade própria àpsicologia do ensino éa natureza e as caracterís- ticas das atividades as que existem base dos processos s de mudanca comportamental。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-10-24 22:21:22

您可能希望通过空格标记文本:

代码语言:javascript
运行
复制
grep -o '[^[:space:]][^[:space:]]*' mytext.txt > output.txt
grep -o '[^[:space:]]\{1,\}' mytext.txt > output.txt
grep -oE '[^[:space:]]+' mytext.txt > output.txt

或者,您可以使用PCRE正则表达式提取1+字母(\p{L})、diacritics (\p{M})和数字(\p{N})的所有块:

代码语言:javascript
运行
复制
grep -oP '[\p{L}\p{M}\p{N}]+'  mytext.txt > output.txt

在线演示。您需要pcregrep on MacOS才能工作。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58549527

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档