对于这个列表,我如何提取除数字和特殊字符之外的所有内容。
Jéssica Andrade 1
Joanna Jędrzejczyk
8 Maurício Rua
Jiří Procházka
(6) Anthony Smith
Volkan Oezdemir
Nikita Krylov
Johnny Walker 9所需输出/匹配:
Jéssica Andrade
Joanna Jędrzejczyk
Maurício Rua
Jiří Procházka
Anthony Smith
Volkan Oezdemir
Nikita Krylov
Johnny Walker[a-z A-Z]+仅匹配英文字符。[^\x00-\x7F]+或[^\u0000-\u007F]+仅匹配非英语字符。
不知道从这里该做什么。
发布于 2020-11-24 14:39:38
尝试执行以下正则表达式(带有i标志),
([a-z\u00C0-\u024F] ?)+解释
[a-z] -匹配任何字母字符(与\u00C0-\u00FF Latin-1 Supplement\u0100-\u017F Latin Extended-A\u0180-\u024F Latin Extended-B匹配的i enabled)
[\u00C0-\u024F]? -匹配空格0次或1次发布于 2020-11-24 14:50:33
您可以在re.sub中使用此正则表达式
\s*(?:\d|[^\w\s])+\s*RegEx详细信息:
\s*:匹配0个或更多个whitespaces(?:\d|[^\w\s]):匹配不是单词字符且不是空格的数字或字符。匹配1个或多个此非捕获group.\s*:匹配0个或多个空格代码:
import re
regex = r"[ \t]*(?:\d|[^\w\s])+[ \t]*"
test_str = ("Jéssica Andrade 1\n"
"Joanna Jędrzejczyk\n"
"8 Maurício Rua\n"
"Jiří Procházka\n"
"(6) Anthony Smith\n"
"Volkan Oezdemir\n"
"Nikita Krylov\n"
"Johnny Walker 9\n")
result = re.sub(regex, "", test_str, 0, re.UNICODE)https://stackoverflow.com/questions/64981312
复制相似问题