我想拆分包含数字的文本
text = "bla bla 1 bla bla bla 142 bla bla (234.22)"
并希望在每个数字之前和之后添加一个'\n'
。
> "bla bla \n1\n bla bla bla \n142\n bla bla (234.22)"
下面的函数给出了子字符串,但它丢弃了模式,即数字。用python中包含模式的东西替换模式的最好方法是什么?
re.split(' [0123456789]+ ', text)
发布于 2019-06-20 03:25:27
使用
s = re.sub(r' \d+ ', '\n\\g<0>\n', s)
请参阅regex demo。
要仅将单独的数字替换为完整的单词,请使用
s = re.sub(r'\b\d+\b', '\n\\g<0>\n', s)
如果要匹配用空格括起来的数字,请仅使用以下任一选项
re.sub(r'(?<!\S)\d+(?!\S)', '\n\\g<0>\n', s) # also at the start/end of string
re.sub(r'(?<=\s)\d+(?=\s)', '\n\\g<0>\n', s) # only between whitespaces
实际上,可以将替换指定为'\n\g<0>\n'
,因为\g
是一个未定义的转义序列,在本例中,反斜杠将被视为文字字符,并将保留在结果字符串中以形成正则反向引用构造。
import re
s = "bla bla 1 bla bla bla 142 bla bla"
s = re.sub(r'\b\d+\b', '\n\\g<0>\n', s)
print(s) # => bla bla \n1\n bla bla bla \n142\n bla bla
发布于 2019-06-20 03:31:52
试试这段代码!!这可能会有帮助!
import re
text = "bla bla 1 bla bla bla 142 bla bla"
replaced = re.sub('([0-9]+)', r'\n\1\n',text)
print(replaced)
Output: 'bla bla \n1\n bla bla bla \n142\n bla bla'
https://stackoverflow.com/questions/56674550
复制相似问题