我需要从字符串中删除所有非字母字符和数字,但-
、和 _
除外。
对于许多语言来说,一个流行的解决方案是使用类似于这个[^\\w\\-_]
的东西,因为某种原因,这个表达式与replace-regexp-in-string
一起使用时,删除了所有东西。
而\\W
删除除字母字符和数字之外的所有内容:
(message (replace-regexp-in-string "\\W" "" "Set AA053 Лыв № foo_bar (设)"))
输出:SetAA053Лывfoobar设
a-zA-Z0-9
不能解决我的问题,因为我需要保留非拉丁字符。
谢谢!
发布于 2016-03-08 00:58:51
POSIX类是特定于地区的,根据文档,
‘[:alnum:]’
这与任何字母或数字相匹配。(目前,对于多字节字符,它匹配任何具有单词语法.)‘[:alpha:]’
的字符。 这和任何字母都匹配。(目前的,对于多字节字符,它匹配任何具有单词语法的字符。)
这就是为什么要匹配任何不是字母、数字或下划线/连字符的字符,可以使用否定字符类解决方案:
在开始方括号后键入插入符号将否定字符类。结果是,字符类匹配任何不在字符类中的字符。
所以,是的,你可以
"[^[:alnum:]_-]"
^^ ^
或
"[^[:alpha:][:digit:]_-]"
regex引擎将字符类末尾的连字符视为文字连字符,而不是任何范围定义操作符。
如果您不关心_
并想要替换它,请从字符类中删除。
发布于 2016-03-07 05:39:05
在@wiktorstribiżew的帮助下,我找到了正确的regexp:
[^[:alnum:]-_]
详情请参见https://www.gnu.org/software/emacs/manual/html_node/elisp/Char-Classes.html。
https://stackoverflow.com/questions/35843759
复制