首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >使用正则表达式匹配utf-8编码的任何中文字符

使用正则表达式匹配utf-8编码的任何中文字符
EN

Stack Overflow用户
提问于 2012-03-06 08:53:36
回答 4查看 67.5K关注 0票数 39

例如,我想要匹配一个由mn中文字符组成的字符串,然后我可以使用:

代码语言:javascript
复制
[single Chinese character regular expression]{m,n}

是否存在单个中文字符的正则表达式,可以是任何存在的中文字符?

EN

回答 4

Stack Overflow用户

发布于 2014-06-04 11:20:24

在Java中,

代码语言:javascript
复制
\p{InCJK_UNIFIED_IDEOGRAPHS}{1,3}
票数 7
EN

Stack Overflow用户

发布于 2020-02-11 19:25:06

在C#中

代码语言:javascript
复制
new Regex(@"\p{IsCJKUnifiedIdeographs}")

这是the Microsoft docs格式的

更多信息来自维基百科:CJK Unified Ideographs

名为中日韩表意文字(4E00-9FFF)的基本区块包含U+4E00至U+9FEF范围内的20,976个基本汉字。该区块不仅包括中文书写系统中使用的字符,还包括日文书写系统中使用的汉字和在韩国使用正在减少的韩文。此块中的许多字符在所有三种书写系统中都使用,而其他字符仅在三种书写系统中的一种或两种中使用。越南的诺姆文字(现已过时)也使用汉字。

票数 2
EN

Stack Overflow用户

发布于 2021-01-19 19:12:23

刚刚解决了一个类似的问题,

当你有太多东西要匹配时,最好使用negated-set并声明你不想匹配的东西,如下所示:

除数字以外的所有数字:^[^0-9]*$

第二个^将实现求反

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/9576384

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档