首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >为什么\w只匹配javascript regex中的英文单词?

为什么\w只匹配javascript regex中的英文单词?
EN

Stack Overflow用户
提问于 2018-09-28 00:52:03
回答 2查看 0关注 0票数 0

我正在尝试使用javascript代码在某些文本中查找网址。问题是,我正在使用的正则表达式使用\ w来匹配URL中的字母和数字,但它与非英语字符(在我的情况下是希伯来字母)不匹配。

那么我可以使用什么代替\ w来匹配所有语言中的所有字母?

EN

回答 2

Stack Overflow用户

发布于 2018-09-28 09:29:39

ECMA 262 v3标准定义了通常称为JavaScript的编程语言,规定\w应该等同于[a-zA-Z0-9_],它\d应该等同于[0-9]。\s另一方面,根据标准,匹配ASCII和Unicode空白。

JavaScript不支持\p匹配Unicode事物的语法,因此没有一种好方法可以做到这一点。可以将所有希伯来字符与:

代码语言:javascript
复制
[\u0590-\u05FF]

这简单地匹配希伯来语块中的任何代码点。

可以将任何ASCII字符或任何希伯来字符与以下内容匹配:

代码语言:javascript
复制
[\w\u0590-\u05FF]
票数 0
EN

Stack Overflow用户

发布于 2018-09-28 10:08:57

因为\w只匹配ASCII字符48-57('0' - '9'),67-90('A' - 'Z')和97-122('a' - 'z')。希伯来字符和其他特殊外语字符(例如,umlaut-o或tilde-n)超出该范围。

除了匹配外语字符(在很多不同的ASCII范围内有很多这样的字符),你最好还是寻找描述你的单词的字符 - 空格,引号和其他标点符号。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/-100008885

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档