文章/答案/技术大牛

发布

社区首页 >问答首页 >为什么行的这一端(\\b)在字符串/ICU和Perl中不被识别为单词边界

问为什么行的这一端(\\b)在字符串/ICU和Perl中不被识别为单词边界
EN

Stack Overflow用户

提问于 2016-12-15 23:23:20

回答 2查看 338关注 0票数 6

使用stringr，我试图检测字符串末尾的€符号，如下所示：

str_detect("my text €", "€\\b") # FALSE

为什么这不管用？它正在处理下列案件：

str_detect("my text a", "a\\b") # TRUE - letter instead of €
grepl("€\\b", "2009in €") # TRUE - base R solution

但是它在perl模式下也失败了：

grepl("€\\b", "2009in €", perl=TRUE) # FALSE

那么，€\\b-regex有什么问题呢？regex €$在所有情况下都有效.

regex

pcre

stringr

Stack Overflow用户

回答已采纳

发布于 2016-12-15 23:47:55

当您使用没有perl=TRUE的基regex函数时，将使用重排香精。

这个词的边界似乎是：

在非字字符之后使用时，与字符串位置的末尾匹配，以及
在非字字符之前使用时，与字符串位置的开始匹配。

见R测试：

> gsub("\\b\\)", "HERE", ") 2009in )")
[1] "HERE 2009in )"
> gsub("\\)\\b", "HERE", ") 2009in )")
[1] ") 2009in HERE"
>

这不是PCRE和ICU regex风格中字界的常见行为，在非单词字符之前的单词边界仅在字符前面有一个单词字符(不包括字符串位置的开始时匹配)(在非单词字符后面使用时，需要在单词边界后面出现一个单词字符)：

有三个不同的位置被限定为单词边界：- Before the first character in the string, if the first character is a word character. - After the last character in the string, if the last character is a word character. - Between two characters in the string, where one is a word character and the other is not a word character.

票数 4

查看全部 2 条回答

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/41174959

复制

相似问题

问为什么行的这一端(\\b)在字符串/ICU和Perl中不被识别为单词边界
EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么行的这一端(\\b)在字符串/ICU和Perl中不被识别为单词边界EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么行的这一端(\\b)在字符串/ICU和Perl中不被识别为单词边界
EN