前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >学习PHP中有趣的字符集国际化验证功能

学习PHP中有趣的字符集国际化验证功能

作者头像
硬核项目经理
发布2021-08-06 11:30:40
5210
发布2021-08-06 11:30:40
举报
文章被收录于专栏:硬核项目经理的专栏

学习PHP中有趣的字符集国际化验证功能

今天的内容非常简单,不过也很有趣。不知道大家有没有经历过这样的事情,就是在某些字体下,0 和 O 不好区分,1 和 l 也是很难看清楚。当然,现在大部分的编辑器和 IDE 的默认字体都是会选择那些比较好区分这些相似字符的,比如给 0 中间加上个斜杠或者一个点之类的。在 PHP 中也有这样的函数能够帮助我们来检查是否有这样的不好区分的字符存在。

类似字符检测

代码语言:javascript
复制
$checker = new Spoofchecker();

var_dump($checker->areConfusable('google.com', 'goog1e.com')); // true

var_dump($checker->areConfusable('google.com', 'g00g1e.com')); // false

Spoofchecker 类就是用来进行这类检测的类,它的 areConfusable() 方法就能够帮助我们检测两个字符串中是否有相似的字符。比如我们第一个测试代码中,l 和 1 ,如果不仔细看还真有可能认错。第二段检测代码返回的 false ,说明不存在非常相似的字符,但如果我们将第一个字符串中的小写的 o 换成大写的 O 的话,这段也会返回 true 。大家可以自己测试一下。

可疑字符检测

另外,我们可以使用 Spoofchecker 类的另一个方法来检测字符串中是否有可疑的字符。

代码语言:javascript
复制
var_dump($checker->isSuspicious('google.com')); // FALSE

var_dump($checker->isSuspicious('Рaypal.com')); // TRUE

为什么 Paypal.com 会返回 true 呢?它哪里可疑了?

其实 isSuspicious() 检测是字符串中的各个字符是否来自不同的 Unicode 字符。大写的 P 是有可能来自于 Cyrylic 这个 Unicode 字符集中,不一定是拉丁字符的那个 P 。当然,这方面的知识做为中国人的我们并不是太了解,除了专门学外语专业或者学习过字母源头相关知识的朋友可能会比较清楚。

不同区域语言中的效果

既然是国际化的类和方法,那么如果我们修改区域语言,检测的结果会有不同吗?

代码语言:javascript
复制

$checker->setAllowedLocales('zh_CN');

var_dump($checker->areConfusable('google.com', 'goog1e.com')); // true

var_dump($checker->areConfusable('google.com', 'g00g1e.com')); // false

var_dump($checker->isSuspicious('google.com')); // TRUE

var_dump($checker->isSuspicious('Рaypal.com')); // TRUE

使用 Spoofchecker 的 setAllowedLocales() 方法可以为 Spoofchecker 的操作设置当前的区域语言信息。在设置为中文后,isSuspicious() 返回的内容都是 TRUE 了,毕竟采用的字符集不同了,都不会走默认的拉丁字符集了。

总结

好吧,这篇文章真的只是为了有趣。在实际的业务中,如果我们要做一些文章、代码校验的功能,或许 areConfusable() 能够为我们提供一些便利。大家还是以了解的态度试着玩玩吧!

测试代码:

https://github.com/zhangyue0503/dev-blog/blob/master/php/202011/source/9.学习PHP中有趣的字符集国际化验证功能.php

参考文档:

https://www.php.net/manual/zh/class.spoofchecker.php

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-07-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 码农老张 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 学习PHP中有趣的字符集国际化验证功能
    • 类似字符检测
      • 可疑字符检测
        • 不同区域语言中的效果
          • 总结
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档