前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >php utf-8编码 正则匹配中文

php utf-8编码 正则匹配中文

作者头像
ApacheCN_飞龙
发布2019-02-15 10:38:21
3.6K0
发布2019-02-15 10:38:21
举报
文章被收录于专栏:信数据得永生信数据得永生

首先unicode里面 中文的区域的0x4e00-0x9fa5 在java或者js这种已unicode编码处理字符串的编程语言中 /^[\u4e00-\u9fa5]+$/就可以判断一个字符串是否全部为中文

那么php中 字符的编码根据页面而定 页面是gbk的 字符编码就是gbk的 utf-8也同理 之前有一个表达式 “/^[\x80-\xff]+$/” 仅仅可以匹配是否含有非ascll字符 而汉字只是其中一个比较小的区域 不太精确

由于我的页面编码是utf-8的 于是把js的表达式搬到php中来 提示PCRE不支持”\u”和其他乱七八糟的一大堆东西

后来查资料了解到 php的正则有一种叫做字符组的东西 用\x{…}表示 于是把表达式改成”/^[\x{4e00}-\x{9fa5}]+$/” 又提示”\x”表达式后的数字太大

又查了资料 了解到可以使用修正模式”u” 让程序把后面当成unicode字符处理 于是改成了”/^[\x{4e00}-\x{9fa5}]+$/u” 测试成功

所以php下正则匹配中文的表达式是 “/^[\x{4e00}-\x{9fa5}]+$/u” 这个仅适用于utf-8编码

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2014年07月09日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档