php 如何匹配中文 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

php utf-8编码正则匹配中文

首先unicode里面中文的区域的0x4e00-0x9fa5 在java或者js这种已unicode编码处理字符串的编程语言中 /^[\u4e00-\u9fa5]+$/就可以判断一个字符串是否全部为中文...那么php中字符的编码根据页面而定页面是gbk的字符编码就是gbk的 utf-8也同理之前有一个表达式 “/^[\x80-\xff]+$/” 仅仅可以匹配是否含有非ascll字符而汉字只是其中一个比较小的区域...不太精确由于我的页面编码是utf-8的于是把js的表达式搬到php中来提示PCRE不支持”\u”和其他乱七八糟的一大堆东西后来查资料了解到 php的正则有一种叫做字符组的东西用\x...又提示”\x”表达式后的数字太大又查了资料了解到可以使用修正模式”u” 让程序把后面当成unicode字符处理于是改成了”/^[\x{4e00}-\x{9fa5}]+$/u” 测试成功所以php...下正则匹配中文的表达式是 “/^[\x{4e00}-\x{9fa5}]+$/u” 这个仅适用于utf-8编码

3.7K4 0

正则表达式如何匹配中文

\w匹配的仅仅是中文，数字，字母，对于国人来讲，仅匹配中文时常会用到，见下匹配中文字符的正则表达式： \u4e00-\u9fa5或许你也需要匹配双字节字符，所谓“双字节字符”就是长度是两个字节（byte...，汉字及中文标点就是双字节字符；“k”、“!”、“.”，英文字母及英文标点是单字节的。...匹配双字节字符(包括汉字在内)：^\x00-\xff注：可以用来计算字符串的长度（一个双字节字符长度计2，ASCII字符计1）

981 0

您找到你想要的搜索结果了吗？

是的

没有找到

如何用正则表达式匹配中文

前几天因为在做学校教务处的爬虫，用php抓取的成绩和课程表竟然返回的是html格式的数据，也是很醉。没办法，干脆用正则匹配吧。因为之前并没有学过正则表达式，只好恶补了一下。...在匹配的过程中遇到了一些问题，特别是在匹配中文的时候，很是蛋疼。下面说一下我的学习成果。使用php在匹配中文的时候不能使用 \w 来匹配，可以使用元字符 ....来粗略匹配中文精确匹配中文时需要考虑编码环境，gb2312和 utf-8。这两种编码有什么区别呢？最主要的就是gb2312编码的汉字占两个字节，而utf-8编码的汉字占3个字节。...}]{5}/u 千万注意，这个最后面的u一定要加上（如果是使用php的话），否则是无法正常匹配的。...二、通过上面的表达式我们可以匹配一段模糊的中文，那如果我们想要匹配精准的某个字或者词语呢？例如，我在做教务处爬虫时，抓取到的成绩不仅仅只是数字，还有优秀、通过、良好等。这种我们总不能漏掉吧？

1.2K2 0

python正则表达式匹配中文(Excel如何根据名字匹配编码)

这不是在做正则匹配中文时候，编码又一次成了拦路虎，在这儿记录两点。第一，字符串编码。第二，正则匹配中文。早期编码都用ASCII编码，用一个字节来处理编码。...如大写A编码为65，但处理中文时候，一个字节显然不够，至少两哥字节，还不能和ASCII冲突，，中国制定GB2312编码，把中文编进去。...由于Python源代码也是一个文本文件，所以，当你的源代码中包含中文的时候，在保存源代码时，就需要务必指定保存为UTF-8编码。...关于Python正则表达式匹配中文，其实只要同意编码就行，我电脑用的py2.7，所以字符串前加u，在正则表达式前也加u即可。...u9fa5]+") result=re.findall(pattern,str) # print result.group() for w in result: print w 更加详细正则匹配内容

1.5K3 0

正则匹配中文数字

正则匹配中文数字运营导入小说时遇到小麻烦，想要在章节目录前面加一些符号，word等工具搜半天没搜到，就想着用正则匹配试一下，于是用notepad++试了一下，正则匹配中文数字章节。...表达式为：(第[\u4e00-\u9fa5\u767e\u5343\u96f6]{1,10}章) 追加的内容\1 ---- 笔记正则匹配中文个位数，\u4e00-\u9fa5 百千零u767e\u5343...如果再其后面出现\1则是代表与第一个小括号中要匹配的内容相同。...注意：\1必须与小括号配合使用整体实现效果就是在第几章前边加上了一些你想加上的内容，如下图所示，匹配更改之前：实现后：实现为第多少章加上###符号，这个例子最大实现千位数，万位数以及以上

3.6K3 0

PHP使用正则表达式匹配中文,有部分匹配不出来的解决办法

今天在开发的时候有个需要，就是匹配出一条计价公式里的材料文本，示例：[羊脂玉价格]*[羊脂玉重量]+[白金价格]*[白金重量]+[皓石价格]*[皓石重量]+[钻石价格]*1.5*[钻石重量]+[硬金价格...]*1.67*[硬金重量]，要匹配出[***_价格]，就是中括号内，以_价格结尾的字符串（代表材料的名称），我用的语言是PHP，写了一条正则表达式出来，代码如下： $pattern = "/\\[([^..._价格]+)_价格\\]/"; $res = preg_match_all($pattern, $s, $matches); var_dump($matches); ，前面三个能匹配出来，但“钻石”一直匹配不到...，非常奇怪，后面测试了一下，跟匹配的数量没有关系，因为如果把“钻石”也改成“白金”的话是能匹配出来的，改成“石”字的话也可以匹配出来，根据这种现象判断，感觉有可能是字符集的问题，有可能是默认的字符集中是没有...“钻”这个字的，所以匹配不到，后面搜索了很多网友关于PHP使用正则匹配中文的文章，发现最全面的匹配方式是使用16进制的，换过来后，果然成功了，故分享出来，以飨大家，最终的代码如下： $s = ‘[羊脂玉价格

8671 0

中文分词 - 正向最大匹配

分词正向最大匹配方法一分词步骤收集一个词表对于一个待分词的字符串，从前向后寻找最长的，在词表中出现的词，在词边界做切分从切分处重复步骤2，直到字符串末尾实现方式找出词表中最大长度词从字符串开头开始选取最大词长度的窗口...max_word_length = max(max_word_length, len(word)) return words_dict, max_word_length 正向最大匹配...:len(word)-1] words.append(word) toCutString = toCutString(len(word):) return words 正向最大匹配

991 0

PHP——模糊匹配文件|目录

内置函数 glob函数详解 http://www.w3school.com.cn/php/func_filesystem_glob.asp

1201 0

PHP 中如何正确统计中文字数

PHP 中如何正确统计中文字数？...这个是困扰我很久的问题，PHP 中有很多函数可以计算字符串的长度，比如下面的例子，分别使用了 strlen，mb_strlen，mb_strwidth 这个三个函数去测试统计字符串的长度，看看把中文算成几个字节...3 个字节，mb_strlen 不管中文还是英文，都算 1 个字节，而 mb_strwidth 则把中文算成 2 个字节，所以 mb_strwidth 才是我们想要的：中文 2 个字节，英文 1 个字节...同样截取字符串也建议使用 mb_strimwidth，也是按照中文 2 个字节，英文 1 个字节方式计算之后的，并且如果字数超过截取的要求，这个函数还可以在最后面自动添加‘...’。...,'utf-8'); 注意，最后添加‘utf-8’编码参数，可以避免中文截取乱码的问题。 ----

8632 0

中文分词算法：逆向最大匹配法

/data/rmm_dic.utf8 南京市南京市长长江大桥人民解放军大桥 2、RMM算法 #逆向最大匹配 class RMM(object): def __init__(self, dic_path

1.9K1 0

Postgresql模糊匹配案例（包括中文前后模糊）

经常被问到为什么模糊匹配不走索引，验证几种情况（Pg9.4.18）构造测试数据 create table test(id int, info text); insert into test select...); explain (analyze,verbose,timing,costs,buffers) select * from test where info like '%4152%'; 前后模糊中文...规则对于中文，lc_ctype不能为"C"，只有TOKEN分割正确效果才是OK的在"C"的库中使用有严重性能问题 test01 DB : test06 | pg9002311 | UTF8 |...如果有前后模糊查询需求，并且包含中文，请使用lc_ctype "C"的数据库，同时使用pg_trgm插件的gin索引。 (只有TOKEN分割正确效果才是OK的。...如果有前后模糊查询需求，并且不包含中文，请使用pg_trgm插件的gin索引。如果有正则表达式查询需求，请使用pg_trgm插件的gin索引。

2.3K5 0

glob：Python中文件名的匹配

前言既然在Pathlib库中提到了glob()函数，那么我们就专门用一篇内容讲解文件名的匹配。其实我们有专门的一个文件名匹配库就叫：glob。...不过，glob库的API非常小，但是仅仅应用于文件名的匹配绰绰有余。只要是在实际的项目中需要过滤，或者匹配一组文件，都可以使用该库进行操作。...是用来匹配单字的，比如我们赛选上面1开头的图片文件。示例如下： import glob for name in glob.glob('text/1?....png'): print(name) 运行之后，效果如下：区间匹配（[0-9][a-z][A-Z]）从上面两个匹配我们看出来，glob库的匹配规则与正则表达式有些相似。...既然它能匹配模糊的，一个或多个字符，那么肯定也可以匹配区间字符。

4174 0

mysql正则匹配中文时存在的问题

可以看到，目前正则匹配字母没问题，c出现1次，2次，3次匹配的结果都是正常的接下来我们看看匹配中文的效果可以看到，当匹配连续出现歪时，结果就开始不正常了然后我去看了下mysql的中文文档中关于正则表达式的部分...然后我按上面的语法又去试了试可以看到，即使我按文档上的写法，依然存在问题正确的做法，是要用小括号把中文括起来效果如下 ?

2.4K3 0

glob：Python中文件名的匹配

前言既然在Pathlib库中提到了glob()函数，那么我们就专门用一篇内容讲解文件名的匹配。其实我们有专门的一个文件名匹配库就叫：glob。...不过，glob库的API非常小，但是仅仅应用于文件名的匹配绰绰有余。只要是在实际的项目中需要过滤，或者匹配一组文件，都可以使用该库进行操作。...是用来匹配单字的，比如我们赛选上面1开头的图片文件。示例如下：import globfor name in glob.glob('text/1?....png'): print(name)运行之后，效果如下：图片区间匹配（0-9A-Z）从上面两个匹配我们看出来，glob库的匹配规则与正则表达式有些相似。...既然它能匹配模糊的，一个或多个字符，那么肯定也可以匹配区间字符。

3886 0

PHP中文件操作相关

PHP_SELF __FILE__ trim() basename 返回路径中的文件名部分 dirname 返回路径中的文件目录跨域图片上传 substr function_exist loader

7382 0

前端基础-匹配中文（utf-8编码）

第5章匹配中文（utf-8编码）每个字符（中文、英文字母、数字、各种符号、拉丁文、韩文、日文等）都对应着一个Unicode编码。...查看Unicode编码，找到中文的部分，然后获取中文的Unicode编码的区间，就可以用正则匹配了。...前面我们用[a-z]表示小写字母，[0-9]表示数字，这就是一个范围表示，如果有一个数x能够表示第一个中文，有一个数y能够表示最后一个中文，那么[x-y]就可以表示所有的中文了。...中文的Unicode编码从4E00开始，到9FA5结束。 [\u4E00-\u9FA5]这个区间就能够表示中文。...console.log(res);//["你", "好", "世", "界"] 案例二解决结巴程序把“今今今天晚晚晚晚晚晚上吃吃吃吃吃吃鸡”字符串换成单字的形式，即“今天晚上吃鸡”；核心思想：匹配到重复的字符时

1.4K1 0

PHP中文获取拼音函数

php //中文获取拼音函数 /* return String $_String 输入的中文字符 $_Code 输出字符编码类型，默认是UTF-8 */ function pinyin($_String...10254"; $_TDataKey = explode('|', $_DataKey); $_TDataValue = explode('|', $_DataValue); $_Data = (PHP_VERSION

1.7K1 0

Java匹配中文的正则表达式

[\u4E00-\u9FA5]汉字﹐[\uFE30-\uFFA0]全角字符 [\u4E00-\u9FA5]汉字﹐[\uFE30-\uFFA0]全角字符所以说 ,Java的正则表达式是可以匹配中文字符的...,同时,用中文字符来写表达式也是可以的....正则表达式 public static void regxChinese(){ // 要匹配的字符串 String source = ""; // 将上面要匹配的字符串转换成小写 // source = source.toLowerCase();...// 匹配的字符串的正则表达式 String reg_charset = "]*?

2.2K2 0

PHP解决JSON中文显示问题

PHP如何解决JSON中文显示问题？本文主要介绍了PHP JSON格式的中文显示问题解决方法，本文总结了3种解决中文显示u开头字符问题的方法。希望对大家有所帮助。...返回json数据中文显示的问题解决方法一 php function Notice(){ include '....php /** * json 生成,分析支持中文 */ class Json_Helper { /** * 生成json */ public static...> 从网上搜索得到的相关文章当使用php自带的json_encode对数据进行编码时，中文都会变成unicode，导致不可读。...加上这个选项后，就不会自动把中文编码了。

1.9K2 0

php str_split 解决中文

php /** * @version $Id: str_split.php * @package utf8 * @subpackage strings */ function utf8_str_split

1.1K9 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭