正则表达式中的最大十六进制值问题怎么解决?

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (5)
  • 关注 (0)
  • 查看 (109)

不使用u标记可以使用的十六进制范围是[\x{00}-\x{ff}],但是u将其标记为4字节值。\x{7fffffff}(二)[\x{00000000}-\x{7fffffff}])。

因此,如果我执行以下代码:

preg_match("/[\x{00000000}-\x{80000000}]+/u", $str, $match);

会得到这个错误:

Warning: preg_match(): Compilation failed: character value in \x{...} sequence is too large

所以我无法匹配像这样的字母?有等效十六进制值的f0 a1 83 81问题不是如何匹配这些字母,而是这个范围和边界是如何来自于u饰符应将字符串视为UTF-16

PCRE自8.30以来支持UTF-16。

echo PCRE_VERSION;

PCRE版本,PHP 5.3.24-5.3.28,5.4.14-5.5.7:

8.32 2012-11-30

PCRE版本,PHP 5.3.19-5.3.23,5.4.9-5.4.13:

8.31 2012-07-06

http://3v4l.org/CrPZ8

提问于
用户回答回答于

对于UTF-32,不能超过31位,因为32是符号位.

0x00000000 - 0x7FFFFFFF

有意义因为unsigned int数据类型是32位硬件寄存器的自然大小.

对于UTF-16,更真实的是,可以看到同样的限制到16位。位32仍然是离开的符号位。0x0000 - 0xFFFF作为有效范围。

通常,如果你使用支持ICU的引擎,你应该能够使用它,

将源和正则表达式转换为UTF-32。Boost Regex就是这样的引擎之一。

我使用了一些方便的、伪代码代理项转换:

 Definitions:
 ====================
 10-bits
  3FF = 000000  1111111111

 Hi Surrogate
 D800 = 110110  0000000000
 DBFF = 110110  1111111111 

 Lo Surrogate
 DC00 = 110111  0000000000
 DFFF = 110111  1111111111


 Conversions:
 ====================
 UTF-16 Surrogates to UTF-32
 if ( TESTFOR_SURROGATE_PAIR(hi,lo) )
 {
    u32Out = 0x10000 + (  ((hi & 0x3FF) << 10) | (lo & 0x3FF)  );
 }

 UTF-32 to UTF-16 Surrogates
 if ( u32In >= 0x10000)
 {
    u32In -= 0x10000;
    hi = (0xD800 + ((u32In & 0xFFC00) >> 10));
    lo = (0xDC00 + (u32In & 0x3FF));
 }

 Macro's:
 ====================
 #define TESTFOR_SURROGATE_HI(hs) (((hs & 0xFC00)) == 0xD800 )
 #define TESTFOR_SURROGATE_LO(ls) (((ls & 0xFC00)) == 0xDC00 )
 #define TESTFOR_SURROGATE_PAIR(hs,ls) ( (((hs & 0xFC00)) == 0xD800) && (((ls & 0xFC00)) == 0xDC00) )
 //
 #define PTR_TESTFOR_SURROGATE_HI(ptr) (((*ptr & 0xFC00)) == 0xD800 )
 #define PTR_TESTFOR_SURROGATE_LO(ptr) (((*ptr & 0xFC00)) == 0xDC00 )
 #define PTR_TESTFOR_SURROGATE_PAIR(ptr) ( (((*ptr & 0xFC00)) == 0xD800) && (((*(ptr+1) & 0xFC00)) == 0xDC00) )

热门问答

腾讯云广州一区DNS变更,需要怎么操作?

思潮澎湃轻描淡写的生活,但思潮澎湃
推荐
我也收到相关的通知了,这里分享下~ 2019年1月31日,腾讯云将对广州地区旧的基础网络DNS服务器(10.225.30.181、10.225.30.223)进行下线。在此期间,腾讯云提供最新的DNS服务器供您更新使用。 我们建议您尽快将DNS服务器配置进行更新,并且我们为您提供...... 展开详请

快照容量与费用的比例?如何关闭停用?

帅的惊动我国计算机大神
推荐已采纳
快照已于2019年1月22日0时启动正式商业化进程,商业化后所有存量快照和新产生的快照将根据快照使用的存储容量进行收费。 在快照商业化后,腾讯云仍旧会在国内主要地域为用户提供一定量的免费额度。免费额度策略如下: 免费额度覆盖范围为中国大陆地域,中国香港及海外地域暂无免费快照额...... 展开详请

语音短信,怎么才能买到深圳的号码?

推荐已采纳

您好,语音号码受运营商监管管控使用,运营商所提供的号码是专门的用途使用,当前没有深圳号码,可以关注号码池的号码状态,谢谢。

请教关于云服务的运维升级的问题?

Eli Qiao

腾讯 · 高级工程师 (已认证)

腾讯云CVM后台高级研发工程师
推荐
关于云服务的运维升级的几个问题: 1 IaaS 1.1 用户购买了IaaS,比如一个虚机;云厂商在云的运维中(例如,升级服务器),是否会升级&迁移用户的虚机到新的硬件上面;还是保留用户的虚机在老的硬件上不动,直到用户自己调整? ---- 看服务器要如何升级了,有可能迁移走,有可能...... 展开详请

对象存储怎么第三方上传视频和文件?

我是预言家你有freestyle么
推荐
只需要使用对象存储,官方提供了对应的SDK,包含demo文件,可以查看下 api文档很简单,调方法即可 php的:https://cloud.tencent.com/document/product/436/12266 javascript:https://cloud.tence...... 展开详请

无服务器云函数的cron表达式问题?

腾讯云serverless团队

腾讯云 · 产品团队 (已认证)

腾讯云无服务器云函数SCF产品
推荐
https://cloud.tencent.com/document/product/583/9708#cron-.E8.A1.A8.E8.BE.BE.E5.BC.8F.E8.AF.AD.E6.B3.95.E4.B8.80.EF.BC.88.E6.8E.A8.E8.8D.90.E...... 展开详请

所属标签

扫码关注云+社区