// 示例名称:
var str = “阿bc?d的fg?hm天l”;
// 将名称拆分为数组,注意: 这样会将表情拆分为两项,其值为代理对.
// 并且因为,代理对无法被浏览器识别,所以它们的值可能会被转化为 U+feff
var strArr = str.split(“”),
result = “”,
totalLen = 0;
for(var idx = 0; idx < strArr.length; idx ++) {
// 超出长度,退出程序
if(totalLen >= 16) break;
var val = strArr[idx];
// 英文,增加长度1
if(/[a-zA-Z]/.test(val)) {
totalLen = 1 + (+totalLen);
result += val;
}
// 中文,增加长度2
else if(/[\u4e00-\u9fa5]/.test(val)) {
totalLen = 2 + (+totalLen);
result += val;
}
// 遇到代理字符,将其转换为 “口”, 不增加长度
else if(/[\ud800-\udfff]/.test(val)) {
// 代理对长度为2,
if(/[\ud800-\udfff]/.test(strArr[idx + 1])) {
// 跳过下一个
idx ++;
}
// 将代理对替换为 “口”
result += “口”;
}
};
再说一下我的思路:
1) 首先我知道,这些表情其实也是一种文字,它可以看做某个UTF-16 的码点.可以参见这个附录:
2) 这些表情的码点在UTF-16中是有自己的范围的.而JS中可以通过正则表达式来检测一个文字的码点值
.从而判断它的类型,同理也可以用来判断它是不是 中文/英文等.在这个问题里,只需要判断其是否为中
文/英文即可.
3) 为什么是8个中文/16个英文啊?这到底是谁规定的? UTF8 是变长的,中文可能是 2-3个长度,UTF16 里面
中文和英文长度是一样的.所以我很想知道这个规则是干什么的?
PS: 这里的长度是编码单元长度,以 UTF16/UCS2 为例, 一个编码单元16位、2个字节,在UTF16下英文和中文
都是 U+0000 这样的形式,长度相等.除了部分代理对,它们的长度为2,占用32位、两个编码单元外(有无为3的我还
真不知道)。
欢迎大家来讨论.
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/230608.html原文链接:https://javaforall.cn
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有