js string utf8

JavaScript 中的字符串默认使用 UTF-16 编码，但也可以通过特定的方法来处理 UTF-8 编码的字符串。以下是关于 JavaScript 字符串与 UTF-8 编码的基础概念、优势、类型、应用场景以及常见问题的解答。

基础概念

UTF-8 是一种针对 Unicode 的可变长度字符编码，能够表示 Unicode 标准中的任何字符。它使用 1 到 4 个字节来表示一个字符，对于 ASCII 字符集，UTF-8 使用一个字节，这使得它与 ASCII 兼容。

优势

兼容性：UTF-8 能够兼容 ASCII 编码，同时也能够表示所有 Unicode 字符。
空间效率：对于纯 ASCII 文本，UTF-8 编码与 ASCII 编码相同，节省空间。对于非拉丁字符，它也能有效地使用字节空间。

类型与应用场景

类型：UTF-8 可以编码任何 Unicode 字符，适用于国际化应用。
应用场景：网页开发、文件存储、网络传输等需要处理多语言文本的场景。

示例代码

以下是一些在 JavaScript 中处理 UTF-8 字符串的示例：

将字符串转换为 UTF-8 编码的字节序列

function toUTF8Array(str) {
    const utf8 = [];
    for (let i = 0; i < str.length; i++) {
        let charCode = str.charCodeAt(i);
        if (charCode < 0x80) {
            utf8.push(charCode);
        } else if (charCode < 0x800) {
            utf8.push(0xc0 | (charCode >> 6), 0x80 | (charCode & 0x3f));
        } else if (charCode < 0xd800 || charCode >= 0xe000) {
            utf8.push(0xe0 | (charCode >> 12), 0x80 | ((charCode >> 6) & 0x3f), 0x80 | (charCode & 0x3f));
        } else {
            i++;
            charCode = 0x10000 + (((charCode & 0x3ff) << 10) | (str.charCodeAt(i) & 0x3ff));
            utf8.push(0xf0 | (charCode >> 18), 0x80 | ((charCode >> 12) & 0x3f), 0x80 | ((charCode >> 6) & 0x3f), 0x80 | (charCode & 0x3f));
        }
    }
    return utf8;
}

console.log(toUTF8Array('Hello, 世界!')); // 输出 UTF-8 编码的字节数组

将 UTF-8 编码的字节序列转换回字符串

function fromUTF8Array(utf8) {
    let str = '';
    let i = 0;
    while (i < utf8.length) {
        let byte1 = utf8[i++];
        if (byte1 < 0x80) {
            str += String.fromCharCode(byte1);
        } else if (byte1 < 0xe0) {
            let byte2 = utf8[i++];
            str += String.fromCharCode(((byte1 & 0x1f) << 6) | (byte2 & 0x3f));
        } else if (byte1 < 0xf0) {
            let byte2 = utf8[i++];
            let byte3 = utf8[i++];
            str += String.fromCharCode(((byte1 & 0x0f) << 12) | ((byte2 & 0x3f) << 6) | (byte3 & 0x3f));
        } else {
            let byte2 = utf8[i++];
            let byte3 = utf8[i++];
            let byte4 = utf8[i++];
            let codePoint = ((byte1 & 0x07) << 18) | ((byte2 & 0x3f) << 12) | ((byte3 & 0x3f) << 6) | (byte4 & 0x3f);
            str += String.fromCharCode(0xd800 + ((codePoint - 0x10000) >> 10), 0xdc00 + (codePoint & 0x3ff));
        }
    }
    return str;
}

const utf8Bytes = toUTF8Array('Hello, 世界!');
console.log(fromUTF8Array(utf8Bytes)); // 输出原始字符串