从std::string/char const*创建std::u8string，而后者已在utf-8中

std::u8string 是 C++20 中引入的一种新字符串类型，用于表示 UTF-8 编码的字符序列。要从 std::string 或 char const* 创建 std::u8string，你需要确保源字符串已经是有效的 UTF-8 编码，因为 std::u8string 不会自动执行编码转换。

基础概念

UTF-8: 是一种针对 Unicode 编码的可变长度字符编码，能够表示 Unicode 标准中的任何字符。
std::u8string: 是 C++20 引入的字符串类型，用于存储 UTF-8 编码的字符序列。

类型与应用场景

类型: std::u8string 是基于 char8_t 类型的字符串，char8_t 是专门为 UTF-8 编码设计的字符类型。
应用场景: 当你需要处理国际化文本，或者需要与使用 UTF-8 编码的系统交互时，std::u8string 是一个很好的选择。

示例代码

从 `std::string` 创建 `std::u8string`

#include <iostream>
#include <string>
#include <codecvt>
#include <locale>

int main() {
    std::string utf8_str = "你好，世界！"; // 假设这个字符串已经是 UTF-8 编码

    // 直接构造 std::u8string
    std::u8string u8str(utf8_str.begin(), utf8_str.end());

    // 输出验证
    for (char8_t c : u8str) {
        std::cout << static_cast<int>(c) << ' ';
    }
    std::cout << std::endl;

    return 0;
}

从 `char const*` 创建 `std::u8string`

#include <iostream>
#include <string>

int main() {
    char const* utf8_cstr = u8"你好，世界！"; // UTF-8 字符串字面量

    // 直接构造 std::u8string
    std::u8string u8str(utf8_cstr);

    // 输出验证
    for (char8_t c : u8str) {
        std::cout << static_cast<int>(c) << ' ';
    }
    std::cout << std::endl;

    return 0;
}

遇到的问题及解决方法

如果你在创建 std::u8string 时遇到问题，可能是因为源字符串不是有效的 UTF-8 编码。在这种情况下，你需要先验证并修复源字符串的编码。

验证 UTF-8 编码

你可以使用一些工具或库来验证字符串是否为有效的 UTF-8 编码，例如 std::regex 或第三方库如 utf8cpp。

修复 UTF-8 编码

如果字符串不是有效的 UTF-8 编码，你需要将其转换为有效的 UTF-8。这可能涉及到使用编码转换库，如 iconv 或 C++11 中的 std::wstring_convert 和 std::codecvt_utf8。

#include <iostream>
#include <string>
#include <locale>
#include <codecvt>

int main() {
    std::string non_utf8_str = "Some non-UTF8 string..."; // 假设这个字符串不是 UTF-8 编码

    // 使用 codecvt_utf8 进行编码转换
    std::wstring_convert<std::codecvt_utf8<char32_t>, char32_t> converter;
    std::u32string u32str = converter.from_bytes(non_utf8_str);

    // 再次转换为 UTF-8 编码的 std::u8string
    std::u8string u8str = converter.to_bytes(u32str);

    // 输出验证
    for (char8_t c : u8str) {
        std::cout << static_cast<int>(c) << ' ';
    }
    std::cout << std::endl;

    return 0;
}

请注意，上述代码示例假设你的环境支持 C++17 或更高版本，并且已经正确配置了 UTF-8 编码的支持。在实际应用中，你可能需要根据具体情况调整代码。