开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

C++字符串:UTF-8还是16位编码？

在C++中，字符串通常表示为const char*指针。字符串编码的选择会影响其内存占用及性能，UTF-8和16位编码是常用的两种编码方式。以下是它们的一些详细信息：

UTF-8 编码：是Unicode字符集的一种变长字符编码格式。它将世界上所有字符编码为一个统一的字节序列。UTF-8支持多字节字符，因此可以表示世界上大多数语言的字符。
16位编码：是一种固定长度的字节表示，也称为ASCII编码。16位编码包括128个字符，如大小写字母、数字和特殊符号。它是最早的一种编码方式，但因其受限的字符集限制了它无法表示所有Unicode字符。

C++中字符串采用默认编码为UTF-8，但也可以使用内置方法将其设置为16位编码。以下是一个例子：

#include<iostream>
#include<string>

int main() {
    // 初始化一个字符串为UTF-8编码
    std::string utf8String = "我爱编程";

    // 设置一个字符串为16位编码
    std::string ansiString = "ASCII";
    std::string alternateEncoding;
    if (ansiString.empty()) {
        alternateEncoding = "16bit";
    } else {
        alternateEncoding = "ANSI_CHARSET";
    }

    // 输出编码为16位编码的字符串
    std::cout << "16-bit encoding used: \""<< alternateEncoding<< "\".\n";

    return 0;
}

在实际应用中，选择使用哪种字符串编码需要考虑如下方面：

字符集完整性：UTF-8编码可以表示来自大多数语言的字符，更适用于需要处理多语言环境的项目。而16位编码仅涵盖了基础ASCII字符集，对一些特殊字符处理则不够理想。
内存占用和性能：通常情况下，UTF-8编码在内存和性能上比16位编码更具优势。UTF-8编码的每个字节都只占一位，而ASCII编码使用16位。这意味着更大的字符空间，更低的内存分配和更快的执行速度。

在选择字符串编码时，还需要注意内存的使用（字符集大小和相关字节序列），以及字符编码转换时的性能损耗。

相关搜索:ISO-8859-1编码字符串到UTF-8字符串 javascript UTF-16或UTF-8中的字符串编码 MSVC是双编码UTF-8字符串，为什么？nodejs UTF-8编码字符串有黑色问号 PostgreSQL C++ libpq编码UTF-8问题 Python -将非英语UTF-8编码的字符串转换为字符列表 Python 3打印utf-8编码字符串问题 utf-8编码和获取字符串片 UTF-8编码字符串的字节计数不符合预期 UTF-8编码将字符串转换为具有陌生字符的字节

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

JAVA字符串转成utf-8编码方式

参考链接： Java字符串之-length() 现在自己写了一个java的，以供参考。 ...UTF-8 编码介绍 UTF-8 编码是一种被广泛应用的编码，这种编码致力于把全球的语言纳入一个统一的编码，目前已经将几种亚洲语言纳入。 ...UTF-8 编码兼容了 ASC II(0-127)，也就是说 UTF-8 对于 ASC II 字符的编码是和 ASC II 一样的。 ...例如： Unicode 字符： 00 A9（版权符号） = 1010 1001， UTF-8 编码为：11000010 10101001 = 0x C2 0xA9; 字符 22 60 (不等于符号...) = 0010 0010 0110 0000， UTF-8 编码为：11100010 10001001 10100000 = 0xE2 0x89 0xA0 package com.lang.string

1.9K2 0

C++之ARX 读取配置文件内容时，会出现编码问题（utf-8转unicode）

CString CConvert::UTF82WCS(const char* szU8) { //预转换，得到所需空间的大小; int wcsLen = ...

1422 0

java 字符串编码转换字符集编码的见解心得体会（跟之前那个C++编码随笔对应）

Java要转换字符编码：就一个String.getBytes("charsetName")解决，返回的字节数组已经是新编码的了~~至于后边是new String组装还是网络发送，就再处理了。...UTF-8 4 System.out.println(test);　　　　　　　　//getBytes已经是转码操作，不填的就默认用系统规定的 5 System.out.println...8 Logger.getLogger(Main.class.getName()).log(Level.SEVERE, null, ex); 9 } 输出结果： UTF...getBytes已经把字符串逐个字符按UTF8格式，拆散为N个字节。 //后边硬用GB2312来解释这N个字节，肯定乱码。...虽然程序默认编码是UTF8，这不代表程序中用GB2312编码的字符串就无法正确显示。（这是我个人之前的误解）因为out.println的时候，系统会自动处理。

2.4K3 0

C++ 新特性学习（六） — 新的字符串编码和伪随机数

其实这个部分是我觉得最没用的部分新的字符编码注：这部分仅测过GCC，VS暂不支持在旧的标准C++中支持两种字符编码。直接使用””将产生const char。...新标准中增加了三种，即UTF-8、UTF-16和UTF-32。使用u8″”为能至少储存UTF-8的8位元编码。使用u””为能至少储存UTF-16的16位元编码,对应’\u’表示16位元的字符。...使用U””为能至少储存UTF-32的32位元编码,对应’\U’表示16位元的字符。...,申明方法是R”标识符(字符串)标识符”，并且这里的字符串的”和\是不需要转义的。...而目前输入和输出都不能直接操作这些编码。也就是关键的部分还得自己来。

6041 0

【编码狂想】深度探索C++编程之旅：“数组、字符串、函数与KMP算法解密“

;i++){ cin>>a[i]; } Disp(a,n); func(a, n); Disp(a,n); return 0; } 1.3 C+...int i=0;i<n;i++){ cin>>a[i]; } MpSort(a,n); Disp(a,n); return 0; } 1.4 C+...=0;i<n;i++){ cin>>a[i]; } ChooseSort(a,n); Disp(a,n); return 0; } 1.5 C+...输入描述：键盘输入两个字符串 输出描述：输出两个字符串拼接后的结果示例1 输入： hello nihao 输出： hellonihao 解决如下： C++很简单，主要是使用C语言解决问题。...描述键盘输入两个字符串 str 和 substr，统计字符串 substr 在 字符串 str 中出现的次数，并输出。

1301 0

Android JNI 基础知识

获得字符串的长度：由于 UTF-8 编码的字符串以 \0 结尾，而 Unicode 字符串不是，所以对于两种编码获得字符串长度的函数也是不同的。...GetStringLength 获得 Unicode 编码的字符串的长度。 GetStringUTFLength 获得 UTF-8 编码的字符串的长度，或者使用 C 语言的 strlen 函数。...GetStringRegion 获得 Unicode 编码的字符串指定内容。 GetStringUTFRegion 获得 UTF-8 编码的字符串指定内容。.../ ReleaseStringUTFChars 获得或释放一个指向 UTF-8 编码的字符串的指针（指 C/C++ 字符串） GetStringLength 返回 Unicode 编码的字符串的长度...getStringUTFLength 返回 UTF-8 编码的字符串的长度 NewString 将 Unicode 编码的 C/C++ 字符串转换为 Java 字符串 NewStringUTF 将 UTF

1.5K3 0

JNI：操作字符串String

Unicode ( UTF-16 ) 编码，即每个字符不论是中文、英文还是符号，一个字符总是占两个字节 Java 通过 JNI 接口可以将 Java的字符串转换到 C/C++ 中的宽字符串（wchar_t...*），或者是传回一个UTF-8的字符串（char*）到 C/C++。...反过来，C/C++ 可以通过一个宽字符串，或者是一个 UTF-8 编码的字符串来创建一个Java端的 String 对象 2.1 GetStringChars & GetStringUTFChars...，不过还是会根据情况传回拷贝过的字符串 不支持GetStringUTFCritical，没有这样的函数。...，不会抛出OutOfMemoryError 异常 //拷贝Java字符串并以UTF-8编码传入buffer GetStringUTFRegion( jstring srt, jsize start, jsize

9984 0

Android JNI出坑指南

通过jni的NewStringUTF方法把C++的字符串转换为jstring时，如果入参为emoji表情或其他非Modified UTF8编码字符将导致Crash。...另外使用jni的GetStringUTFChars方法把jstring转换为C++字符串时得到的字符串编码为Modified UTF8，如果直接传递到服务端或其他使用方，emoji表情将出现解析失败的问题...这保证了在已编码字符串中没有嵌入空字节。因为C语言等语言程序中，单字节空字符是用来标志字符串结尾的。当已编码字符串放到这样的语言中处理，一个嵌入的空字符将把字符串一刀两断。...这个改正的编码系统保证了一个已编码字符串可以一次编为一个UTF-16码，而不是一次一个Unicode码点。不幸的是，这也意味着UTF-8中需要4字节的字符在变种UTF-8中变成需要6字节。...可以先将Java的String用UTF-8编码转换成byte数组，再转换成C/C++字符串即可保证字符编码为UTF-8。下面是Java与C++使用UTF-8字符串交互的方法供参考。

4.3K7 1

中文乱码问题-1

源码文件是使用何种编码保存的执行字符集(the execution character set) 可执行程序内保存的是何种编码(程序执行时内存中字符串编码) C++98的问题：既没有规定源码字符集...对GCC来说，这个问题很简单(默认的编码选项足够了)：只要源码文件保存成UTF-8即可(带或不带BOM均可) 早期的GCC不接收带BOM的UTF-8源码文件，现在，至少在GCC4.6中，这一限制不再存在...尽管这个东西不保证跨平台，也很不好玩，但是，由于在windows下面wchar_t用来表示utf16字符，而且直接对应系统API接口，所以在类型char16_t普及之前，还是很重要的。...简单的处理办法还是，使用带BOM的UTF8保存。...所以最好的方法还是将源文件转换为UTF-8的格式，至于加不加BOM，打算在下一篇博文进行探究。

1.3K2 0

Node进阶-探究不在V8堆内存中存储的Buffer对象

字符串也是同理，可以根据ASCII编码规则或者unicode编码规则（如utf-8）等和二进制进行相互转换。...2、Buffer.from(根据内容直接创建Buffer) Buffer.from(str, ) 支持三种传参方式：第一个参数为字符串，第二个参数为字符编码，如 ASCII、 UTF-8、 Base64...传入字符串和字符编码： // 传入字符串和字符编码 let buf = Buffer.from("hello", "utf8"); console.log(buf); // <Buffer 68 65...创建的 Buffer 可以通过 toString 方法直接指定编码进行转换，默认编码为 UTF-8。...网络IO，其中包含的数据格式都是未知的，有可能是字符串，音频，视频，网络包等等，即使就是字符串，它的编码格式也是未知的，可能 ASC编码，也可能 utf-8编码，对于这些未知的情况，还不如直接使用最通用的格式

9962 0

Node进阶-探究不在V8堆内存中存储的Buffer对象

字符串也是同理，可以根据ASCII编码规则或者unicode编码规则（如utf-8）等和二进制进行相互转换。...2、Buffer.from(根据内容直接创建Buffer) Buffer.from(str, ) 支持三种传参方式：第一个参数为字符串，第二个参数为字符编码，如 ASCII、 UTF-8、 Base64...传入字符串和字符编码： // 传入字符串和字符编码 let buf = Buffer.from("hello", "utf8"); console.log(buf); // <Buffer 68 65...创建的 Buffer 可以通过 toString 方法直接指定编码进行转换，默认编码为 UTF-8。...网络IO，其中包含的数据格式都是未知的，有可能是字符串，音频，视频，网络包等等，即使就是字符串，它的编码格式也是未知的，可能 ASC编码，也可能 utf-8编码，对于这些未知的情况，还不如直接使用最通用的格式

7132 0

【QT】QString、QLatin1String、QStringLiteral

，并将字符串从UTF-8转为UTF-16的unicode字符。...---- QLatin1String 在Qt5中，我们把char* 字符串的默认编码改成了UTF-8。但是相对纯ASCII或者latin1而言，很多算法处理UTF-8编码数据的时候会慢很多。...，然后把字符串拷贝过去，如果这样的调用比较多，那还是一笔不小的开销。...宏在编译时，从字符串文字生成QString数据，QString的内部数据将在编译时生成，在运行时不会发生任何转换或内存分配，使用QStringLiteral来代替C++中的双重数值传递将会在编译的时候显著的提升运行效率...**优点:**使用QStringLiteral而不是双引号的普通C++的字符串可显著加快从编译时已知的数据创建QString示例的速度，相对来说有QLatin1String参数重载的比使用QStringLieral

6642 0

C++11 Unicode支持

至于UTF-8编码的Unicode数据，C++11还是使用了8bits宽度的char类型数组来表示，而char16_t和char32_t的宽度由其名称可以看出，char16_t为16bits，char32...C++98中有两种定义字符串的方式，一是直接使用双引号定义多字节字符串，二是通过前缀“L”表示wchar_t字符串（宽字符串）。至此，C++中共有5种定义字符串的方式。...当编译器处理字符串时，可以通过前缀来判断字符串的编码类型，如果目标编码与原编码不同，则编译器会进行转换，比如C++11中的前缀u8表示目标编码为UTF-8的字符，如果代码文件采用的是GBK，编译器按照UTF...比如Linux虚拟终端XShell，配置终端编码类型为GBK，则无法显示输出的UTF-8编码字符串。...这里的多字节字符串不仅可以试UTF-8，也可以是GBK或者其它编码，实际依赖于locale所采用的编码方式。

2.5K3 1

python 字符串(字符序列)和字节序列

字符序列(string) -> 字节序列(bytes) -------------编码(encode) >>> "你好".encode("utf-8") b'\xe4\xbd\xa0\xe5\xa5\...chardet >>> chardet.detect(b) 解决乱码和混合编码忽略错误编码 >>> b_2.decode("utf-8", errors='ignore') '你好' 利用鬼符来替换...>>> b_2.decode("utf-8", errors='replace') '你好��' 字符串的CRUD操作通过dir("")可以查看当前字符串的操作方法 Create(创建) + >>>...>>', ' >', ' >'] join(拼接) >>> b ['>', ' >', ' >'] >>> ",".join(b)..., 写, 追加), 编码格式 output = open("output.txt", "w", encoding="utf-8") content = "hello, world" # 正式写入文件 output.write

6011 0

技术日志挑战——第2天：0725

它们在 Qt 和标准 C++ 中都是相同的。...使用三元表达式决定 greeting 应该是 "Good morning" 还是 "Good evening"。使用 qDebug() 打印出 greeting 的值。...编码：通常使用 ASCII 编码，但也可以用于其他编码方式（如 UTF-8）。范围：可以表示从 -128 到 127 或从 0 到 255 的整数值，具体取决于是否使用有符号或无符号类型。...使用场景：主要用于 C++ 标准字符串（如 std::string）和 C 风格字符串（如 char[] 或 char*）。...主要区别总结编码支持：char 主要用于 ASCII 或 UTF-8 编码，而 QChar 用于 Unicode 编码。内存占用：char 通常占用 1 字节，而 QChar 占用 2 字节。

1121 0

C++11 原生字符串

C++作为一门高级程序设计语言，自然不能自甘落后，从C++11开始，C++也开始支持原生字符串。很多时候，当我们需要一行字符串的时候，字符串转义往往成了一个负担，写和读都带了很大的不便。...在使用sizeof运算符计算不同编码的相同字符串时，得到的结果是不通的，大小跟其申明的类型是完全一致的。注意在使用cout对UTF-16和UTF-8编码的字符串进行输出时，输出的是字符串地址。...3.原生字符串的连接 C++中同样可以将原生字符串进行连接，但不要将不同编码的字符串进行连接，因为C++尚不支持这种做法。...-8 test.cpp 代码输出结果如下：你好=hello 你好=hello 13 13 可以看出，原生字符串会被编译器自动连接在一起，整个字符串“你好=hello”含有两个UTF-8编码的中文字符，...UTF-8与UTF-16两种不同编码的字符在连接时，编译报错，C++目前还不支持这种写法，请避免。 ---- 参考文献 [1]深入理解C++11[M].8.4原生字符串字面量

3.9K3 1

讲讲网络模块中加解密那点儿事--AES+BASE64提问理论代码

信息其实本质上是由二进制串组成，通过各种不同的编码格式，来将这段二进制串信息解析成具体的数据。比如 ASCII 编码定义了一套标准的英文、常见符号、数字的编码；UTF-8 则是支持中文的编码。...不同的编码所应用的场景不同，比如 UTF-8 倾向于在终端上呈现各种复杂字符包括简体、繁体中文、日文、韩文等等数据时所使用的一种编码格式。...最后将二进制的明文串以UTF-8格式编码成字符串后输出 return new String(result, Charset.forName(ENCODE)); } } Java...C++ c++ 坑爹的地方就在于，这整个流程，包括 UTF-8 编解码、AES 加解密、BASE64 编解码都得自己写。...-> 去除字符串中的换行符 -> BASE64解码 -> AES::CBC模式解密 -> 去掉AES::PKCS5Padding 填充 -> UTF-8编码 -> 明文字符串 */ string EncryptDecryptUtils

9293 0

《深入浅出Node.js》-理解Buffer

，中文在 UTF-8 编码下占用 3 个元素，字母和半角标点占用 1 个元素。...Buffer 转换 Buffer 对象可以与字符串直接互相转换，目前支持的字符串编码类型有：ASCII、UTF-8、UTF-16LE/USC-2、Base64、Binary、Hex。...字符串转 Buffer 字符串可以通过 Buffer 构造函数转换为 Buffer 对象，存储的只能说一种编码类型。encoding 参数不传递时，默认按照 UTF-8 编码进行转码和存储。...前面说到中文 UTF-8 为 3 个字节，所以前 3 个字“床前明”能够正常输出，后面 11 - 3 * 3 = 2 个字节无法正常解析为 UTF-8 的中文字符串，所以输出乱码。...在调用 toString() 的时候，默认使用 UTF-8 编码。后面的乱码都是相同的道理。

1.2K2 0

C++字符编码于MSVC和GCC之间的区别

源码文件是使用何种编码保存的执行字符集(the execution character set) 可执行程序内保存的是何种编码(程序执行时内存中字符串编码) C++98的问题：既没有规定源码字符集...对C++来说，这两个都不确定。 ...源码保存成UTF-8没有什么困难，但是，执行字符集需要是UTF-8。...尽管这个东西不保证跨平台，也很不好玩，但是，由于在windows下面wchar_t用来表示utf16字符，而且直接对应系统API接口，所以在类型char16_t普及之前，还是很重要的。 ...，对源码编码简单的处理办法还是，使用带BOM的UTF8保存。

1.1K0 0

QT 应用程序在 Windows 系统上出现中文乱码

而且这个乱码问题还非常奇怪，在 QT 界面设计器中输入的中文显示正常，但是通过 C++代码添加的字符串就有乱码问题。...难不成是字符串类的问题，但是我在代码中使用的 QString，内部就是用的 utf8编码，即使我强行指定 utf8编码，问题也没解决。...-8编码（是任何平台、任何语言都可以使用的跨平台的字符集），MSVC编译器虽然可以正常编译带BOM的UTF-8编码的源文件，但是生成的可执行文件的编码是 Windows 本地字符集，比如 GBK2312...也就是在可执行文件中，字符串“测试”是以GBK2312编码的，而可执行程序执行到这条语句时，对这个字符串却是以UTF-8解码的，这样就会出现乱码。...最后，还有一点需要注意，如果调用第三方库，在返回字符串的时候，可能不是采用的 utf8，这个时候需要显式转换编码，否则也可能出现乱码。

3971 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭