首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >C++中的unicode字符串操作

C++中的unicode字符串操作
EN

Stack Overflow用户
提问于 2014-04-26 18:26:38
回答 1查看 484关注 0票数 0

我在linux mint 15中使用的是gcc,我的终端支持unicode。我将处理UTF-8。我正在尝试获取一个更复杂的unicode字符串的基本单词。有点像把“alternative”这个词改成了“alternat”,但用的是不同的语言。因此,我需要测试每个单词的结尾。

在c和ASCII中,我可以做这样的事情。

代码语言:javascript
运行
复制
if(string[last_char]=='e')
    last_char-=1; //Throws away the last character

我能用unicode做类似的事情吗?也就是说,就像这样:

代码语言:javascript
运行
复制
if(string[last_char]=='ഒ')
    last_char=-1
EN

回答 1

Stack Overflow用户

发布于 2014-04-26 18:41:18

编辑:对不起,正如@chux所说,我刚刚通知你用C语言提问。不管怎样,同样的原则也适用。

在C中,您可以使用wscanfwprintf对宽字符字符串执行I/O操作。如果你的角色在BMP中,你就不会有问题。只需用wchar_t *替换char *,就可以像往常一样做各种事情。

对于严肃的开发,我建议将所有字符串转换为char32_t进行处理。或者使用像ICU这样的库。

如果您只需要删除字符串中的一些给定字符,那么您可能不需要复杂的unicode字符处理。将unicode字符视为原始char *字符串,并对其执行任何字符串操作。

下面转载了旧的面向C++的答案,以供参考。

简单的方法

使用std::wstring

它基本上是一个std::string,但输入的是单个字符wchar_t

对于IO,您应该使用std::wcinstd::wcout。例如:

代码语言:javascript
运行
复制
std::wstring str;
std::wcin >> str;
std::wcout << str << std::endl;

但是,在某些平台上,wchar_t是2字节宽的,这意味着BMP之外的字符将不起作用。我认为这对你来说应该没问题,但不应该在严肃的开发中使用。有关此主题的更多文本,请阅读this

艰难的道路

使用更好的支持unicode的字符串处理库,如ICU

C++11方式

使用一些机制将输入字符串转换为std::u32string,就完成了。转换例程可以是手工创建的,也可以使用现有的库,如ICU。

由于std::u32string是使用char32_t形成的,因此您可以放心地假定您正确地处理了Unicode。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/23309571

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档