我在linux mint 15中使用的是gcc,我的终端支持unicode。我将处理UTF-8。我正在尝试获取一个更复杂的unicode字符串的基本单词。有点像把“alternative”这个词改成了“alternat”,但用的是不同的语言。因此,我需要测试每个单词的结尾。
在c和ASCII中,我可以做这样的事情。
if(string[last_char]=='e')
last_char-=1; //Throws away the last character
我能用unicode做类似的事情吗?也就是说,就像这样:
if(string[last_char]=='ഒ')
last_char=-1
发布于 2014-04-26 10:41:18
编辑:对不起,正如@chux所说,我刚刚通知你用C语言提问。不管怎样,同样的原则也适用。
在C中,您可以使用wscanf
和wprintf
对宽字符字符串执行I/O操作。如果你的角色在BMP中,你就不会有问题。只需用wchar_t *
替换char *
,就可以像往常一样做各种事情。
对于严肃的开发,我建议将所有字符串转换为char32_t
进行处理。或者使用像ICU
这样的库。
如果您只需要删除字符串中的一些给定字符,那么您可能不需要复杂的unicode字符处理。将unicode字符视为原始char *
字符串,并对其执行任何字符串操作。
下面转载了旧的面向C++的答案,以供参考。
简单的方法
它基本上是一个std::string
,但输入的是单个字符wchar_t
。
对于IO,您应该使用std::wcin
和std::wcout
。例如:
std::wstring str;
std::wcin >> str;
std::wcout << str << std::endl;
但是,在某些平台上,wchar_t
是2字节宽的,这意味着BMP之外的字符将不起作用。我认为这对你来说应该没问题,但不应该在严肃的开发中使用。有关此主题的更多文本,请阅读this。
艰难的道路
使用更好的支持unicode的字符串处理库,如ICU。
C++11方式
使用一些机制将输入字符串转换为std::u32string
,就完成了。转换例程可以是手工创建的,也可以使用现有的库,如ICU。
由于std::u32string
是使用char32_t
形成的,因此您可以放心地假定您正确地处理了Unicode。
https://stackoverflow.com/questions/23309571
复制