首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

UNICODE,GBK,UTF-8

UNICODE,GBK,UTF-8 UNICODE,GBK,UTF-8     简单来说,unicode,gbk和大五码就是编码的值,而utf-8,uft-16之类就是这个值的表现形式.而前面那三种编码是一兼容的...,同一个汉字,那三个码值是完全不一样的.如"汉"的uncode值与gbk就是不一样的,假设uncode为a040,gbk为b030,而uft-8码,就是把那个值表现的形式.utf-8码完全只针对uncode...按照程序员的称呼,GB2312、GBK都属于双字节字符集 (DBCS)。 2000年的GB18030是取代GBK1.0的正式国家标准。...所以GBK和GB18030的低字节最高位都可能不是1。...是按照Unicode编码解释、还是按照GBK解释、还是按照BIG5解释,还是按照ISO8859-1去解释?如果按GBK去解释,就会得到“汉字”两个字。

2.6K20
您找到你想要的搜索结果了吗?
是的
没有找到

Unicode,GBK和UTF-8

('utf8').decode('gbk') 浣犲ソ 如上面的代码所示, “你好"两个汉字字符的unicode分别为4f60和597d, utf-8编码后占6个字节, 而gbk编码后占4个字节....如果用utf8编码后错误地用gbk来解码, 就会得到3个unicode码点,分别表示字符浣,犲和ソ;而如果用gbk编码后 错误地用utf8来解码, 则在解码第二个字符时无法凑够3个字节, 因此会得到未知的结果...注: 本文的python代码示例是在Linux Terminal下运行的, 因此默认为utf-8编码, 如果你是在Windows cmd里运行, 则通常默认GBK编码, 因此乱码会在不同地方出现:)...’屯’的gbk编码, 如下所示: >>> u'烫' u'\u70eb' >>> u'烫'.encode('gbk') '\xcc\xcc' >>> u'屯' u'\u5c6f' >>> u'屯'.encode...('utf8')*2).decode('gbk') 锟斤拷 可以看到,汉字"锟斤铐”(Unicode)的gbk编码分别为\xef\xbf, \xbd\xef和\xbf\xbd, 正好是unicode码FFFD

1.5K20

GBK标准入门介绍与学习总结

[TOC] 0x00 基础介绍 中文字符标准编码: GBK,GB2312,GB18030 产生原因: 空间占用 因为UTF-8是Unicode的一种实现,所以他包含了世界上的所有文字的编码,但是他采用的是...后来厂商微软利用GB2312-80未使用的编码空间,收录GB 13000.1-93全部字符制定了GBK编码。...常用的中文编码有GBK(常用),GB2312,GB18030: GB2312(1980年):16位字符集,收录有6763个简体汉字,682个符号,共7445个字符; 优点:适用于简体中文环境,属于中国国家标准...国际标准 ;所有字符都可以一对一映射到unicode2.0上; 缺点:不属于官方标准,和big5之间需要转换;很多搜索引擎都不能很好地支持GBK汉字。...) { //中文字符GBK码表 System.out.println('中' + 0); //gbk码表一一对应 System.out.println('文' + 0);

82910

GBK标准入门介绍与学习总结

[TOC] 0x00 基础介绍 中文字符标准编码: GBK,GB2312,GB18030 产生原因: 空间占用 因为UTF-8是Unicode的一种实现,所以他包含了世界上的所有文字的编码,但是他采用的是...后来厂商微软利用GB2312-80未使用的编码空间,收录GB 13000.1-93全部字符制定了GBK编码。...常用的中文编码有GBK(常用),GB2312,GB18030: GB2312(1980年):16位字符集,收录有6763个简体汉字,682个符号,共7445个字符; 优点:适用于简体中文环境,属于中国国家标准...国际标准 ;所有字符都可以一对一映射到unicode2.0上; 缺点:不属于官方标准,和big5之间需要转换;很多搜索引擎都不能很好地支持GBK汉字。...) { //中文字符GBK码表 System.out.println('中' + 0); //gbk码表一一对应 System.out.println('文' + 0);

63620
领券