首页
学习
活动
专区
工具
TVP
发布

utf-8GB2312

Unicode、Ascall、GB2312UTF-8等字符编码之间的关系,廖老师是这样说的: 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。...但是要处理中文显然一个字节是不够的,至少需要两个字节,而且还不能和ASCII编码冲突,所以,中国制定了GB2312编码,用来把中文编进去。...所以,本着节约的精神,又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。...如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间。 看完这些,顿时对这几个编码类型的来历明白了不少。...遇到的一个比较不爽的问题就是python2对中文的输出处理,当时用的编辑器是ulipad和pycharm,糊里糊涂用的版本是4.x的,还有很多地方没完善,对中文的处理还有很多问题,经常在Unicode和GB2312

1.8K90

utf-8,gbk,gb2312,unicode 编码

我们常常听到如下编码: UTF-8、GBK、GB2312 和 Unicode。这些编码方式之间有何不同呢?下面我们来详细了解一下。...UTF-8 编码能够表示世界上几乎所有的字符,包括英文、中文、阿拉伯文、日文等。 UTF-8 编码的优点在于它是一种兼容性很好的编码方式。...3.GB2312 GB2312 是中国国家标准的另一种编码方式,它是 GBK 的前身。它也是一种双字节编码,主要用于表示简体中文。...相比 GBK 编码,GB2312 编码的范围更小一些,但它能够支持的字符数量也相对较少。同时,GB2312 编码的兼容性不如 GBK 和 UTF-8,因此在现代的应用中使用的较少。...通过上面的介绍,可以了解到utf-8, gbk, gb2312的区别。一般选择的都是utf-8 下面,来看看utf-8与unicode编码的不同吧? Unicode与UTF-8的区别如下: 一.

22030
您找到你想要的搜索结果了吗?
是的
没有找到

unicode、utf-8、ansi、gbk、gb2312编码详解

unicode、utf-8、ansi、gbk、gb2312编码详解 前言 作为一个开发人员或是测试人员,免不了要与各种各样的编码打交道,而且这些各种编码总是让人头大,现在我们就来揭开他们的庐山真面目 移动还是联通...中国人民看到这样很不错,于是就把这种汉字方案叫做 "GB2312"。GB2312 是对 ASCII 的中文扩 展。 但是,你以为这样就够用了吗?...gb2312仅仅可以表示6000多个常用汉字你让其它不常用的怎么办?...于是扩展呗,把之前gb2312中没有利用的位好好利用起来,就成了gbk,这又增加了20000多个汉字,但是咱们少数名族也要用电脑啊,于是有了后来的 GB18030 GB2312和GBK都是用两个字节来编码的...,而utf-8就很好了,所以我们现在也通常使用utf-8

3.6K62

实例探究字符编码:unicode,utf-8,default,gb2312 的区别

最近做邮件收发,不同的邮件系统间可能会出现编码问题,迫使我重新回来研究一下字符的编码问题,unicode,utf-8gb2312这些编码格式都是我们熟知的,default 编码格式是哪一种呢?...再仔细看看utf-8对于"china,"这6个字符的编码: 67 104 105 110 97 44  gb2312 和 default 编码结果也是这样; 而unicode的编码是: 67 0 104...所以,utf-8gb2312等编码都是“变长编码”的,但是对于中文的编码处理上,gb2312所需的字节更少。...而default 编码,则取决于当前系统编码,比如我们的操作系统安装的时候默认选择的都是“简体中文”(gb2312),所以测试中也证实了当前的环境编码格式 gb2312=default     因此,我们在使用国外开源的代码的时候...这取决于实际情况,参看http://faq.csdn.net/read/210325.html (关于unicode和utf8,utf16等) 这篇文章,建议说: 使用utf-8编码,可以使unicode

1.4K100

ANSI和ASCII、GBK和GB2312、Unicode和UTF-8的区别

GBK和GB2312 GB2312,由中华人民共和国政府制定的,简体汉字编码规范,大陆所有计算机中的简体中文,都使用此种编码格式。...所谓的繁体中文Windows,简体中文Windows,指的就是采用BIG5和GB2312编码格式的操作系统。这两种编码方式不兼容,如果使用一种编码的文本阅读器来读另一种编码的文本,就会出现乱码。...GBK大字符集包含的汉字数量比GB2312和BIG5多,使得汉字兼容足够使用。...而UTF-8则是在Unicode的基础上进行的再编码。其中对于字母的编码与Unicode和ASCII一致。 文本文档是用UTF-8编码保存的。这样可以最大限度的节省空间。...当你需要保存的时候在转化为UTF-8格式保存(节省空间)。

1.4K10

转载:从程序员的角度看ASCII, GB2312, UNICODE, UTF-8

原有的英文软件可以很好的运行,C的库函数也不用做修改, 比如 strlen("ABC") 在GB2312表示的内码中, 由于GB2312对英文字符的编码是和ASCII完全一样的,所以返回 3...有了GB2312之后,汉字显示/存储/交换就基本上没什么问题了. 几乎所有的非英语国家都制定了和GB2312类似兼容ASCII的内码字符对应表....而从GB2312编码转换到UNICODE编码需要查表. UTF8 和 UNICODE 的关系 与 GB2312 和 UNICODE的关系有本质的不同....所以,要实现UTF8编码到GB2312编码的转换必须先把 UTF8编码还原为UNICODE编码,再通过查表的方式,把UNICODE编码转化为GB2312编码....为了向前兼容,前端使用的还是GB2312内码(中文环境).

93830

Java编码ASCII、GB2312、GBK、Unicode、UTF-8、UTF-16 编码方式详解

2 GB2312 GB2312是1981年开始实施的一套汉字处理的编码方案,GB是“国标”的意思,GB2312是对ASCII进行了扩展,在原来ASCII的基础上扩充了6000多个汉字和600多个其他字符...使用GB2312编码,当读取到一个数值上小于127的字节时当作一个ASCII中原有的字符处理。...3 GBK GB2312有局限性,只能表示6000个字符,GBK是对GB2312的升级,GBK与GB2312非常相似,唯一的不同: 结构 使用GBK编码,当读取到一个数值上小于127的字节时当作一个ASCII...UTF-8是unicode编码的一种实现。 结构 UTF-8灵活性很强,用1~4个字节表示一个字符。 当字符在ASCII中可以被表示时,UTF-8编码方式就用一个字节来表示它。...6 UTF-16 UTF-16不是简单的把UTF-8的范围扩大了一倍,UTF-16和UTF-8是彻底不同的两种编码概念。

2K10

GB2312编码_gb2312是简体中文的编码格式

在区码和位码的基础上,分别加上0XA0的偏移,便是GB2312编码; 我们制作ASCII字库时,一般只做可以显示出来的字符字模,前面命令型的ASCII字符,我们不做字模,即从“空格开始”,ASCII...该空格的区位码是“0101”,所以任意一个汉字的偏移地址公式是,Address= ( (CodeH-0x30-1)*94+(CodeL-0x30-1) )*( 16*16 )/8;CodeH是GB2312...的第一个字节,CodeL是GB2312的第二个字节,减一 是因为区位码是从第一区开始的,而字模数组表是从0开始的; (以上的计算均是按16*16取模时计算的) 当我使用单片机编程工具写程序时,编译的时候...,编译器会根据我们的选择(如MDK)会自动将字符串转换成机内码即GB2312形式进行存储,所以我们可以根据GB2312与区位码的关系进行寻找地址偏移。...uint16 hz ) 可以这样找区位码,CodeH=hz>>8; CodeL=hz&0x00ff; 注意英文和汉字的参数定义类型一个是8位uchar 型的,一个是u16位int16型的,因为GB2312

1.2K20

UTF-8编码

介绍 UTF-8 编码UTF-8 是一种针对 Unicode 的可变长度字符编码。针对 Unicode:UTF-8 是 Unicode 的实现方式之一。...UTF-8 使用 1 个字节表示 ASCII 字符;UTF-8 使用 2 个字节表示带有附加符号的拉丁文、希腊文等;UTF-8 使用 3 个字节表示其他基本多文种平面(BMP)中的字符(包含了大部分常用字...任何面向字节的字符串搜索算法都可以用于 UTF-8 的数据(只要输入仅由完整的 UTF-8 字符组成)。UTF-8 可以保证一个字符的字节序列不会包含在另一个字符的字节序列中。...UTF-8 字符串可以由一个简单的算法可靠地识别出来。由于 UTF-8 字节序列的设计,如果一个疑似为字符串的序列被验证为 UTF-8 编码,那么我们可以有把握地说它是 UTF-8 字符串。...这样,可以快速读取和写入 UTF-8 编码的字符。UTF-8 编码的缺点UTF-8 编码不利于使用正则表达式进行读音检索正则表达式可以进行很多高级的英文模糊检索。

1.6K00

Unicode and UTF-8

绝大多数程序员都听说过 Unicode 和 UTF-8,但是清楚它们之间关系的人就不多了,关于这个问题,与其苍白的陈述它们的概念,不如举例子说明来得自然。 我前些天碰到一个需求:随机生成几个汉字。...i = 0; $i < 3; $i++) { $zh .= '&#'. rand(19968, 40869) . ';'; } echo mb_convert_encoding($zh, 'UTF...单单从上面一个例子还不足以说明问题,下面我们挑选一个「博」字深入说明一下: Unicode 因为我们编码是 UTF-8,所以就先看看「博」字的 UTF-8 编码是什么: <?...通常汉字用 UTF-8 表示时是三个字节,格式为「111XXXXX 10XXXXXX 10XXXXXX」,除掉标志位,把剩余对应位置上的数据抽取出来连接在一起,就得到了 Unicode code point...到底 Unicode 和 UTF-8 是什么关系?一句话:Unicode 是字符集;UTF-8 是编码。

87730

一篇文章帮你解决中文乱码问题---JavaWeb中文编码问题全面解析

UTF-8编码与GBK和GB2312不同,不用查码表,所以在编码效率上UTF-8的效率会更好,所以在存储中文字符时UTF-8编码比较理想。...几种编码格式的比较 GB2312与GBK的编码规则类似,但是GBK范围更大,所以GB2312与GBK比较,应该选择GBK; utf-16与utf-8都是处理Unicode编码,编码规则不太相同,相对来说...characterEncoding=utf-8" JS中的编码问题 外部引入JS文件 ?...如果script没有设置charset,浏览器就会以当前这个页面的默认字符集解析这个JS文件,如果外部的JS文件的编码格式与当前页面的编码格式一致,那么可以不设置这个charset,但是如果script.js...encodeURL() 与escape()相比,encodeURL()是真正的JS用来对URL编码的函数,它可以将整个URL中的字符(除了一些特殊字符,如:符号、数字、字母)进行UTF-8编码,在每个值之前加上

4.5K40

一图弄懂ASCII、GB2312、GBK、GB18030编码

兼容性关系是GB18030兼容GBK,GBK兼容GB2312GB2312兼容ASCII。所谓兼容,你可以简单理解为子集、不冲突的关系。...例如GB2312编码的文件中可以出现ASCII字符,GBK编码的文件中可以出现GB2312和ASCII字符,GB18030编码的文件可以出现GBK、GB2312、ASCII字符。...在GB2312中收录了6763个汉字以及682个特殊符号,已经囊括了生活中最常用的所有汉字。 【3】GBK 由于GB2312只有6763个汉字,我汉语博大精深,只有6763个字怎么够?...于是GBK中在保证不和GB2312、ASCII冲突(即兼容GB2312和ASCII)的前提下,也用每个字占据2bytes的方式又编码了许多汉字。...实际生活中,我们用到的99%以上的汉字,其实都在GB2312那一块区域内。至于GB2312每个编码对应的到底是哪个汉字本文不再赘述,可以参考链接(链接地址)查询。

39.3K153

中文编码问题详解

一.常见的编码 ASCII,ISO-8859-1,GB2312,GNBK,UTF-8,UTF-16等 编码格式 表示个数 所需字节数 说明 ASCII 128 单字节的低七位表示 0~31为控制字符如回车换行等...GBK 23940 双字节 扩展自GB2312,支持更多汉字,范围从8140~FEFE(去掉XX7F),能表示21003汉字,兼容GB2312。...的升级版,GBK可以处理所有的汉字字符,而GB2312包含的中文字符不全,所以GB2312和GBK去比较,应该选择GBK 2.UTF-16和UTF-8 UTF-16编码效率最高,但不适合网络之间传输,占用空间也比较大...2.JS中的编码问题 2.1 js文件编解码 引入的js文件若有中文,和本html页面的编码若不一致则会乱码...encodeURL():可以将整个URL中的字符进行UTF-8编码,在背个码值之前添加"%" 注意:java中的URLEncoder、URLDecoder和js的encodeURIComponent对应

2.9K10

nginx配置虚拟目录

失败:       server {         server_name  test.com;         charset utf-8,GB2312;         index  index.html...;                } 3.成功:        server {         server_name  test.com;         charset utf-8,GB2312;...;                 } 4.成功:        server {         server_name  test.com;         charset utf-8,GB2312...==================================================================== 我的需求是这样的,系统有一个专门的文件夹用于存放图片,css,js.../a.js http://www.test.com/resources/attach/a.doc 这样的配置对于apache来说那相当容易, 需要通过location uri规则匹配访问到该文件夹,我使用如下配置

2.8K10

java 汉字乱码_Java中文乱码问题

二、 1 、编码 编码比较常用的有: UTF-8 , GBK ,GB2312 , ISO-8859-1 ,除了iso-8859-1 之外的其它三个编码都能很好的支持中文,但它们都兼容 ISO-8859-...GB2312 是中国规定的汉字编码,也可以说是简体中文的字符集编码 ; GBK 是 GB2312 的扩展 , 除了兼容 GB2312 外,它还能显示繁体中文,还有日文的假名 ; UTF-8也支持中文,但却与...而在其它的编辑器中,默认保存的内容都是GB2312或者GBK(NOTEPAD中对应ANSI).而根据前面所说的UTF-8和GBK,GB2312等的编码值是不同的这一点,可以知道,如果文件使用了UTF-8...4、调用JS时,JS内容乱码的解决方案。...其实JS的乱码还是跟文件的编码有关系的,如果JS中有中文的话,那JS文件保存的编码就必须跟调用此JS的页面编码相同,否则,你的所有中文都要从JSP页面传给JS才会显示正常。

7.6K10
领券