首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

GB2312编码_gb2312是简体中文的编码格式

在区码和位码的基础上,分别加上0XA0的偏移,便是GB2312编码; 我们制作ASCII字库时,一般只做可以显示出来的字符字模,前面命令型的ASCII字符,我们不做字模,即从“空格开始”,ASCII...表对应0x20,所以当我们使用PCtoLcd的16X16选项制作字库时,(注意英文的实际占用的是8X16,要比汉字小半个字宽),所以,如果根据标准ASCII表制作字库时,可以根据字符的汉字相对于“空格”...GB2312是在区位码的地址基础上分别偏移0xA0,每个区有94个汉字;每个汉字占用的字节为(16X16)/8=32个字节;汉字字库的第一个字符也是“空格”,但这个是全角的和ASCII的不一样;如我们再写液晶驱动程序显示一个英文字母时...该空格的区位码是“0101”,所以任意一个汉字的偏移地址公式是,Address= ( (CodeH-0x30-1)*94+(CodeL-0x30-1) )*( 16*16 )/8;CodeH是GB2312...,编译器会根据我们的选择(如MDK)会自动将字符串转换成机内码即GB2312形式进行存储,所以我们可以根据GB2312与区位码的关系进行寻找地址偏移。

1.2K20

汉字编码历史

Qt君最近在处理字符乱码的问题,顺便看了下关于汉字字符编码的历史,总结分享给大家。   ...于是我们国家在80年代大力发展计算机技术,可是出现的问题是,汉字显示不了。不行,我们要和世界接轨,于是GB2312编码横空出世,囊括了六千多个常用汉字。   ...随着信息化的发展,GB2312似乎也不满足日常使用了,特别是生僻字。由于汉字编码的限制身份证显示不了生僻字,需要特殊处理,有的人甚至是改名字。...于是在90年代在GB2312的基础上扩展到两万多个汉字的字符编码GBK。   不得不说中华文化博大精深,两万多个汉字似乎也是不够用,继续发展汉字编码。...GB2312编码进化为GB18030编码,扩展到了七万多文字,还包含了少数民族文字。   历史的车轮不断前进,文化相互融合与碰撞。

1.2K10
您找到你想要的搜索结果了吗?
是的
没有找到

utf-8,gbk,gb2312,unicode 编码

我们常常听到如下编码: UTF-8、GBK、GB2312 和 Unicode。这些编码方式之间有何不同呢?下面我们来详细了解一下。...它与 ASCII 编码完全兼容,即在 UTF-8 编码中,英文字符仍然使用一个字节来表示,与 ASCII 编码相同。...但是,GBK 编码的范围比较有限,对于一些生僻字或者少数民族字符就无法表示。 3.GB2312 GB2312 是中国国家标准的另一种编码方式,它是 GBK 的前身。...它也是一种双字节编码,主要用于表示简体中文。 相比 GBK 编码GB2312 编码的范围更小一些,但它能够支持的字符数量也相对较少。...同时,GB2312 编码的兼容性不如 GBK 和 UTF-8,因此在现代的应用中使用的较少。 通过上面的介绍,可以了解到utf-8, gbk, gb2312的区别。

23830

unicode、utf-8、ansi、gbk、gb2312编码详解

中国人民看到这样很不错,于是就把这种汉字方案叫做 "GB2312"。GB2312 是对 ASCII 的中文扩 展。 但是,你以为这样就够用了吗?...当然不行,gb2312能够表示很多简体汉字,但是繁体怎么办呢?台湾群众很不满啊,于是也自己搞了一套编码,于是big-5诞生了,你以为这样就完了?...gb2312仅仅可以表示6000多个常用汉字你让其它不常用的怎么办?...于是扩展呗,把之前gb2312中没有利用的位好好利用起来,就成了gbk,这又增加了20000多个汉字,但是咱们少数名族也要用电脑啊,于是有了后来的 GB18030 GB2312和GBK都是用两个字节来编码的...你 的美国同事Bob的系统中ANSI编码其实是ASCII编码(ASCII编码不能表示汉字,所以汉字为乱码),而你 的系统中(“汉字”正常显示)ANSI编码其实是GBK编码,而韩文系统中(“한국어”正常显示

3.7K62

一图弄懂ASCII、GB2312、GBK、GB18030编码

例如GB2312编码的文件中可以出现ASCII字符,GBK编码的文件中可以出现GB2312和ASCII字符,GB18030编码的文件可以出现GBK、GB2312、ASCII字符。...在GB2312中收录了6763个汉字以及682个特殊符号,已经囊括了生活中最常用的所有汉字。 【3】GBK 由于GB2312只有6763个汉字,我汉语博大精深,只有6763个字怎么够?...于是GBK中在保证不和GB2312、ASCII冲突(即兼容GB2312和ASCII)的前提下,也用每个字占据2bytes的方式又编码了许多汉字。...经过GBK编码后,可以表示的汉字达到了20902个,另有984个汉语标点符号、部首等。值得注意的是这20902个汉字还包含了繁体字。...实际生活中,我们用到的99%以上的汉字,其实都在GB2312那一块区域内。至于GB2312每个编码对应的到底是哪个汉字本文不再赘述,可以参考链接(链接地址)查询。

39.4K153

刨根究底字符编码之五——简体汉字编码方案(GB2312、GBK、GB18030、GB13000)以及全角、半角、CJK

简体汉字编码方案(GB2312、GBK、GB18030、GB13000)以及全角、半角、CJK 一、概述 1....GB2312编码方案,即《信息交换用汉字编码字符集——*本集》,是由中国国家标准总局于1980年发布、1981年5月1日开始实施的一套国家标准,标准号为GB2312-1980。...GB2312编码适用于汉字处理、汉字通信等系统之间的信息交换,通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB2312。 2....GB2312编码为了避免与ASCII字符编码(0~127)相冲突,规定表示一个汉字编码(即汉字内码)的字节其值必须大于127(即字节的最高位为1),并且必须是两个大于127的字节连在一起来共同表示一个汉字...GBK的编码框架(Code Scheme):其中GBK1收录除GB2312符号外的增补符号,GBK2收录GB2312汉字,GBK3收录CJK汉字,GBK4收录CJK汉字和增补汉字,GBK5为非中文字符集

2K10

一篇文章帮你解决中文乱码问题---JavaWeb中文编码问题全面解析

GB2312 它的全称是《信息交换用汉字编码字符集基本集》,它是双字节编码,总的编码范围是A1~F7,其中从A1~A9是符号区,总共包含682个字符。从B0~F7是汉字区,包含6763个汉字。...GBK 全称《汉字内码扩展规范》,为了扩展GB2312加入了更多的汉字,它的编码是和GB2312是兼容的,也就是说GB2312编码汉字可以用GBK来解码,并且不会有乱码。...不同的是它们的码表长度不一样,GBK包含的汉字字符更多,所以只要是经过GB2312编码汉字都可以用GBK进行解码,反之则不然。 按照utf-16编码 ?...JS的URL编码 实际上JS中处理URL编码有三个函数,只要掌握了这三个函数,基本上就能正确处理JS的URL乱码问题了; escape() 这个函数是将非ascii字符转化成Unicode编码值,并且在编码值前加上...一种不正常的正确编码 我们通过request.getParameter获取参数值时,直接调用: String value = request.getParameter(name); 会出现乱码,但是用如下方式

4.6K40

应该选用什么编码GB2312 ? UTF-8 ?

● 为什么有这么多编码?   ● UTF-8和GB2312有什么区别?   ● 我们在国内做网站是用UTF-8编码格式还是GB2312编码格式好?    一....GB2312编码   当天朝人们得到计算机时,已经没有可以利用的字节状态来表示汉字,况且有6000多个常用汉字需要保存呢。天朝人民就不客气地把那些127号之后的奇异符号们直接取消掉。   ...于是就把这种汉字方案叫做 “GB2312”。GB2312 是对 ASCII 的中文扩展。...结果扩展之后的编码方案被称为 GBK 标准,GBK 包括了 GB2312 的所有内容,同时又增加了近20000个新的汉字(包括繁体字)和符号。   ...GB2312属于中文编码,主要针对国内用户使用,如果国外用户访问GB2312编码的网站就会变乱码。   一般觉得是用UTF-8比GB2312要多很多,大家都比较赞同用UTF-8。

5.4K20

【作者投稿】宽字符注入详解与实战

,即一个中文占用两个字节,一个英文同样占用两个字节且在汉字编码范围内两个编码为一个汉字。...GB12和GBK的区别 gb2312和gbk都是宽字节家族医院,但是当把数据库编码设置为关闭gb2312时,结果就不能注入 ?...这主要是gb2312编码取值范围的事情,它高位范围0xA1~0xF7,低位范围是0xA1~0xFE,\是%5c,是不在低范围中的,即其根本不是gb2312遍吗,故其不会被吃掉。...谨慎使用iconv来转换字符串编码,很容易出现问题。只要我们把前端html/js/css所有编码设置成gbk,mysql/php编码设置成gbk,就不会出现乱码问题。...漏洞的利用 测试有几个字段,发现category表一共有9个字段,所以可以构造获取数据库用户和先关信息的exp ?

1.5K00

不要相信requests返回的text

然而,requests对这个encoding(编码)的获取是有问题的。 它获取编码的过程分为两步,不幸的是每一步都有问题: 第一步:从http返回的headers里面找编码。...以上说明,chardet对国标中文编码返回的就是(只是)GB2312。那么问题就来了,国标不只是GB2312,还有GBK,GB18030编码。...(1)GB 2312 标准共收录 6763 个汉字 (2)GBK 即汉字内码扩展规范,共收入 21886 个汉字和图形符号,兼容GB2312 (3)GB 18030 与 GB 2312-1980 和 GBK...兼容,共收录汉字70244个 由此可知,三种国标中文编码汉字个数是如下关系: GB2312 < GBK < GB18030 如果不属于GB2312汉字GB2312去编解码会出现上面问题呢?...例子中的“镕”字不在GB2312中,用这个编码时就会报错,用GBK编码后的二进制数据再用GB2312解码时同样会报错,都是因为“镕”不是GB2312里面的汉字

48020

Java编码ASCII、GB2312、GBK、Unicode、UTF-8、UTF-16 编码方式详解

2 GB2312 GB2312是1981年开始实施的一套汉字处理的编码方案,GB是“国标”的意思,GB2312是对ASCII进行了扩展,在原来ASCII的基础上扩充了6000多个汉字和600多个其他字符...,是我们使用的较早的一个汉字编码版本。...结构 GB2312用一个字节表示一个英文字符和一些基本符号和半角符号,用两个字节表示一个汉字和全角符号和一些我们日常使用的符号。...GB2312利用了ASCII的127个字符之后空余的部分,增添了6000多种常用汉字。 数值小于127的字节表示ASCII中原有字符,两个连续数值都大于127的字节表示一个汉字字符。...3 GBK GB2312有局限性,只能表示6000个字符,GBK是对GB2312的升级,GBK与GB2312非常相似,唯一的不同: 结构 使用GBK编码,当读取到一个数值上小于127的字节时当作一个ASCII

2K10

实例探究字符编码:unicode,utf-8,default,gb2312 的区别

最近做邮件收发,不同的邮件系统间可能会出现编码问题,迫使我重新回来研究一下字符的编码问题,unicode,utf-8,gb2312这些编码格式都是我们熟知的,default 编码格式是哪一种呢?...,gb2312最短,unicode稍次。...再仔细看看utf-8对于"china,"这6个字符的编码: 67 104 105 110 97 44  gb2312 和 default 编码结果也是这样; 而unicode的编码是: 67 0 104...所以,utf-8,gb2312编码都是“变长编码”的,但是对于中文的编码处理上,gb2312所需的字节更少。...而default 编码,则取决于当前系统编码,比如我们的操作系统安装的时候默认选择的都是“简体中文”(gb2312),所以测试中也证实了当前的环境编码格式 gb2312=default     因此,我们在使用国外开源的代码的时候

1.4K100

小白学爬虫系列-基础-准备工作

发出请求,获得响应 用户在浏览器输入网址之后,经过DNS 服务器,找到服务器主机,向服务器发出访问请求,服务器经过解析之后,发送给用户的浏览器HTML、JS、CSS等文件,浏览器解析出来呈现给用户。...当你输入网址或者程序解析到新的网址,这个网址就是一个通道,爬虫通过这个通道到达新的地址,并通过编程获取新地址的数据。说直接点:爬虫就是通过编程从网上获取数据。 2. 什么是浏览器请求?...ascll 编码:使用一个字节进行编码(因为英文和数字一个字节足够) unicode 编码:使用两个字节进行编码(因为中文至少需要两个字节) utf-8 编码:可变长编码,英文通常是1个字节,汉字是三个及以上...什么是 utf-8、gb2312、gbk、iso8859-1 ? GB2312 是国家制定的汉字编码标准,使用双子节进行编码,共收入6763个汉字和682个非汉字图形字符。...GBK 即对国标编码的扩展,在GB2312 的基础上进行扩展形成的,使用双子节编码方式,共收入21003个汉字,从而大大满足了汉字使用的需要。

68320
领券