学习
实践
活动
工具
TVP
写文章

GB2312编码_gb2312是简体中文的编码格式

在区码和位码的基础上,分别加上0XA0的偏移,便是GB2312编码; 我们制作ASCII字库时,一般只做可以显示出来的字符字模,前面命令型的ASCII字符,我们不做字模,即从“空格开始”,ASCII 该空格的区位码是“0101”,所以任意一个汉字的偏移地址公式是,Address= ( (CodeH-0x30-1)*94+(CodeL-0x30-1) )*( 16*16 )/8;CodeH是GB2312 的第一个字节,CodeL是GB2312的第二个字节,减一 是因为区位码是从第一区开始的,而字模数组表是从0开始的; (以上的计算均是按16*16取模时计算的) 当我使用单片机编程工具写程序时,编译的时候 ,编译器会根据我们的选择(如MDK)会自动将字符串转换成机内码即GB2312形式进行存储,所以我们可以根据GB2312与区位码的关系进行寻找地址偏移。 uint16 hz ) 可以这样找区位码,CodeH=hz>>8; CodeL=hz&0x00ff; 注意英文和汉字的参数定义类型一个是8位uchar 型的,一个是u16位int16型的,因为GB2312

13020

GB2312

Unicode、Ascall、GB2312、UTF-8等字符编码之间的关系,廖老师是这样说的: 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。 但是要处理中文显然一个字节是不够的,至少需要两个字节,而且还不能和ASCII编码冲突,所以,中国制定了GB2312编码,用来把中文编进去。 遇到的一个比较不爽的问题就是python2对中文的输出处理,当时用的编辑器是ulipad和pycharm,糊里糊涂用的版本是4.x的,还有很多地方没完善,对中文的处理还有很多问题,经常在Unicode和GB2312

88190
  • 广告
    关闭

    腾讯云精选爆品盛惠抢购

    腾讯云精选爆款云服务器限时体验20元起,云数据库19.9元/年起,还有更多热门云产品满足您的上云需求

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    一图弄懂ASCII、GB2312、GBK、GB18030编码

    兼容性关系是GB18030兼容GBK,GBK兼容GB2312GB2312兼容ASCII。所谓兼容,你可以简单理解为子集、不冲突的关系。 例如GB2312编码的文件中可以出现ASCII字符,GBK编码的文件中可以出现GB2312和ASCII字符,GB18030编码的文件可以出现GBK、GB2312、ASCII字符。 在GB2312中收录了6763个汉字以及682个特殊符号,已经囊括了生活中最常用的所有汉字。 【3】GBK 由于GB2312只有6763个汉字,我汉语博大精深,只有6763个字怎么够? 于是GBK中在保证不和GB2312、ASCII冲突(即兼容GB2312和ASCII)的前提下,也用每个字占据2bytes的方式又编码了许多汉字。 实际生活中,我们用到的99%以上的汉字,其实都在GB2312那一块区域内。至于GB2312每个编码对应的到底是哪个汉字本文不再赘述,可以参考链接(链接地址)查询。

    33.7K153

    unicode、utf-8、ansi、gbk、gb2312编码详解

    unicode、utf-8、ansi、gbk、gb2312编码详解 前言 作为一个开发人员或是测试人员,免不了要与各种各样的编码打交道,而且这些各种编码总是让人头大,现在我们就来揭开他们的庐山真面目 移动还是联通 中国人民看到这样很不错,于是就把这种汉字方案叫做 "GB2312"。GB2312 是对 ASCII 的中文扩 展。 但是,你以为这样就够用了吗? 当然不行,gb2312能够表示很多简体汉字,但是繁体怎么办呢?台湾群众很不满啊,于是也自己搞了一套编码,于是big-5诞生了,你以为这样就完了? gb2312仅仅可以表示6000多个常用汉字你让其它不常用的怎么办? 于是扩展呗,把之前gb2312中没有利用的位好好利用起来,就成了gbk,这又增加了20000多个汉字,但是咱们少数名族也要用电脑啊,于是有了后来的 GB18030 GB2312和GBK都是用两个字节来编码的

    1.2K62

    GB2312转换成UTF-8与utf_8转换成GB2312

    ///

            /// utf_8转换成GB2312         ///         /// <param name="utfInfo"></param = Encoding.GetEncoding("gb2312");             byte[] unicodeBytes = utf8.GetBytes(utfInfo);             byte[] asciiBytes = Encoding.Convert(utf8, gb2312, unicodeBytes);             char[] asciiChars = new new string(asciiChars);             return gb2312info;         }         ///         /// GB2312 byte[] unicodeBytes = gb2312.GetBytes(gbInfo);             byte[] asciiBytes = Encoding.Convert(gb2312

    2.1K10

    我知道你不知道GB2312

    另一类是ANSI类,最常见的是GB2312/GBK/GB18030三种,他们能很好支持中文,但是面对其它语言可能出现乱码。 现在让我们回到最初提到的那个“仿宋GB2312”的问题,答案一目了然了。首先要明确的是,的确有两种仿宋字体,一种叫做“仿宋GB2312”,另一种叫做“仿宋”。 其中“仿宋GB2312”顾名思义,遵循的是GB2312标准,发布时间早,收录的字数也少;而“仿宋”遵循的是微软自己的GBK标准,发布时间晚、收录字数多,是Windows以及Office的默认字体。 也就是说,如果你想安装“老古董”“仿宋GB2312”,你还得另外去下载,然鹅—— “ 仿宋GB2312竟然TM是很多政府的公文专用字体!!! 有没有发现“仿宋GB2312”要比“仿宋GBK”的字体粗一些?

    89230

    centos 改动字符集为GB2312的方法

    经过重复測试才发现,原来是由于centos 系统没有GB2312库导致的。 加密端是在ASP.NET中处理的,解密是在centos 下使用java。 ASP.NET默认採用的是GB2312字符集,所以,相应的解密也必须使用GB2312。为了成功解析,所以必须让centos 也支持GB2312。终于问题解决。 以下将centos 中设置GB2312字符集的方法分享给大家。

    19410

    GB2312 ? UTF-8 ?

    当然了,最常用的编码也就是GB2312 和 UTF-8 了。 ● UTF-8和GB2312有什么区别?   ● 我们在国内做网站是用UTF-8编码格式还是GB2312编码格式好?    一. 于是就把这种汉字方案叫做 “GB2312”。GB2312 是对 ASCII 的中文扩展。 于是我们不得不继续把 GB2312 没有用到的码位找出来老实不客气地用上。    GB2312属于中文编码,主要针对国内用户使用,如果国外用户访问GB2312编码的网站就会变乱码。   一般觉得是用UTF-8比GB2312要多很多,大家都比较赞同用UTF-8。

    3.7K20

    实例探究字符编码:unicode,utf-8,default,gb2312 的区别

    最近做邮件收发,不同的邮件系统间可能会出现编码问题,迫使我重新回来研究一下字符的编码问题,unicode,utf-8,gb2312这些编码格式都是我们熟知的,default 编码格式是哪一种呢? ").getbytes(str);             printbyte("gb2312:", buffergb2312);     下面是输出结果: utf8:   string length 再仔细看看utf-8对于"china,"这6个字符的编码: 67 104 105 110 97 44  gb2312 和 default 编码结果也是这样; 而unicode的编码是: 67 0 104 所以,utf-8,gb2312等编码都是“变长编码”的,但是对于中文的编码处理上,gb2312所需的字节更少。 而default 编码,则取决于当前系统编码,比如我们的操作系统安装的时候默认选择的都是“简体中文”(gb2312),所以测试中也证实了当前的环境编码格式 gb2312=default     因此,我们在使用国外开源的代码的时候

    727100

    golang处理gb2312转utf-8编码的问题

    问题描述: 如果你有把曾经的php或者java的老代码用go重写的经验,很可能会遇到gb2312转utf-8的问题 最近有同学在工作有使用到iconv-go这个库,涉及到转换字符的,出现如下报错,然后再咨询我

    66010

    织梦DEDECMS模板编码格式从UTF-8换成GB2312

    我们很多朋友在利用DEDECMS织梦程序建站的时候,由于程序本身是有多个编码版本的,比如有UTF-8和GB2312的,我们的主程序安装好之后但是在选择主题模板的时候也是有编码区别的,这个就比较难搞。 content="text/html; charset=utf-8" http-equiv=Content-Type> 然后换成: <META content="text/html; charset=<em>gb2312</em> " http-equiv=Content-Type> 然后我们用记事本或者是编辑器打开主题,然后另存为一个GB2312的编码格式。 同时,如果我们是GB2312换成UTF-8也是一样的道理。 本文出处:老蒋部落 » 织梦DEDECMS模板编码格式从UTF-8换成GB2312 | 欢迎分享

    13030

    spring cloud 学习(11) - 用fastson替换jackson及用gb2312码输出

    前几天遇到一个需求,因为要兼容旧项目的编码格式,需要spring-cloud的rest接口,输出gb2312编码,本以为是一个很容易的事情,比如下面这样: @RequestMapping(method = RequestMethod.POST, value = "syncPaymentList", consumes = {"application/json; charset=gb2312 "}, produces = {"application/json; charset=gb2312"}) public GatewayDataResult<DcbOrderListResponse } 另外网有一些办法,比如修改application.yml spring: http: encoding: enabled: true charset: GB2312 filter-class> <init-param> <param-name>encoding</param-name> <param-value>gb2312

    77310

    asp.net 解码gb2312下urlencode后的字符串

    公司网站前期的网页用了gb2312保存用户数据,而我负责的部分用的是utf8,今天恰好要获取前期录入的数据于是毫无悬念地出现乱码问题,经过一番网上的搜索还是找不到完整解决方法,折腾好一段时间终于通过下面的例子推出了问题的所在 : 这样的一个业务,客服用gb2312编码后 提交服务器,服务器接收时出现乱码,用System.Web.HttpUtility.UrlDecode();解码 ,还是出现乱码,困老了我好长时间,终于在google 解决方案: HttpUtility.ParseQueryString(Request.Url.Query, System.Text.Encoding.GetEncoding("GB2312"))["message 于是了解到UrlEncode是基于页面的编码方式,那么前期保存到的数据时基于gb2312来UrlEncode的,所以在utf8页面解码时要指定用gb2312的方式来解码。 具体做法: System.Web.HttpUtility.UrlDecode("需解码的GB2312编码字符串",Encoding.GetEncoding("gb2312"));

    47050

    Node.js抓取网站,GBK,GB2312中文乱码解决办法

    await axios.get(publicPath+"/pic/") console.log(res) } 如上代码,axios默认是以utf8的方式去解码html 由于原网页的编码方式是gb2312 end',()=>{ let buffer = Buffer.concat(chunks) let str = iconv.decode(buffer,'gb2312 流数据获取完毕后,将二进制数据连接,并设置解码方式为gb2312 最好用cheerio封装一下 async function getData(){ const html = await getHtml

    11210

    ANSI和ASCII、GBK和GB2312、Unicode和UTF-8的区别

    GBK和GB2312 GB2312,由中华人民共和国政府制定的,简体汉字编码规范,大陆所有计算机中的简体中文,都使用此种编码格式。 所谓的繁体中文Windows,简体中文Windows,指的就是采用BIG5和GB2312编码格式的操作系统。这两种编码方式不兼容,如果使用一种编码的文本阅读器来读另一种编码的文本,就会出现乱码。 GBK大字符集包含的汉字数量比GB2312和BIG5多,使得汉字兼容足够使用。

    18110

    Java编码ASCII、GB2312、GBK、Unicode、UTF-8、UTF-16 编码方式详解

    2 GB2312 GB2312是1981年开始实施的一套汉字处理的编码方案,GB是“国标”的意思,GB2312是对ASCII进行了扩展,在原来ASCII的基础上扩充了6000多个汉字和600多个其他字符 结构 GB2312用一个字节表示一个英文字符和一些基本符号和半角符号,用两个字节表示一个汉字和全角符号和一些我们日常使用的符号。 GB2312利用了ASCII的127个字符之后空余的部分,增添了6000多种常用汉字。 数值小于127的字节表示ASCII中原有字符,两个连续数值都大于127的字节表示一个汉字字符。 使用GB2312编码,当读取到一个数值上小于127的字节时当作一个ASCII中原有的字符处理。 3 GBK GB2312有局限性,只能表示6000个字符,GBK是对GB2312的升级,GBK与GB2312非常相似,唯一的不同: 结构 使用GBK编码,当读取到一个数值上小于127的字节时当作一个ASCII

    68110

    gbk和utf8的区别元尊_gb2312和utf8的区别

    GBK编码:是指中国的中文字符,其它它包含了简体中文与繁体中文字符,另外还有一种字符“gb2312”,这种字符仅能存储简体中文字符。

    6230

    转载:从程序员的角度看ASCII, GB2312, UNICODE, UTF-8

    原有的英文软件可以很好的运行,C的库函数也不用做修改, 比如 strlen("ABC") 在GB2312表示的内码中, 由于GB2312对英文字符的编码是和ASCII完全一样的,所以返回 3 有了GB2312之后,汉字显示/存储/交换就基本上没什么问题了. 几乎所有的非英语国家都制定了和GB2312类似兼容ASCII的内码字符对应表. 而从GB2312编码转换到UNICODE编码需要查表. UTF8 和 UNICODE 的关系 与 GB2312 和 UNICODE的关系有本质的不同. 所以,要实现UTF8编码到GB2312编码的转换必须先把 UTF8编码还原为UNICODE编码,再通过查表的方式,把UNICODE编码转化为GB2312编码. 为了向前兼容,前端使用的还是GB2312内码(中文环境).

    57930

    GB2312、GBK、GB18030 这几种字符集的主要区别是什么?

    1 GB2312-80 GB 2312 或 GB 2312-80 是中国国家标准简体中文字符集,全称《信息交换用汉字编码字符集·基本集》,又称 GB 0,...

    1.2K31

    解决python错误 UnicodeDecodeError: gb2312 codec cant decode byte 0x8b in position 1: illegal multibyt

    kaijiang.500.com/shtml/ssq/19001.shtml' page =urllib.request.urlopen(url) content = page.read().decode('gb2312 这样的话网页数据未压缩,会相对比较大,增加网络传输时间 另一种方式就是对请求后的数据解压,显然这个方式处理会更快,如下 content = gzip.decompress(page.read()).decode('gb2312 ') 可是修改之后发现运行还是报错,这时候发现应该是因为网页中含有编码集之外的字符(网页内容指定charset是gb2312),就算加到更大范围还是报错(PS:汉字字符集范围 gb2312 < gbk < gb18030) 这时候选择忽略这些无法解码的字符 content = gzip.decompress(page.read()).decode('gb2312','ignore') 再运行代码,发现这个问题已经解决了

    2.5K40

    扫码关注腾讯云开发者

    领取腾讯云代金券