首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

汉字编码历史

Qt君最近在处理字符乱码的问题,顺便看了下关于汉字字符编码的历史,总结分享给大家。   ...由于汉字编码的限制身份证显示不了生僻字,需要特殊处理,有的人甚至是改名字。于是在90年代在GB2312的基础上扩展到两万多个汉字的字符编码GBK。   ...不得不说中华文化博大精深,两万多个汉字似乎也是不够用,继续发展汉字编码。GB2312编码进化为GB18030编码,扩展到了七万多文字,还包含了少数民族文字。   ...随着Unicode编码规范的建立,其实现方式有UTF-8,UTF-16,UTF-32。...由于UTF-8采用变长的编码方式实现,其节省空间,兼容ASCII标准的优点, 在互联网上使用最广的一种Unicode的实现方式。

1.2K10

URL汉字编码

*'(),”[不包括双引号]、以及某些保留字,才可以不经过编码直接用于 URL。” 这意味着,如果URL中有汉字,就必须编码后使用。...(具体的转码方法,请参考我写的《字符编码笔记》 。) 在Firefox中测试,也得到了同样的结果。所以,结论1就是,网址路径的编码,用的是utf-8编码。...举例来说,百度是GB2312编码,Google是UTF-8编码。因此,从它们的搜索框中搜索同一个词“春节”,生成的查询字符串是不一样的。...百度生成的是%B4%BA%BD%DA,这是GB2312编码。 Google生成的是%E6%98%A5%E8%8A%82,这是UTF-8编码。...也就是说,在Ajax调用中,IE总是采用GB2312编码(操作系统的默认编码),而Firefox总是采用utf-8编码。这就是我们的结论4。

3K50

UTF-8编码

介绍 UTF-8 编码UTF-8 是一种针对 Unicode 的可变长度字符编码。针对 Unicode:UTF-8 是 Unicode 的实现方式之一。...,如大部分的汉字);UTF-8 使用 4 个字节表示 Unicode 辅助平面的字符。...UTF-8 使用 3 个字节表示常用的汉字,因此中文字符对应的字节序列格式为:"1110xxxx 10xxxxxx 10xxxxxx"于是中文字符 “一” 的 UTF-8 编码结果为 "11100100...这样,可以快速读取和写入 UTF-8 编码的字符。UTF-8 编码的缺点UTF-8 编码不利于使用正则表达式进行读音检索正则表达式可以进行很多高级的英文模糊检索。...但是 Unicode 汉字不是按读音排序的,它是按部首排序,所以不利于用正则表达式进行读音检索。在只知道一个字的部首而不知道如何发音的情况下,UTF-8 可用正则表达式检索而 GBK 不行。

1.6K00

汉字拼音 文字集

住主猪竹株煮筑贮铸嘱拄注祝驻属术珠瞩蛛朱柱诸诛逐助烛蛀潴洙伫瘃翥茱苎橥舳杼箸炷侏铢疰渚褚躅麈邾槠竺予佇劅劚劯咮嗻噣囑坾墸壴孎宁宔尌屬嵀庶搊敱斀斗斸曯朝枓柠柷楮樦櫡櫧櫫欘殶泏泞澍濐瀦灟炢煑燭爥眝矚砫硃磩祩秼窋竚笁笜筯築篫篴紵紸絑纻罜羜芧苧茁茿莇蓫蕏薥藷藸蚰蝫蠋蠩蠾袾註詝誅諸豬貯跓跙跦軴迬逗逫鉏鉒銖鋳鑄钃阻除陼霔飳馵駐駯騶驺鮢鯺鱁鴸鸀麆鼄著丶","zhua,抓爪挝摣撾檛簻膼髽","zhuai,拽尵捙睉跩顡嘬...","zhuan,专砖赚传撰篆颛馔啭沌傳僎僝剸叀囀堟塼嫥孨専專恮抟摶湍漙灷瑑瑼甎磚竱篹篿簨籑縳耑腞膞蒃蟤襈諯譔賺転轉鄟顓饌鱄","zhuang,装撞庄壮桩状幢妆僮奘戆丬壯壵妝娤庒憧戅戇梉樁湷漴焋狀獞粧糚艟荘莊裝贑贛赣...,尊遵鳟撙樽僎僔噂墫奠嶟拵捘捽栫瀳繜罇袸譐跧踆蹲銌鐏鱒鶎鷷","zuo,做作坐左座昨凿琢撮佐笮酢唑祚胙怍阼柞乍侳咗岝岞挫捽柮椊砟秨稓筰糳繓苲莋葃葄蓙袏諎醋鈼鑿飵嘬"}} }; 已进行 一些错误汉字拼音的修改

11.6K20

C#----汉字拼音

上一篇博客中介绍的是动态加载EasyUI控件显示到前台,里面包括按钮控件,而且每一个设备有可能有不同的命令和参数,不过总共可以显示的有八种不同的按钮,公用的,那如何实现不同的参数按钮点击的时候能够去加载相同的JS...,而不用每次都去获取一个新的ID,于是就想到了一个办法,根据从数据库中获取的命令的数据,将汉字转化成拼音,这样就可以实现上面的结果。...''' ''' 实现的原理就是先将汉字转化成为内码,然后通过内码和拼音的对照来查找''' ''' ''' public...class ChineseToSpellBLL { private static Regex MyRegex = new Regex("^[一-龥]$"); //汉字的正则表达式...一是ASC码最小的汉字,是19968,龥的ASC码是40869,这其间包括了绝大多数常用和不怎么常用的简繁体字,并不是所有的,不过一般的文章而言足够用来查找文章中的任意汉字了,也有人用﨩,这个ASC码更大一些

4.4K20
领券