linux c 内码中文_linux c 内码转换_c语言汉字内码 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

转载：从程序员的角度看ASCII, GB2312, UNICODE, UTF-8

以下内容转自博客：http://blog.chinaunix.net/uid-22670933-id-1771613.html。

03

Python基础知识之一

参考：http://www.jianshu.com/p/ff2de81e1b83 http://www.jianshu.com/p/6199b5c26725

03

您找到你想要的搜索结果了吗？

是的

没有找到

字符编码

原创作品，允许转载，转载时请务必以超链接形式标明文章原始出处、作者信息和本声明。否则将追究法律责任。http://polaris.blog.51cto.com/1146394/377468

04

万字长文讲解编码知识，看这文就够了！

字符指类字形单位或符号，包括字母、数字、运算符号、标点符号和其他符号，以及一些功能性符号。一般来说我们称某个字符集里面的字符，叫xx字符，如ASCII字符集里面的ASCII字符，GB2312字符集里面的GB2312字符。

03

UNICODE,GBK,UTF-8区别

UNICODE,GBK,UTF-8区别简单来说，unicode，gbk和大五码就是编码的值，而utf-8,uft-16之类就是这个值的表现形式．而前面那三种编码是一兼容的，同一个汉字，那三个码值是完全不一样的．如＂汉＂的uncode值与gbk就是不一样的，假设uncode为a040，gbk为b030，而uft-8码，就是把那个值表现的形式．utf-8码完全只针对uncode来组织的，如果ＧＢＫ要转ＵＴＦ－８必须先转uncode码，再转utf-8就ＯＫ了．详细的就见下面转的这篇文章．谈谈Unicode编码，简要解释UCS、UTF、BMP、BOM等名词这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不清楚的概念，增进知识，类似于打RPG游戏的升级。整理这篇文章的动机是两个问题：问题一：使用Windows记事本的“另存为”，可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。同样是txt文件，Windows是怎样识别编码方式的呢？我很早前就发现Unicode、Unicode big endian和UTF-8编码的txt文件的开头会多出几个字节，分别是FF、FE（Unicode）,FE、FF（Unicode big endian）,EF、BB、BF（UTF-8）。但这些标记是基于什么标准呢？问题二：最近在网上看到一个ConvertUTF.c，实现了UTF-32、UTF-16和UTF-8这三种编码方式的相互转换。对于Unicode(UCS2)、GBK、UTF-8这些编码方式，我原来就了解。但这个程序让我有些糊涂，想不起来UTF-16和UCS2有什么关系。查了查相关资料，总算将这些问题弄清楚了，顺带也了解了一些Unicode的细节。写成一篇文章，送给有过类似疑问的朋友。本文在写作时尽量做到通俗易懂，但要求读者知道什么是字节，什么是十六进制。 0、big endian和little endian big endian和little endian是CPU处理多字节数的不同方式。例如“汉”字的Unicode编码是6C49。那么写到文件里时，究竟是将6C写在前面，还是将49写在前面？如果将6C写在前面，就是big endian。如果将49写在前面，就是little endian。 “endian”这个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开，由此曾发生过六次叛乱，一个皇帝送了命，另一个丢了王位。我们一般将endian翻译成“字节序”，将big endian和little endian称作“大尾”和“小尾”。 1、字符编码、内码，顺带介绍汉字编码字符必须编码后才能被计算机处理。计算机使用的缺省编码方式就是计算机的内码。早期的计算机使用7位的ASCII编码，为了处理汉字，程序员设计了用于简体中文的GB2312和用于繁体中文的big5。 GB2312(1980年)一共收录了7445个字符，包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7，低字节从A1-FE，占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。 GB2312支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号，它分为汉字区和图形符号区。汉字区包括21003个字符。从ASCII、GB2312到GBK，这些编码方法是向下兼容的，即同一个字符在这些方案中总是有相同的编码，后面的标准支持更多的字符。在这些编码中，英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为0。按照程序员的称呼，GB2312、GBK都属于双字节字符集 (DBCS)。 2000年的GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。从汉字字汇上说，GB18030在GB13000.1的20902个汉字的基础上增加了CJK扩展A的6582个汉字（Unicode码0x3400-0x4db5），一共收录了27484个汉字。 CJK就是中日韩的意思。Unicode为了节省码位，将中日韩三国语言中的文字统一编码。GB13000.1就是ISO/IEC 10646-1的中文版，相当于Unicode 1.1。 GB18030的编码采用单字节、双字节和4字节方案。其中单字节、双字节和GBK是完全兼容的。4字节编码的码位就是收录了CJK扩展A的6582个汉字。例如：UCS的0x3400在GB18030中的编码应该是8139EF30，UCS的0x3401在GB18030中的编码应该是8139EF31。微软提供了GB18030的升级包，但这个升级包只是提供了一

02

UNICODE,GBK,UTF-8

UNICODE,GBK,UTF-8 简单来说，unicode，gbk和大五码就是编码的值，而utf-8,uft-16之类就是这个值的表现形式．而前面那三种编码是一兼容的，同一个汉字，那三个码值是完全不一样的．如＂汉＂的uncode值与gbk就是不一样的，假设uncode为a040，gbk为b030，而uft-8码，就是把那个值表现的形式．utf-8码完全只针对uncode来组织的，如果ＧＢＫ要转ＵＴＦ－８必须先转uncode码，再转utf-8就ＯＫ了．详细的就见下面转的这篇文章．谈谈Unicode编码，简要解释UCS、UTF、BMP、BOM等名词这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不清楚的概念，增进知识，类似于打RPG游戏的升级。整理这篇文章的动机是两个问题：问题一：使用Windows记事本的“另存为”，可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。同样是txt文件，Windows是怎样识别编码方式的呢？我很早前就发现Unicode、Unicode big endian和UTF-8编码的txt文件的开头会多出几个字节，分别是FF、FE（Unicode）,FE、FF（Unicode big endian）,EF、BB、BF（UTF-8）。但这些标记是基于什么标准呢？问题二：最近在网上看到一个ConvertUTF.c，实现了UTF-32、UTF-16和UTF-8这三种编码方式的相互转换。对于Unicode(UCS2)、GBK、UTF-8这些编码方式，我原来就了解。但这个程序让我有些糊涂，想不起来UTF-16和UCS2有什么关系。查了查相关资料，总算将这些问题弄清楚了，顺带也了解了一些Unicode的细节。写成一篇文章，送给有过类似疑问的朋友。本文在写作时尽量做到通俗易懂，但要求读者知道什么是字节，什么是十六进制。 0、big endian和little endian big endian和little endian是CPU处理多字节数的不同方式。例如“汉”字的Unicode编码是6C49。那么写到文件里时，究竟是将6C写在前面，还是将49写在前面？如果将6C写在前面，就是big endian。如果将49写在前面，就是little endian。 “endian”这个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开，由此曾发生过六次叛乱，一个皇帝送了命，另一个丢了王位。我们一般将endian翻译成“字节序”，将big endian和little endian称作“大尾”和“小尾”。 1、字符编码、内码，顺带介绍汉字编码字符必须编码后才能被计算机处理。计算机使用的缺省编码方式就是计算机的内码。早期的计算机使用7位的ASCII编码，为了处理汉字，程序员设计了用于简体中文的GB2312和用于繁体中文的big5。 GB2312(1980年)一共收录了7445个字符，包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7，低字节从A1-FE，占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。 GB2312支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号，它分为汉字区和图形符号区。汉字区包括21003个字符。从ASCII、GB2312到GBK，这些编码方法是向下兼容的，即同一个字符在这些方案中总是有相同的编码，后面的标准支持更多的字符。在这些编码中，英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为0。按照程序员的称呼，GB2312、GBK都属于双字节字符集 (DBCS)。 2000年的GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。从汉字字汇上说，GB18030在GB13000.1的20902个汉字的基础上增加了CJK扩展A的6582个汉字（Unicode码0x3400-0x4db5），一共收录了27484个汉字。 CJK就是中日韩的意思。Unicode为了节省码位，将中日韩三国语言中的文字统一编码。GB13000.1就是ISO/IEC 10646-1的中文版，相当于Unicode 1.1。 GB18030的编码采用单字节、双字节和4字节方案。其中单字节、双字节和GBK是完全兼容的。4字节编码的码位就是收录了CJK扩展A的6582个汉字。例如：UCS的0x3400在GB18030中的编码应该是8139EF30，UCS的0x3401在GB18030中的编码应该是8139EF31。微软提供了GB18030的升级包，但这个升级包只是提供了一套支

02

Python学习系列（第一章）：Pyt

python的创始人为吉多·范罗苏姆（Guido van Rossum）。1989年的圣诞节期间，吉多·范罗苏姆为了在阿姆斯特丹打发时间，决心开发一个新的脚本解释程序，作为ABC语言的一种继承。

03

Unicode编码

这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不清楚的概念，增进知识，类似于打RPG游戏的升级。整理这篇文章的动机是两个问题：

01

python encode和decode函数说明[通俗易懂]

如上面代码，str\str1\str2均为字符串类型（str）,给字符串操作带来较大的复杂性。

03

关于字符编码

在计算机中，所有的数据在存储和运算时都是使用二进制数表示。为了互相通信，就必须使用相同的编码规则。ANSI (American National Standard Institute)在1967年发表了一套单字节字符编码方案 - ASCII (American Standard Code for Information Interchange)。后来ISO (International Organization for Standardization) 和IEC (International Electrotechnical Commission)将其定为国际标准 - ISO/IEC 646

02

精述字符编码

带你了解ASCII，Latin1，ANSI，Unicode，UCS-2，UCS-4，UTF-8，UTF-16，UTF-32，GB2312，GB13000，GBK，GB18030，BIG5，BMP，Code Page，BOM，MBCS，Little Endian，Big Endian，内码，外码。

03

MySQL字符集终极指南--进阶篇

以下配置项是Linux系统的本地化（localization）设置，用于控制系统在不同方面如何呈现和处理数据。下面是每个配置项的解释：

03

c-输出特殊图案

字符共有256个，不同字符，图形不一样。 VC6.0下出现中文乱码(原因+解决方法): 176的16进制是B0，219的16进制是DB，0xB0DB是”佰”字的内码，所以输出的就是”佰”了。主要原因是文件信息的代码页不同，我们所使用的操作系统中文状态下的代码页，要显示扩展的ASCII码需要在437 OEM-美国这个下面显示，这样就可以显示出你所希望的。具体修改控制台的默认代码页步骤如下： 1.点击运行界面左上角标题栏图标【c:\】，选择默认值一项 2.修改默认代码页，936（ANSI/OEM-简体中文GBK）为437 OEM-美国 3、关闭后重新运行一下即可

01

android vlc 字幕乱码,VLC播放器中文字幕乱码问题解决方法[通俗易懂]

VLC对于Mac用户来说算得上是必备软件。其相当于PC上的“暴风影音”，但Mac新手使用VLC播放avi时都会碰到字幕乱码的问题。avi字幕的格式有多种，这里假设你使用常见的.srt字幕。VLC默认支持的字幕内码为utf-8，而网上提供的.srt字幕基本上都是GBK码，所以在初装 VLC后的默认状态下，加载.srt字幕都会出现乱码。VLC播放器中文字幕乱码问题解决方法如下

01

python之day1

初学python会有学python2还是python3的困惑，因为现在公司的实际环境下大部分还是用2.7编写的代码，python3.X又向下不兼容2.X，我认为作为初学者更应该从python3着手:

02

小朋友学Python（6）：中文编码

编码一直是让新手头疼的问题，特别是 GBK、GB2312、UTF-8 这三个比较常见的网页编码的区别，更是让许多新手晕头转向。但是编码又是那么重要，特别在网页这一块。如果你打出来的不是乱码，而网页中出现了乱码，绝大部分原因就出在了编码上了。（一）ANSI、GBK、GB2312、UTF-8、GB18030和 UNICODE 很久很久以前，有一群人，他们决定用8个可以开合的晶体管来组合成不同的状态，以表示世界上的万物，他们把这称为”字节”。再后来，他们又做了一些可以处理这些字节的机器，机器开动了，可以用字节来

MySQL处理乱码的步骤

1、首先要明确客户端是何种编码格式，这是最重要的。一般来说，IE使用的是utf8，命令行用GBK，程序用GB 2312

02

python取余什么意思_python中取余

首先取响应头里的编码,如果是几种中文编码之一,则认为中文网页,如果不是中文编码, 也不是几种unicode方案之一, 则不是中文.否则再在标签里找 charset ,如果有并且为几种中文编码之一, 则是中文如果不是中文编码, 也不是几种unicode方案之一, 则不是中文.否则对body的内容(如果考虑性能问题,可以不对整个body,只对前N个字节)用正则洗标签过滤所有ASCII码字符, 剩余部分按字取内码,如果考虑性能问题其实取第一个字符就可以了,如果性能不重要,可以多采样几个(防止一个页面有中文日文等各种文字混合)判断采到的字符的内码是否位于中文unicode区域.如果性能非常不重要, 只是要代码简单, 那么做法可以: 正则 1 这样可以取到第一个不是ASCII的字符, 判断这个字符是否是中文字符就可以了参考代码：#! /usr/bin/env python

02

JavaSE（二）

在计算机中，存储的符号永远都是2进制码，而不是方块字或者英文字母。2进制码，每8位构成一个字节，代表了一个0-255的数字。

02

《Java从入门到失业》第三章：基础语法及基本程序结构（3.6）：基本数据类型及字符集编码（字符编码和char型）

咦？怎么好像有东西乱入了？不是讲基本数据类型么？哈哈，因为还剩下最后一个char型了，因为char型会牵涉到Unicode编码相关，因此我决定先科普一下字符集编码。

03

字库芯片GT20L16S1Y使用记录

1byte读取命令，3byte地址，1字节任意数据，后面紧跟着是芯片输出的字库数据。

03

刨根究底字符编码之六——简体汉字编码中区位码、国标码、内码、外码、字形码的区别及关系

GB2312、GBK、GB18030等GB类汉字编码方案的具体实现方式是怎样的？区位码是什么？国标码是什么？内码、外码、字形码又是什么意思？它们是如何转换的，又为什么要这样转换？

01

android 中国通信乱码问题

计算机要处理各种字符，就须要将字符和二进制内码相应起来，这样的相应关系就是字符编码。

01

架构师必须掌握的各种编码：ASCII、ISO-8859-1、GB2312...

编码在我们日常开发过程中经常有遇到，常见的编码格式有ASCII、ISO-8859-1、GB2312、GBK、GB18030、UNICODE、UTF-8、UTF-16等，其中GB2312、GBK、GB18030、UTF-8、UTF-16都可以用来表示中文，那么哪种存储中文会比较合适呢，下面会对这几种编码一一介绍便会有结论。为什么有编码我们知道计算机中最小的存储单位是字节（byte），一个字节所能表示的字符数又有限，1byte=8bit，一个字节最多也只能表示255个字符，而世界上的语种又多，都有各种不

07

转载：python的编码处理（一）

最近业务中需要用 Python 写一些脚本。尽管脚本的交互只是命令行 + 日志输出，但是为了让界面友好些，我还是决定用中文输出日志信息。

02

php中常见编码问题

PHP程序设计中中文编码问题曾经困扰很多人，导致这个问题的原因其实很简单，每个国家(或区域)都规定了计算机信息交换用的字符编码集，如美国的扩展 ASCII 码, 中国的 GB2312-80，日本的 JIS 等。作为该国家/区域内信息处理的基础，字符编码集起着统一编码的重要作用。字符编码集按长度分为 SBCS(单字节字符集)，DBCS(双字节字符集)两大类。早期的软件(尤其是操作系统)，为了解决本地字符信息的计算机处理，出现了各种本地化版本(L10N)，为了区分，引进了 LANG, Codepage 等概念。但是由于各个本地字符集代码范围重叠，相互间信息交换困难;软件各个本地化版本独立维护成本较高。因此有必要将本地化工作中的共性抽取出来，作一致处理，将特别的本地化处理内容降低到最少。这也就是所谓的国际化(118N)。各种语言信息被进一步规范为 Locale 信息。处理的底层字符集变成了几乎包含了所有字形的 Unicode。

02

Python3.5学习之旅——day1

Python是一种动态解释性的强类型定义语言，主要应用在云计算，WEB开发，科学运算、人工智能，系统运维和金融等领域。

02

编码在网络安全中的应用和原理

前言:现在的网站架构复杂，大多都有多个应用互相配合，不同应用之间往往需要数据交互，应用之间的编码不统一，编码自身的特性等都很有可能会被利用来绕过或配合一些策略，造成一些重大的漏洞。什么是编码，为什么要有编码？众所周知，计算机只能够理解0和1，也就是二进制。可是我们的世界0和1以外，还有太多太多的符号和语言了，这时候，我们通过人为的规定一种0和1的排列组合顺序为某一种符号或者语言，这就是编码。是一种人为的规定的一种映射集合。常见的一些编码的介绍(已经了解也可以看看，有一些我的个人总结) ASCII: 因

06

Windows 文本文件到 Mac 中文乱码

文本文件从 Windows 系统复制到 Mac 系统中文发生乱码，原因肯定是编码问题。

01

c语言xml解析器libxm2

写这篇文章的原因有如下几点：1)C++标准库中没有操作XML的方法，用C++操作XML文件必须熟悉一种函数库，LIBXML2是其中一种很优秀的XML库，而且它同时支持多种编程语言；2)LIBXML2库的Tutorial写得不太好，尤其是编码转换的部分，不适用于中文编码的转换；3)网上的大多数关于Libxml2的介绍仅仅是翻译了自带的资料，没有详细介绍如何在windows平台下进行编程，更很少提到如何解决中文问题。

03

汉字机内码简介及转换工具

汉字机内码，又称“汉字ASCII码”，简称“内码”，指计算机内部存储，处理加工和传输汉字时所用的由0和1符号组成的代码。输入码被接受后就由汉字操作系统的“输入码转换模块”转换为机内码，与所采用的键盘输入法无关。机内码是汉字最基本的编码，不管是什么汉字系统和汉字输入方法，输入的汉字外码到机器内部都要转换成机内码，才能被存储和进行各种处理。

02

GB2312、GBK、GB18030 这几种字符集的主要区别是什么？

1 GB2312-80 GB 2312 或 GB 2312-80 是中国国家标准简体中文字符集，全称《信息交换用汉字编码字符集·基本集》，又称 GB 0，由中国国家标准总局发布，1981 年 5 月 1 日实施。GB 2312 编码通行于中国大陆；新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持 GB 2312。 GB 2312 标准共收录 6763 个汉字，其中一级汉字 3755 个，二级汉字 3008 个；同时收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的 682 个字符。

03

一个故事带你搞懂ASCII,Unicode字符集和UTF-8编码

快下班时，爱问问题的小朋友Nico又问了一个问题： "sqlserver里面有char和nchar，那个n据说是指unicode的数据，这个是什么意思。" 并不是所有简单的问题都很容易回答，就像这个问题一样。于是我答应专门写一篇BLOG来从头讲讲编码的故事。那么就让我们找个草堆坐下，先抽口烟，看看夜晚天空上的银河，然后想一想要从哪里开始讲起。嗯，也许这样开始比较好……

03

Python|如何让文件读取不再乱码

有时在读取文件时是否会出现乱码？因为在中文Windows系统中，如果不指定文本文件的编码，那么它就会采用系统默认的GBK编码，即一个英文字符是ASCII码，一个汉字是两个字节的内码。文件的本质是二进制文件，相同的文本采用不同的编码得到的二进制数据是不同的。

02

不要相信requests返回的text

Python的requests库是一个非常好用的库，这应该已经是大多写过爬虫的人的共识了。它的简洁易用给我们带来很大方便。然而，它也并不是非常完美。今天我们就说说它在处理中文编码方面的不足。

02

python3-ascii与Unicod

# Auther: Aaron Fan ''' ASCII:不支持中文，1个英文占1个字节 Unicode(万国码，支持所有国家的文字显示)：支持中文，但是每个英文和中文都占2个字节 UTF-8（是一种针对Unicode的可变长度字符编码，又称万国码。）：英文依然按照ASCII的方式占1个字节，所有的中文字符统一是3个字节 Unicode里面支持各个国家的编码转换，比如当中国的gbk格式的软件在日本打开出现乱码的时候，必须把gbk转成Unicode编码后才可以正常显示。 GBK：

00

R+tmcn笔记︱tmcn包的基本内容以及李舰老师R语言大会展示内容摘录

tmcn包目前托管在在R-forge 上开发和发布。下载方式以及Rforge相关链接：

02

ID卡复制教程(使用T5577卡复制4100卡)

国内常见的普通ID卡多为EM 4100 或 EM 4102卡，其特点是不可修改ID号。为了复制普通ID卡，通常采用T5577 或 EM4305卡（俗称ID白卡），其特点是内部EEPROM可读可写，修改卡内EEPROM的内容即可修改卡片对外的ID号，达到复制普通ID卡的目的。

03

计算机高频知识点详解

重磅！福建农信社招863人，大专/往届均可报考！福建农信社报考须知：我是笔试类还是免笔试类？紧急通知 | 农信社笔试内容大变动 01 计算机中的信息表示 1.ASCII（美国标准信息交换码）占用空间：1B 数量：128（标准）、256（扩展）常用字符：A—65、a—97、0--48 2.国标码《信息交换用汉字编码字符集•基本集》是我国于1980年制定的国家标准GB2312—80，代号为国标码，是国家规定的用于汉字信息交换使用的代码的依据。 3.汉字的机内码汉字的机内码是供计算机系统内部进行存

05

刨根究底字符编码之七——ANSI编码与代码页(Code Page)

如前所述，在全世界所有国家和民族的文字符号统一编码的Unicode编码方案问世之前，各个国家、民族为了用计算机记录并显示自己的字符，都在ASCII编码方案的基础上，设计了各自的编码方案。

01

ABAP 内外码的转换

较常用的字段：KUNNR(客户编号)、MATNR(物料编号)、PRCTR(利润中心)

01

gbk的不可映射字符_编码gb18030的不可映射字符

Windows CMD和Power Shell的默认编码格式是GBK（汉字内码扩展规范即国标），而VScode、Notepad++甚至是记事本等编辑器的默认编码格式是UTF-8。

01

刨根究底字符编码之五——简体汉字编码方案(GB2312、GBK、GB18030、GB13000)以及全角、半角、CJK

英文字母再加一些其他标点字符之类的也不会超过256个，用一个字节来表示一个字符就足够了(2^8 = 256)。但其他一些文字不止这么多字符，比如中文中的汉字就多达10多万个，一个字节只能表示256个字符，肯定是不够的，因此只能使用多个字节来表示一个字符。

01

python2.7 的中文编码处理，解决UnicodeEncodeError: 'ascii' codec can't encode character 问题

最近业务中需要用 Python 写一些脚本。尽管脚本的交互只是命令行 + 日志输出，但是为了让界面友好些，我还是决定用中文输出日志信息。很快，我就遇到了异常： UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128) 为了解决问题，我花时间去研究了一下 Python 的字符编码处理。网上也有不少文章讲 Python 的字符编码，但是我看过一遍，觉得自己可以讲得

02

如何批量生成店内码

商品条形码按适用区域大致分为两种，一种是通用码，另一种是店内码。通用码又称为EAN码，需要向有关机构申请注册，而且还要缴纳一定的费用。一些小型的厂商没有申请EAN码，但是需要使用条形码对产品进行管理，此时就可以使用店内码，店内码相比较通用码来说，使用区域更加小，只能在本企业门店或者仓库内使用。下面小编就使用条码软件来批量生成店内码。

02

二、Python介绍

Python 是一门什么样的语言？ python是一门动态解释性的强类型定义语言。编程语言主要从以下几个角度为进行分类，编译型和解释型、静态语言和动态语言、强类型定义语言和弱类型定义语言，每个分类代表什么意思呢，我们一起来看一下。一、低级语言与高级语言最初的计算机程序都是用0和1的序列表示的，程序员直接使用的是机器指令，无需翻译，从纸带打孔输入即可执行得到结果。后来为了方便记忆，就将用0、1序列表示的机器指令都用符号助记，这些与机器指令一一对应的助记符就成了汇编指令，从而诞生了汇编语言。

04

你所不了解的字符编码

前言在我的工作中，常常会遇到形形色色的字符编码，对于各种编码技术本人了解的也不是很多。本篇是我了解编码系列的开篇，主要内容讲述字符编码的基本概念，然后介绍一下常见的字符编码，最后说明一下 Java

02

ChatGPT 相关项目介绍

自从 openai 在 2022 年 11 月首次开放 chatgpt 的网页应用，到写作本文的今天，短短 3个月，相关的话题和项目可以说是层出不穷。在微博、微信、抖音等各种社交媒体相关的话题轮番轰炸，相关的工具、产品、创业项目也开始涌现。这篇文章将从开源项目，中文工具，其他相关三个角度介绍相关的项目状况。

英语不好能不能学编程？

就像有人不懂日语，也照样能打通很多日文游戏。不懂英语至少会用翻译软件吧？先记住语法和报错最常涉及的那些单词，if 、while 、for 、class 、def 、error 、type 之类，足够你写出完整的程序。英语好不是学习编程的先决条件。

03

实现随机生成汉字的Java代码

一、背景知识 GB 2312-80 是中国国家标准简体中文字符集，全称《信息交换用汉字编码字符集·基本集》，由中国国家标准总局发布，1981年5月1日实施。GB2312 编码通行于中国大陆；新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持 GB 2312。

00

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭