linux utf8 gb

Linux UTF-8 与 GB 编码

基础概念

UTF-8：

是一种可变长度的字符编码，能够表示Unicode标准中的任何字符。
使用1到4个字节来表示一个字符，兼容ASCII编码。

GB（通常指GB2312或GBK）：

是简体中文的字符集标准。
GB2312编码包含了6763个常用汉字以及682个符号。
GBK是对GB2312的扩展，包含了更多的汉字和符号。

类型

UTF-8：

Unicode的一种实现方式。

GB编码：

GB2312：最早的简体中文编码标准。
GBK：GB2312的扩展，包含更多字符。
GB18030：最新的国家强制性标准，兼容GBK和Unicode。

应用场景

UTF-8：

国际化应用，需要支持多种语言。
Web开发，HTML、CSS、JavaScript等标准都推荐使用UTF-8。
现代操作系统和大多数软件默认使用UTF-8。

GB编码：

主要用于简体中文环境，如中国大陆的系统和软件。
一些老旧的系统或文件可能仍然使用GB编码。

遇到的问题及解决方法

乱码问题：

当UTF-8编码的文本在GBK环境下打开，或者反之，可能会出现乱码。
解决方法：确保文件的编码与读取环境一致，或者在读写文件时进行正确的编码转换。

示例代码（Python）：

# 读取UTF-8编码的文件并转换为GBK编码
with open('utf8_file.txt', 'r', encoding='utf-8') as f:
    content = f.read()
with open('gbk_file.txt', 'w', encoding='gbk') as f:
    f.write(content)

# 读取GBK编码的文件并转换为UTF-8编码
with open('gbk_file.txt', 'r', encoding='gbk') as f:
    content = f.read()
with open('utf8_file_converted.txt', 'w', encoding='utf-8') as f:
    f.write(content)

设置系统默认编码：