如果你需要在Linux中操作windows下的文件,那么你可能会经常遇到文件编码转换的问题。Windows中默认的文件格式是GBK(gb2312),而Linux一般都是UTF-8。下面介绍一下,在Linux中如何查看文件的编码及如何进行对文件进行编码转换。
https://github.com/gongluck/Code-snippet/tree/master/cpp/code%20conversion
说到多字节字符串与宽字符串,不得不说一下多字节字符与宽字符。多字节字符实际上是由多个字节来表示一个字符,在各个国家和地区采用不同的编码方案,不同编码方案字符码值是不同的,比如常见的中国大陆的GBK和GB18030、台湾同胞的Big5h,以及国际通过的UTF8编码等。宽字符指的是由统一码联盟制定的Unicode编码方案收录的字符,使用4个字节来表示一个字符。关于字符编码可参见博文精述字符编码。
目前多数情况下, 我们遇到的非英文字符文件都是使用UTF-8编码的, 这时一般我们查看这些文件的内容都不会有问题. 不过有时, 我们有可能会遇到非UTF-8编码的文件, 比如中文的GBK编码, 或者俄语的CP1251编码. 而文本文件一般不带有自身编码格式的信息, 这就给我们处理带来很多麻烦. 本文介绍几个Linux命令来检测和转换文本文件的编码格式.
Windows 早期采用多字节编码,的确容易出现乱码问题。随着 Windows 全面转向 Unicode 编码,多语言的支持得到完美解决,出现中文乱码的问题就很少出现。出现乱码问题一般是 GBK 编码的文件当做 utf8 编码打开,或者 utf8编码的文件当做 GBK 编码打开。这种情况也多出现在 Linux 和 Windows 之间交换文件。
在很久很久以前,美国人发明了计算机,计算机只能处理数字也就是把文字转换为8个bit也就是一个字节,8个bit最大能表示的数字为255,而[A-Z]、[a-z]、[0-9]再加上键盘上的一些符号正好255个,所以ASCII编码就成为了美国人的标准编码(用一个字节代表一个字母或者符号),正好也满足了美国人的需求。
在使用MySQL时要注意6个需要编码的地方:系统的编码、客户端、服务端、库、表、列。字符集编码不仅影响数据存储,还影响client程序和数据库之间的交互.在mysql中输入命令show session variables like '%char%'能够看到例如以下一些字符集(下面是以win10为例,生产中多数时linux,在linux里面除了latin1之外都是utf8的字符集):
以下内容转自博客:http://blog.chinaunix.net/uid-22670933-id-1771613.html。
iconv命令是用来转换文件的编码方式,比如它可以将UTF8编码的转换成GB18030的编码。Linux下的iconv开发库包括iconv_open,iconv_close,iconv等C函数(非标准库函数),可以用来在C/C++程序中很方便的转换字符编码。
原文:http://demi-panda.com/2012/12/26/vim-encoding/
对编码问题一直一知半解,之前也是得过且过,正好有个同事要我帮忙写个脚本,涉及这方面的问题,借这个契机研究了一下.
window系统一般文件名编码为gbk,文件内容编码这个需要通过编辑器查看或者设置,找个editplus文本编辑器就可以处理文本内容编码。
Python3自诩解决了编码问题,但还是有一系列的坑。本文就记录下前几天遇到的python3编码问题。mysql编码问题附带介绍。 python3 json串的编码 针对于包含中文的字典,如果想要正常显示中文,在dumps时,需配置参数ensure_ascii=False。举例: a={"name":"中国"} json.dumps(a) '{"name": "\\u4e2d\\u56fd"}' json.dumps(a,ensure_ascii=False) '{"name": "中国"}' 针对于包含特
上一篇呢,从理论上介绍了MYSQL字符集和校对规则是什么以及如何正确的使用字符集;关于第一部分的内容可参考:深入理解MySQL字符集及校对规则(一)
代码编译运行环境:Windows 64bits+VS2017+Debug+Win32
查看数据库编码: show create database db_name; 查看表编码: show create table tbl_name; 查看字段编码: show full columns from tbl_name; show full fields from tbl_name;
在显示 utf8中文数据时会乱码,但是你用cmd告诉MySQL服务器器我使用的是GBK,你要给我返回GBK数据就可以正常显示了,如下图。这也是为什么PHP,Java,Python等编程连接数据库时都要指定数据库的结果集。
在字符与字节之间的转换过程称为编解码,Python自带了超过100种编解码器,比如:
以下配置项是Linux系统的本地化(localization)设置,用于控制系统在不同方面如何呈现和处理数据。下面是每个配置项的解释:
utf8mb4 是utf8的扩展,utf8mb4兼容utf8字符集,utf8 字符的编码、位置、存储在utf8mb4与utf8字符集里一样的,所以不会对有现有数据带来损坏。
其实作为程序猿来讲,中国的程序猿遇到的问题可能会比国外的程序猿遇到的问题多很多。 一个原因是因为各种标准的制定、各种IDE的编写,都是由老外来完成的,制定出来的东西可能和中国人的习惯不太一样;还有一个原因就是因为国际编码的问题,通常,外国人写的东西无需对编码进行转换,默认的就是ISO-8859-1;到了中国,就涉及到本土化的问题,中文编码应当是GBK,这是本地化的编码。 而各种标准、各种浏览器一般用的都是ISO-8859-1,所有就造成了两种编码之间的转换。所以后来出现了UTF8,来解决各种编码问题。UTF8基本上包含了地球上所有的可见字符,十分强大。 但不幸的是,各种标准并没有按照这一编码来制定,而依然沿用以前的做法。 所以,解决各种乱码问题,就成了中国程序猿的必不可少的技能之一。 这篇文章,就是要和大家讨论种种乱码问题出现的原因,以及相应的解决办法,我目前已知的情况共有三种,下面就位大家一一讲解。
转载自:http://blog.csdn.net/dbzhang800/article/details/7540905
在日常处理客户的问题中,会遇到非常多的客户反馈字符乱码的问题,遇到这类型的问题,我们要怎么去处理呢?又该怎么去引导用户去解决呢?
经常会踫到这样的场景需求:自定义时间从MySql流水月表中SELECT出来数据到excel报表文件中,所以自己写了这个shell脚本来处理。
模糊匹配 jg%,结果以JG开头的字符串也出现在结果集中,大家很自然的认为是大小写敏感的问题。那么mysql中大小写敏感是如何控制的;数据库名,表名,字段名这些字典对象以及字段值的大小敏感是如何控制的;以及校验规则与索引的关系,这是本文要讨论的内容。
#字符编码:就是人类使用的英文字母、汉字、特殊符号等信息,通过转换规则,将其转换为计算机可以识别的二进制数字的一种编码方式
由于客户需求,需要按照汉字的首字拼音排序,项目开发中免不了数据的排序问题,排序中又免不了对中文的处理。今天分享一下如何在mysql中对中文进行排序,介绍下thinkphp连贯操作的order底层原理
为什么会报错“UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)”?本文就来研究一下这个问题。
原文链接:https://blog.csdn.net/humanking7/article/details/81292013
int CParserIni::ansi2utf8(const string& ansiStr, string& utf8Str) { int ret = kNoError; do{ //CP_ACP(ANSI字符集) if (ansiStr.empty()) BREAK_WITH_ERROR(kInvalidParameter); //现将本地代码页转换成utf16 int wlen = MultiByteToWideChar(CP_ACP, 0, ansiStr.c_str(), -1, NULL, 0); if (wlen == 0) BREAK_WITH_ERROR(kConvertError); wchar_t *pwBuf = new wchar_t[wlen + 1]; memset(pwBuf, 0, sizeof(wchar_t)*(wlen + 1)); if (MultiByteToWideChar(CP_ACP, 0, ansiStr.c_str(), ansiStr.length(), pwBuf, wlen)==0) BREAK_WITH_ERROR(kConvertError); //再将utf16转换utf8 int len = WideCharToMultiByte(CP_UTF8, 0, pwBuf, -1, NULL, NULL, NULL, NULL); if (len == 0) BREAK_WITH_ERROR(kConvertError); char *pBuf = new char[len + 1]; memset(pBuf, 0, len + 1); if (WideCharToMultiByte(CP_UTF8, 0, pwBuf, wlen, pBuf, len, NULL, NULL) == 0) BREAK_WITH_ERROR(kConvertError);
转载请注明出处:帘卷西风的专栏(http://blog.csdn.net/ljxfblog)
参考:https://www.cnblogs.com/mithrilon/archive/2018/06/03/9082449.html
高级语言:Python Java、PHP C# Go ruby C++... ===》 字节码
Oracle创建数据库时指定字符集,一般不能修改,整个数据库都是一个字符集。虽然还支持指定国家字符集,用于nvarchar2类型,不过很少用到。常用的字符集:AL32UTF8和ZHS16GBK,其中AL32UTF8与UTF8几乎是等价的。一个汉字在AL32UTF8中占三个字节,而在ZHS16GBK中占用两个字节。
问题:在我的 Linux 系统中有一个编码为 iso-8859-1 的字幕文件,其中部分字符无法正常显示,我想把文本改为 utf8 编码。在 Linux 中, 有没有一个好的工具来转换文本文件的字符编码?
问题:在我的Linux系统中有一个编码为iso-8859-1的字幕文件,其中部分字符无法正常显示,我想把文本改为utf8编码。在Linux中,有没有一个好的工具来转换文本文件的字符编码?
eclipse 由于开源所以支持了比较杂的编码方式,而这些一个工程导入时添加了不少的外来程序,由于不是同一工程一次编码带来了其中含有 GBK 或 UTF8 或 UTF16 或 ASCII 等文件编译时就会出现错误警告。
vsftpd 是“very secure FTP daemon”的缩写,安全性是它的一个最大的特点。vsftpd 是一个 UNIX 类操作系统上运行的服务器的名字,它可以运行在诸如 Linux、BSD、Solaris、 HP-UNIX等系统上面,是一个完全免费的、开放源代码的ftp服务器软件,支持很多其他的 FTP 服务器所不支持的特征。
网址:https://www.matools.com/code-convert-ascii
01.HTML教程/简介/基础 HTML 教程- (HTML5 标准) 超文本标记语言(英语:HyperText Markup Language,简称:HTML)是一种用于创建网页的标准标记语言。 您可以使用 HTML 来建立自己的 WEB 站点,HTML 运行在浏览器上,由浏览器来解析。 在本教程中,您将学习如何使用 HTML 来创建站点。 HTML 很容易学习!相信您能很快学会它! HTML 实例 本教程包含了数百个 HTML 实例。 使用本站的编辑器,您可以轻松实现在线修改 HTML,并查看实例运行结
注:建议将/etc/apt/source.list中的cn改成us,美国的服务器比中国的快很多,修改命令如下:sudo sed -i "s/cn/us/g" sources.list
如果UTF8字符集且是Java服务器的话,当存储含有emoji表情时,会抛出类似如下异常:
之前部署了openstack虚拟化环境,有一天在使用nova list查看虚拟机的时候,突然报错!如下: [root@linux-node1 src]# nova list ERROR (UnicodeEncodeError): 'ascii' codec can't encode character u'\uff08' in position 9: ordinal not in range(128) python在安装时,默认的编码是ascii,当程序中出现非ascii编码时,python的处理常常会报这
UTF8 是(UNICODE八位交换格式)的简称,UNICODE是国际标准,也是ISO标准10646的等价标准。
原链接: http://notewo.sinaapp.com/blog/full_article/?blogid=54 python 里面的编码和解码,就是unicode 和str 这两种形式的相
有段时间没有使用python了,对它的语法有点生疏,花了几个小时熟悉,期间发现很多小细节不清楚。为了下次能快速上手,避免重复犯错,我将python使用过程中的一些问题在这篇博文中记录小结一下,主要内容涉及到python操作mysql数据库,python发送http请求,解析txt文本,解析JSON字符串,crontab执行python脚本,等等。(注:我用的是python2.7版本)
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/100615.html原文链接:
在做一个phpexcel导入csv数据时,出现诡异现象, 本地windows下调试顺畅, 无乱码, 发布到linux服务器后出现乱码了. 各种排查, 初步以为是iconv编码转换的问题, 各种编码尝试, gbk, gb2312, utf8, asii等都不行. 最后看到了其使用的 fgetcsv函数. php手册中有这么一句备注: Note: 该函数对区域设置是敏感的。比如说 LANG 设为 en_US.UTF-8 的话,单字节编码的文件就会出现读取错误。 一看服务器phpinfo的LA
这个系列的文章是根据《MySQL是怎样运行的:从根儿上理解MySQL》这本书的个人笔记总结专栏,这里十分推荐大家精读一下这本书,也是目前市面上个人所知的讲述Mysql原理的为数不多的好书之一,好了废话不多说我们下面进入正题。
领取专属 10元无门槛券
手把手带您无忧上云