如果你需要在Linux中操作windows下的文件,那么你可能会经常遇到文件编码转换的问题。Windows中默认的文件格式是GBK(gb2312),而Linux一般都是UTF-8。下面介绍一下,在Linux中如何查看文件的编码及如何进行对文件进行编码转换。
说到多字节字符串与宽字符串,不得不说一下多字节字符与宽字符。多字节字符实际上是由多个字节来表示一个字符,在各个国家和地区采用不同的编码方案,不同编码方案字符码值是不同的,比如常见的中国大陆的GBK和GB18030、台湾同胞的Big5h,以及国际通过的UTF8编码等。宽字符指的是由统一码联盟制定的Unicode编码方案收录的字符,使用4个字节来表示一个字符。关于字符编码可参见博文精述字符编码。
代码编译运行环境:Windows 64bits+VS2017+Debug+Win32
转载请注明出处:帘卷西风的专栏(http://blog.csdn.net/ljxfblog)
目前多数情况下, 我们遇到的非英文字符文件都是使用UTF-8编码的, 这时一般我们查看这些文件的内容都不会有问题. 不过有时, 我们有可能会遇到非UTF-8编码的文件, 比如中文的GBK编码, 或者俄语的CP1251编码. 而文本文件一般不带有自身编码格式的信息, 这就给我们处理带来很多麻烦. 本文介绍几个Linux命令来检测和转换文本文件的编码格式.
重新登录之后生效。 现在查看一下当前设置: [plain] view plain copy
在我和实际使用中,字符集用utf8效果很好,没有出现乱码的问题,在终端挂载的代码如下: mount -t vfat /dev/hda2 /mnt/d -o codepage=936,iocharset=utf8 我的fstab # /etc/fstab: static file system information. # # <file system> <mount point> <type> <options> <dump> <pass> proc /proc proc defaults 0 0 /dev/hdc8 / ext3 defaults,errors=remount-ro 0 1 /dev/hdc9 none swap sw 0 0 /dev/hdb /media/cdrom0 udf,iso9660 user,noauto 0 0 /dev/hdc1 /mnt/winc vfat defaults,codepage=936,iocharset=utf8 0 0 /dev/hdc5 /mnt/wind ntfs defaults,iocharset=utf8,umask=0222 0 0 /dev/hdc6 /mnt/wine ntfs defaults,iocharset=utf8,umask=0222 0 0 /dev/hdc7 /mnt/winf vfat defaults,codepage=936,iocharset=utf8 0 0 (以下转自网络) 1、挂载点必须是一个目录。 2、一个分区挂载在一个已存在的目录上,这个目录可以不为空,但挂载后这个目录下以前的内 容将不可用。 对于其他操作系统建立的文件系统的挂载也是这样。但是需要理解的是:光盘、软盘、其他操作 系统使用的文件系统的格式与linux使用的文件系统格式是不一样的。光盘是ISO9660;软盘是 fat16或ext2;windows NT是fat16、NTFS;windows98是fat16、fat32;windows2000和 windowsXP是fat16、fat32、NTFS。挂载前要了解linux是否支持所要挂载的文件系统格式。 挂载时使用mount命令: 格式:mount [-参数] [设备名称] [挂载点] 其中常用的参数有 -t<文件系统类型> 指定设备的文件系统类型,常见的有: minix linux最早使用的文件系统 ext2 linux目前常用的文件系统 msdos MS-DOS的fat,就是fat16 vfat windows98常用的fat32 nfs 网络文件系统 iso9660 CD-ROM光盘标准文件系统 ntfs windows NT 2000的文件系统 hpfs OS/2文件系统 auto 自动检测文件系统 -o<选项> 指定挂载文件系统时的选项。有些也可用在/etc/fstab中。常用的有 codepage=XXX 代码页 iocharset=XXX 字符集 ro 以只读方式挂载 rw 以读写方式挂载 nouser 使一般用户无法挂载 user 可以让一般用户挂载设备 提醒一下,mount命令没有建立挂载点的功能,因此你应该确保执行mount命令时,挂载点已经存 在。(不懂?说白了点就是你要把文件系统挂载到哪,首先要先建上个目录。这样OK?) 例子:windows98装在hda1分区,同时计算机上还有软盘和光盘需要挂载。 # mk /mnt/winc # mk /mnt/floppy # mk /mnt/cdrom # mount -t vfat /dev/hda1 /mnt/winc # mount -t msdos /dev/fd0 /mnt/floppy # mount -t iso9660 /dev/cdrom /mnt/cdrom 现在就可以进入/mnt/winc等目录读写这些文件系统了。 要保证最后两行的命令不出错,要确保软驱和光驱里有盘。(要是硬盘的磁盘片也可以经常随时 更换的话,我想就不会犯这样的错误了 :-> ) 如果你的windows98目录里有中文文件名,使用上面的命令挂载后,显示的是一堆乱码。这就要 用到 -o 参数里的codepage iocharset选项。codepage指定文件系统的代码页,简体中文中文代 码是936;io
stl 宏定义,使string和wstring通知支持 #ifdef _UNICODE #define tstring wstring #else #define tstring string #endif // _UNICODE #boost boost boost::log 只创建文件ascii文件,unicode需要转换后写入文件 wstring 转string boost::locale::conv::from_utf(wstr, “GBK”); string转wstring
经常会踫到这样的场景需求:自定义时间从MySql流水月表中SELECT出来数据到excel报表文件中,所以自己写了这个shell脚本来处理。
以下内容转自博客:http://blog.chinaunix.net/uid-22670933-id-1771613.html。
计算机里面,编码方法有很多种,英文的一般用ascii,而中文有unicode,utf-8,gbk,utf-16等等。
对应 C 代码为:unicodeobject.c 中的 _Py_normalize_encoding 函数。
为什么会报错“UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)”?本文就来研究一下这个问题。
int CParserIni::ansi2utf8(const string& ansiStr, string& utf8Str) { int ret = kNoError; do{ //CP_ACP(ANSI字符集) if (ansiStr.empty()) BREAK_WITH_ERROR(kInvalidParameter); //现将本地代码页转换成utf16 int wlen = MultiByteToWideChar(CP_ACP, 0, ansiStr.c_str(), -1, NULL, 0); if (wlen == 0) BREAK_WITH_ERROR(kConvertError); wchar_t *pwBuf = new wchar_t[wlen + 1]; memset(pwBuf, 0, sizeof(wchar_t)*(wlen + 1)); if (MultiByteToWideChar(CP_ACP, 0, ansiStr.c_str(), ansiStr.length(), pwBuf, wlen)==0) BREAK_WITH_ERROR(kConvertError); //再将utf16转换utf8 int len = WideCharToMultiByte(CP_UTF8, 0, pwBuf, -1, NULL, NULL, NULL, NULL); if (len == 0) BREAK_WITH_ERROR(kConvertError); char *pBuf = new char[len + 1]; memset(pBuf, 0, len + 1); if (WideCharToMultiByte(CP_UTF8, 0, pwBuf, wlen, pBuf, len, NULL, NULL) == 0) BREAK_WITH_ERROR(kConvertError);
day8课程内容: 文件操作 f=open('小重山','r',encoding='utf8') #以读的方式打开文件 data=f.read() print(data) f.close() #关闭文件句柄 f=open('小重山2','w',encoding='utf8') #以 清空再写 的方式打开文件,这一步就将文件以前的内容清空了,如果没有这个文件名的文件,就自动创建一个。 f.write('hell o world \n') f.write('a
在Python2.X及Python3有时经常碰到各种中文乱码的情况,这里整理了相关各种情况汇总。
服务器端的代码做了跨平台(POSIX和WINDOWS),基于POSIX平台(Linux、Mac OS X、PlayStation等)使用sys/socket.h库,windows平台使用winsock2.h库。 客户端代码因为基本都在windows运行,所以没做跨平台,需要的话你可以参考服务器端代码自己做一下。 文中写的函数原型均为windows平台,部分函数的返回类型或参数类型在POSIX会有不同。
以下配置项是Linux系统的本地化(localization)设置,用于控制系统在不同方面如何呈现和处理数据。下面是每个配置项的解释:
高级语言:Python,Java, C#, C++, PHP, Go等等 ==》生成字节码;
云端传下来的中文是Unicode编码,通过cjson把它转成了utf-8格式。这个格式在STM32上显示是乱码,需要转换成GBK才行。
Chrome扩展程序之编码&时间戳小工具 作为一个前端小白,对于chrome扩展程序久闻大名,实际动手头一次;前天晚上到前端哪里串门看到小伙伴在搞这个,要了份手册,也来尝个鲜 项目源码看这里: https://git.oschina.net/liuyueyi/encoder 需求 作为一个web后端,经常需要干的事情,url参数编码,时间戳和日期的互转,unicode编码转码,每次要用的时候都low b的到百度上找个工具来用,虽然说也可以满足需求,单终究不是那么爽快;作为一个码农,完全可以考虑捋起袖子
最近在使用GDAL读写Shp格式中的属性字段的时候也遇到了中文乱码的问题,总结下自己遇到的情况。
Windows 早期采用多字节编码,的确容易出现乱码问题。随着 Windows 全面转向 Unicode 编码,多语言的支持得到完美解决,出现中文乱码的问题就很少出现。出现乱码问题一般是 GBK 编码的文件当做 utf8 编码打开,或者 utf8编码的文件当做 GBK 编码打开。这种情况也多出现在 Linux 和 Windows 之间交换文件。
*首先要搞清楚,字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,
编码转换 一些老的项目,文件编码用的还是gbk,很不利于扩展及维护。经常需要在程序中进行判断及转码,容易出现乱码现象。最好的方式就是将整个项目转成utf-8。那么如何批量将一个目录下的文件转编码? 思路 找出目录下的所有文件类型 遍历要转码的文件类型,如.php 利用vim的set fileencoding=utf8进行转码 具体实现 设置~/.vimrc set fileencodings=utf-8,ucs-bom,gb18030,gbk,gb2312,cp936 set termencoding=ut
来源:xybaby自荐投稿 www.cnblogs.com/xybaby/p/7814299.html 程序员都自视清高,觉得自己是创造者,经常鄙视不太懂技术的产品或者QA。可悲的是,程序员之间也相互鄙视,程序员的鄙视链流传甚广,作为一个Python程序员,自然最关心的是下面这幅图啦 📷 我们项目组一值使用Python2.7,虽然我们也知道Python3的诸多好处,也曾经蠢蠢欲动过,但由于各种历史原因,以及业务的压力,我们只可能继续使用Python2.7。更悲哀的是,我们组不是那么international
应用场景如下:从api下载数据,json解析,存入字典,定期保存。重启程序需要加载保存的文本。 问题1:json中都是unicode串,存到文本里都是些\u*** 解决:关闭ensure_ascii开关 json.dump(pub.listData,fp,ensure_ascii=False) 问题2:字典关键字用的数字,从文本load后变为unicode串 解决: 走了一点弯路,网上的解决方法,都是转换,把串转回utf-8,方法是 def byteify(input): if isinsta
在很久很久以前,美国人发明了计算机,计算机只能处理数字也就是把文字转换为8个bit也就是一个字节,8个bit最大能表示的数字为255,而[A-Z]、[a-z]、[0-9]再加上键盘上的一些符号正好255个,所以ASCII编码就成为了美国人的标准编码(用一个字节代表一个字母或者符号),正好也满足了美国人的需求。
**字符串转base64的转码规则:第一步,将每三个字节作为一组,一共是24个二进制位。第二步,将这24个二进制位分为四组,每个组有6个二进制位。第三步,在每组前面加两个00,扩展成32个二进制位,即四个字节。第四步,根据上表,得到扩展后的每个字节的对应符号,这就是Base64的编码值。
对编码问题一直一知半解,之前也是得过且过,正好有个同事要我帮忙写个脚本,涉及这方面的问题,借这个契机研究了一下.
从CentOS 7开始,使用 MariaDB 替代默认的 MySQL。MariaDB数据库管理系统是MySQL的一个分支,主要由开源社区在维护,采用GPL授权许可 MariaDB的目的是完全兼容MySQL,包括API和命令行,使之能轻松成为MySQL的代替品。
1 String emojiStr = MimeUtility.decodeWord(mysqlColumn); 相对于这种使用Base64转换的方式,我们只需要在服务端做编码和解码即可。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
现在应该配置 LFS 系统,使其可以引导了。本章讨论创建 /etc/fstab 文件,为新的 LFS 系统构建内核,以及安装 GRUB 引导加载器,使得系统引导时可以选择进入 LFS 系统。
开发中推荐使用Paste JSON as Code • quicktype软件,可以根据JSON快速生成Model文件
收集一些日常开发中一些有用的PHP代码段,会持续更新。 如果代码有BUG或者任何建议,欢迎在评论区评论!
对于JavaScript,无论是宽字节字符串还是单字节字符串,都被认为是一个字符串。
字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。
第三章 函数与变量 第一课 集合及其运算 集合: 是一个无序的不重复的数据组合 作用: 1.去重: 代码块: lit=[2,3,3,3,3,] lit=set(lit) print(lit,type(lit)) 运行输出: {2, 3} <class 'set'> 2.关系测试: 代码块: lt1=set([1,2,3,4,5]) lt2=set([4,5,6,7,8]) print
PHP本身不忽略BOM头,但是也不处理BOM头,所以大家曾经都遇到过BOM头的问题
之前部署了openstack虚拟化环境,有一天在使用nova list查看虚拟机的时候,突然报错!如下: [root@linux-node1 src]# nova list ERROR (UnicodeEncodeError): 'ascii' codec can't encode character u'\uff08' in position 9: ordinal not in range(128) python在安装时,默认的编码是ascii,当程序中出现非ascii编码时,python的处理常常会报这
查看数据库编码: show create database db_name; 查看表编码: show create table tbl_name; 查看字段编码: show full columns from tbl_name; show full fields from tbl_name;
1、MD算法的基的概念 MD5算法是典型的消息摘要算法,其前身有MD2、MD3和MD4算法,它由MD4、MD3和MD2算法改进而来。不论是哪一种MD算法,它们都需 要获得一个随机长度的信息并产生一个128位的信息摘要。如果将这个128位的二进制摘要信息换算成十六进制,可以得到一个32位的字符串,故我们见到的 大部分MD5算法的数字指纹都是32为十六进制的字符串。 2、MD算法的发展史 2.1 MD2算法 1989年,著名的非对称算法RSA发明人之一----麻省理工学院教授罗纳德.李维斯特开发了M
一.0,1、文本信息和字符编码 所有的信息在计算机中都是以0、1及其组合形式存在。文本信息也不例外。文本信息是以人类容易理解的方式来呈现信息。 计算机是在美国诞生的,英文26个字母加上其他符号只有128个,只用7个bit便可以完全表示所有符号。用8个bit,及一个byte来表示一个符号的方式就叫做ascii编码。对应的有ascii码表。 比如说要在计算机中表示"i love you"这个信息,采用ascii编码方式,那么在计算机中,那就是69 20 6c 6f 76 65 20 79 6f
It can generate markdown structure documents of MySQL succinctly~
平台简介 该智能开关平台包括服务端、硬件端、PC端和安卓端。硬件使用ESP8266模块,成本相对较低,可以发挥想象力,搭配各种传感器,实现自己的智能终端。 应用场景:智能开关的应用场景比较广泛,一般家里通电即可使用的设备都能搭配该模块,升级为网络版,进行联网控制。常见的就是智能开关、智能插座和智能灯,搭配土壤湿度传感器可以实现智能浇灌,搭配温湿度传感器可以监控温湿度,其他传感器例如:触控开关、雨滴探测、声音传感器、光敏传感器、烟雾传感器、火焰报警、人体感应等等。 📷 智能开关目前支持的功能: 远程控制 掉电
特别注意:python3比python2多了个字节的数据类型,python3字节专用函数:
以上就是从python读取sql的实例方法的详细内容,更多关于如何从python读取sql的资料请关注ZaLou.Cn其它相关文章!
window系统一般文件名编码为gbk,文件内容编码这个需要通过编辑器查看或者设置,找个editplus文本编辑器就可以处理文本内容编码。
首先,我使用的是redhat linux ,版本号为: 1 [root@localhost init.d]# cat /proc/version 2 Linux version 2.4.20-8 (bhcompile@porky.devel.redhat.com) (gcc version 3.2.2 20030222 (Red Hat Linux 3.2.2-5)) #1 Thu Mar 13 17:54:28 EST 2003 1. 第一步,下载一个mysql版本...我下载的是.tar压缩包,所以对
领取专属 10元无门槛券
手把手带您无忧上云