展开

关键词

Python

Python常用的格式有3种:unicode,utf-8,gbk 有些时候因为某些需要,就例如我们用的是utf-8的格式写的脚本,需要在Windows终端中运行,而Windows终端默认的格式是 GBK,这时候我们就要把一下格式 我们先来看一下这3种格式的关系 ? 由图中得知,unicode成GBK或者utf-8需要,而utf-8和GBK成unicode就要解,那么,utf-8和GBK就可以通过这个方式来了 #! /usr/bin/env python #-*- coding:utf-8 -*- temp = "小明"  # utf-8 # 解,需要指定原来是什么(括号里面的) temp_unicode = Python 2.几 的版本方法 在Python3里面,已经没有unicode类型,因为在Python3里面,unicode类型的它自动给你成utf-8或者gbk,所以utf-8可以直接

25310

python(unicode

#-*- coding: utf-8 -*- import sys print sys.getfilesystemencoding() # s 是 utf8 " # 用decodepython内部的unicode,用repr输出内部形式 s_unicode = s.decode("utf8") print repr(s_unicode ) # 用ecode成gbk输出 s_gbk = s_unicode.encode("gbk") print s_gbk # 用ecode成标准的 uincode \u****\u**** s_unicode_output = s_unicode.encode("unicode_escape") print s_unicode_output # 从标准的unicode成 gbk s_red_gbk = s_unicode_output.decode("unicode_escape").encode("gbk

1.2K10
  • 广告
    关闭

    90+款云产品免费体验

    提供包括云服务器,云数据库在内的90+款云计算产品。打造一站式的云产品试用服务,助力开发者和企业零门槛上云。

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    python实验

    Python 2.6.6 (r266:84292, Jul 23 2015, 15:22:56)  [GCC 4.4.7 20120313 (Red Hat 4.4.7-11)] on linux2 Type

    17910

    Python 与中文处理

    py文件中的 Python 默认脚本文件都是 ANSCII 的,当文件 中有非 ANSCII 范围内的字符的时候就要使用"指示"来修正一个 module 的定义中,如果.py文件中包含中文字符 也就是说在读取一个文件的内容,或者从网络上读取到内容时,保持的对象为str类型;如果想把一个str成特定类型,需要把str为Unicode,然后从unicode为特定的类型如:utf-8 python 函数 unicode 为 gb2312,utf-8等,使用 encode(encoding) # -*- coding=UTF-8 -*- if __name__ == '__ 更进一步的例子,如果我们这里仍然用gbk: # coding=utf-8 s = "中文" print unicode(s, "gbk") 结果:中文 翻阅了一篇英文资料,它大致讲解了python 对象s从gbk内为UTF-8,可以如下操作 s.decode('gbk').encode('utf-8′) 可是,在实际开发中,我发现,这种办法经常会出现异常: UnicodeDecodeError

    2K30

    Python 与中文处理

    Python 与中文处理 python 中的 unicode是让人很困惑、比较难以理解的问题. utf-8是unicode的一种实现方式,unicode、gbk、gb2312是字符集. decode 是将普通字符串按照参数中的格式进行解析,然后生成对应的unicode对象 写python时遇到的中文问题: ➜  /test sudo vim test.py #! 这是一个抓取网页代python脚本 ➜  /test sudo cat file.py #! response,'GBK').encode('UTF-8') print type(response) print response 遇到的问题: 使用中文抓取中文网页时,print出来的中文会出现乱 查看网页源代发现charset=GBK的类型所以python中要进行类型 ➜  /test sudo cat file.py #!

    26710

    python 字符

    类型 那么encode("gbk"),不光是,还成了二进制数据 查看gbk和utf-8的区别 import sys #打印默认 print(sys.getdefaultencoding 上面的大图显示 gbk为utf8,需要2步 1.首先通过【decode】为unicode 2.然后通过解【encode】为utf-8的 总结: 不同之间的,必须要先为 先执行decode()方法,传一个参数,告诉它,我是什么。 最后执行encode()方法,传一个参数,将要是什么。 以下代表示,声明文件为 # coding: gbk 在python 里面,默认声明的变量是utf-8 # coding: gbk import sys #打印默认 print(sys.getdefaultencoding ,所以最后执行decode("gbk") 得到中文 您好 之间的,需要2个步骤。

    33520

    Python 文本

    麻烦的是505认得最好的方式为utf-8,如果是unicode,当文件大于5M时就容易出现问题。所以许多大的txt文档都要成utf-8. 手动很麻烦,特别是大的文件,打开就要等一段时间,然后还要。所以就想到用刚学的Python去做一个小工具,以后方便处理这些书。 该工具带GUI界面,经测试能够成功的把ANSI格式txt文件为utf8。 因为主要看feiku的电子书,所以代中带有自动重命名功能,目前不带批处理能力,以后补上 # -*- coding: cp936 -*- from Tkinter import * import

    29250

    python中文url

    今天修改一个天气预报的东西,但输入城市不能得到天气预报,感觉是不对,因为你输入一个城市(比如‘杭州’),url的地址却是'%E4%B8%BD%E6%B1%9F',因此需 要做一个。 print data 杭州 >>> data '\xe6\x9d\xad\xe5\xb7\x9e' >>> urllib.quote(data) '%E6%9D%AD%E5%B7%9E' 那我们想回去呢 print urllib.unquote('%E6%9D%AD%E5%B7%9E') 杭州 细心的同学会发现贴吧url中出现的是%C0%F6%BD%AD,而非'%E4%B8%BD%E6%B1%9F',其实是问题 /usr/bin/python import urllib import sys string = sys.argv[1] string = unicode(string,"gbk") utf8_string

    1.1K10

    python中文url

    但是添加到list里面是中文的情况(比如‘丽江’),url的地址却是'%E4%B8%BD%E6%B1%9F',因此需 要做一个。这里我们就用到了模块urllib。 > print data 丽江 >>> data '\xe4\xb8\xbd\xe6\xb1\x9f' >>> urllib.quote(data) '%E4%B8%BD%E6%B1%9F' 那我们想回去呢 print urllib.unquote('%E4%B8%BD%E6%B1%9F') 丽江 细心的同学会发现贴吧url中出现的是%C0%F6%BD%AD,而非'%E4%B8%BD%E6%B1%9F',其实是问题 /usr/bin/python import urllib import sys string = sys.argv[1] string = unicode(string,"gbk") utf8_string

    58520

    Python3

    没有什么是不能的 import hashlib import base64 # string to md5 input_text = "我能吞下玻璃而不伤身体" md5_string = hashlib.md5 e68891e883bde5909ee4b88be78ebbe79283e8808ce4b88de4bca4e8baabe4bd93 # hex to string text = bytes.fromhex(hex_str).decode() # 我能吞下玻璃而不伤身体 ipv4字符串与数字

    17310

    MD5

    MD5相关问题! public static void main(String[] args) throws UnsupportedEncodingException {
    // String s = “· ·.abc1”;
    String s = “abc1”;// 全相同
    // String s = “·”;// 特殊字符,全不相同
    // String s = “”; // GB2312 GBK 相同,UTF8(UTF-8)不相同

    System.out.println(MD5.getMD5(s.getBytes(“GB2312”)) s.getBytes(“UTF8”)));
    System.out.println(MD5.getMD5(s.getBytes()));

    }
    发布者:全栈程序员栈长,载请注明出处

    12200

    python中json和字符

    json是用来python object 和json format 的,字符有gb2312,gb18030/gbk,utf-8等。 在 Python 中出现的 str 都是用字符集的 ansi 字符串。Python 本身并不知道 str 的,需要由开发者指定正确的字符集 decode。 因为 Python 认为 16 位的 unicode 才是字符的唯一内,而大家常用的字符集如 gb2312,gb18030/gbk,utf-8,以及 ascii 都是字符的二进制(字节)形式。 把字符从 unicode 成二进制,当然是要 encode。 ,反之,json.loads是把json str python object。

    1.4K20

    python之分析decode、encode、unicode

    decode()方法使用注册器的字符串进行解。它默认为默认的字符串。decode函数可以将一个普通字符串为unicode对象。 decode是将普通字符串按照参数中的格式进行解析,然后生成对应的unicode对象,比如在这里我们代用的是utf-8,那么把一个字符串为unicode就是如下形式:s2=’哈’.decode encode()方法正好就是相反的功能,是将一个unicode对象为参数中格式的普通字符,encode正好就是相反的功能,是将一个unicode对象为参数中格式的普通字符。 # 将unicode为汉字,前边带u的 str = u'\u4eac\u4e1c\u653e\u517b\u7684\u722c\u866b' print(str.encode('utf-8') u4e1c\u653e\u517b\u7684\u722c\u866b', <type 'unicode'>) print('--------------------------') # 将unicode为汉字

    93410

    python字符串与url

    主要应用的场景 爬虫生成带搜索词语的网址 1.字符串为url import urllib poet_name = "李白" url_code_name = urllib.quote(poet_name ) print url_code_name #输出 #%E6%9D%8E%E7%99%BD 2.url为字符串 import urllib url_code_name = "%E6%9D%8E%E7%

    82430

    文件

    ,但是相应的阅读软件支持为UTF-8格式的文件,类似GBK等格式里的汉字都会呈现乱状态。 手动用Notepad++很方便,但是批量处理就很尴尬了,由此引出本篇blog 需要的库 chardet、codecs 简介 引用codecs介绍如下 在Python中,codecs模块提供了实现这些规则的方法 引用chardet介绍如下 在处理字符串时,常常会遇到不知道字符串是何种,如果不知道字符串的就不能将字符串成需要的。面对多种不同的输入方式,是否会有一种有效的方式? chardet是一个非常优秀的识别模块。 codeType = chardet.detect(data)['encoding'] convert(filePath, codeType, 'UTF-8')

    42920

    java字符

    在开发的过程中,字符常常令我们头痛。经常会出现各种各样的乱。下面就介绍java的和常见的乱是使用什么样的去读取的: 先看一张图片: ? 在看看java中如何处理: package com.test; /** * 字符串 * @author Herman.xiong * @date 2015年7月16日09:36 ; System.out.println(str); //成utf-8输出 System.out.println(new String(.getBytes("utf-8"))); / /成gbk输出 System.out.println(new String(.getBytes("gbk"))); //将ISO-8859-1为utf-8 System.out.println

    1.3K30

    C++实现

    地址 https://github.com/gongluck/Code-snippet/tree/master/cpp/code%20conversion 需求 在实际开发中经常遇到,通常是 ANSI、Unicode和Utf-8之间相互。 C++11和boost几乎可以实现一套代,在linux和windows都能使用,但实际会有很多坑,相当于代几乎不改,但是要改一下系统环境。 所以有一种实现就是判断系统的版本,然后选择不同的系统api进行。 实现 目前只实现Windows下的,以后需要在linux下使用再做补充。 windows下的基本围绕unicode做处理。例如ANSI->UTF-8,就是先将ANSI->unicode,再将unicode->UTF-8。

    53320

    oracle 字符

    查看 select userenv('language') from dual; shutdown immediate startup mount alter system enable restricted

    5120

    encodeURIcomponent和ASP.NET之间

    Javascript的URL,escape() encodeURI() encodeURIComponent(),asp.net 的UrlDecode进行解 。 所有的空格符、标点符号、特殊字符以及其他非ASCII字符都将被化成%xx格式的字符(xx等于该字符在字符集表里面的的16进制数字)。比如,空格符对应的是%20。 不会被此方法的字符: @ * / + encodeURI() 方法: 把URI字符串采用UTF-8格式化成escape格式的字符串。不会被此方法的字符:! + ' encodeURIComponent() 方法: 把URI字符串采用UTF-8格式化成escape格式的字符串。 不会被此方法的字符:! * ( ) 因此,对于中文字符串来说,如果不希望把字符串格式化成UTF-8格式的(比如原页面和目标页面的charset是一致的时候),只需要使用escape。

    443100

    文本工具iconv 附批量文件命令

    网络上下载的好多文本是GBK的,在mac电脑上打开是乱 除了下载有多种的文本辑器外,通过终端也可以进行 iconv -f GBK -t UTF-8 原文件名 > 随便起个名 文本内容的 :用Terminal 里的 iconv 命令批量文本到UTF8. 新建一个文件夹,在下载目录下创建文件夹 encoding ,然后将要的文本拉入这个文件夹。 2. Albert$ find *.txt -exec sh -c "iconv -f GB18030 -t UTF8 {} > {}.txt" \; 上面的 -f 后的参数是针对GB18030,如果你前的为 最常用的几个参数 重要参数是: -f是表示从什么,后面跟 -t是表示到什么,后面跟 >表示从哪个文件保存为哪个文件 较少用的参数: -c 从输出中忽略无效的字符 -o, --output

    2.9K90

    相关产品

    • 极速高清

      极速高清

      腾讯云极速高清使用智能动态编码技术,通过AI场景识别,结合动态编码匹配,为直播、点播等视频服务以更低的码率提供更高清的流媒体服务。支持H.264\H.265\AV1\AVS\AV2等多种编码算法,支持多种视频源格式:TS、MP4、FLV、AV1、WMV、ASF、RM、PS、MOV、RMVB、F4V、MKV、MXF、3GP、GXF、HLS;支持多种直播流格式: FLV、RTMP、HLS、DASH、RTP音视频传输协议。为您节省30%以上的带宽。

    相关资讯

    热门标签

    扫码关注云+社区

    领取腾讯云代金券