前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python 2.x和3.x中maketrans和translate函数的使用

python 2.x和3.x中maketrans和translate函数的使用

作者头像
用户7886150
修改2021-01-11 10:17:53
8750
修改2021-01-11 10:17:53
举报
文章被收录于专栏:bit哲学院

参考链接: Python | maketrans和translate

maketrans和translate函数是进行字符串字符编码的常用方法。本文着重点在于演示其基本用法和在不同版本下操作的差异。本文提到的2.X版本指2.6以上的版本,3.X版本指3.1以上的版本。

     2.X版本把字符串基本分为两种:unicode字符串和8位字符串str,后者包含字节数据和我们常见的ASCII码数据;而3.X版本则重新对字符串进行了划分,分为了字节字符串bytes和文本字符串str,两者都是不可变的,所以添加了一个可变的字节字符串类型bytearray。

      2.X版本中string类型和str、unicode类型大量方法是重复的,所以3.X版本不提倡使用string模块中与str重复的方法。string模块中还有很多有用的常量和方法,比如string.digits,可以在字符串编码中方便地使用。

      2.X中maketrans和translate函数的签名:

   string.maketrans(from, to) 

   string.translate(s, table[, deletechars])  str.translate(table[, deletechars])  unicode.translate(table) 

     3.X中maketrans和translate函数的签名:

    static str.maketrans(x[, y[, z]])  static bytes.maketrans(from, to)  static bytearray.maketrans(from, to) 

    str.translate(map)  bytes.translate(table[, delete])  bytearray.translate(table[, delete]) 

     从中可以看出,相对于2.X的string模块的maketrans方法,3.X中分别提供了三个静态方法用于创建映射表。

    下面让我们看一个简单的例子来说明字符串转换的过程:

     2.X下的演示过程:

    >>> import string                                         #导入string模块  >>> map = string.maketrans('123', 'abc')  #建立映射表,将字符串中含有的'1','2','3'替换为'a','b','c'  >>> s = '54321123789'                               #转换前的字符串  >>> s.translate(map)                                    #用创建的映射表map转换字符串  '54cbaabc789'                                                #转换后的字符串 

     3.X下的演示过程:

    >>> map = str.maketrans('123','abc')  >>> s = '54321123789'  >>> s.translate(map)  '54cbaabc789' 

     2.X使用了string的maketrans函数,而3.X使用了str的maketrans函数,除了这一点,使用方法是基本相同的。若指定字符串中要删除的字符时,使用就会略有不同,如下:

     2.X下的演示过程:

   >>> import string  >>> map = string.maketrans('123', 'abc')  >>> s = '54321123789'  >>> s.translate(map, '78')               #除了转换,还要删除字符串中的字符'7','8'  '54cbaabc9'                              #转换后的字符串没有字符'7','8' 

     3.X下的演示过程:

   >>> map = str.maketrans('123','abc', '78')#要删除的字符需要在这指定  >>> s = '54321123789'  >>> s.translate(map)  '54cbaabc9' 

     我在读《Python Cookbook》遇到了一个基于2.X版本的例子,如下

   import string   def translator(frm='', to='', delete='', keep=None):       if len(to) == 1:           to = to * len(frm)       trans = string.maketrans(frm, to)       if keep is not None:           allchars = string.maketrans('', '')           delete = allchars.translate(allchars, keep.translate(allchars,delete))       def translate(s):           return s.translate(trans, delete)       return translate 

     见代码中加红部分,allchars应该是一个返回的映射表,为什么还可以调用translate方法,所以它应该是一个str类型,测试如下:

   >>> import string  >>> map = string.maketrans('123', 'abc')  >>> type(map)  <type 'str'> 

     在3.X版本中这个方法不能正常通过运行,那么错在什么地方呢,我们看看映射表是什么类型:

   >>> map = str.maketrans('123','abc')  >>> type(map)  <class 'dict'> 

     知道了映射表的类型了,我们就可以对其进行“后期加工”,像上面《Python Cookbook》中的例子一样,

 来满足我们的编码要求

 。

    上面讨论的例子用的字符串是ASCII字符组成的,如果是字节类型,2.X版本中操作是一样的,3.X中调用bytes或bytearray的函数;若是unicode类型的,2.X需要用unicode的translate方法,注意下面的代码

   >>> print u"hallo".translate({97:u'e'})  hello  >>> print u"hallo".translate({'a':u'e'})  hallo  >>> print u"hallo".translate({u'a':u'e'})  hallo 

     结果之所以不一样,查阅手册可知unicode的translate方法的映射表也就是字典的键必须是unicode的位序数,值可以是unicode的位序数、unicode字符串或这None。

     其他具体信息可以查阅python 标准库手册。

     转载请注明。

 以下是其他参考资料: 

 python的中文问题一直是让人不爽的一件事情,而python的一个强大之处恰恰是string的处理,而且string就难免不包含chinese。所以处理string中的chinese就变得很重要了。 

 实验室的complex network项目,目前是数据处理阶段,考虑到python的高效和强大的string功能,我决定使用python对大量的数据进行处理。 

 下面是一个简单的demo,先贴代码,然后进行说明: 

  python 代码

   # -*- coding: gb18030 -*-    import string   import re      identify = string.maketrans('', '')       delEStr = string.punctuation + ' ' + string.digits  #ASCII 标点符号,空格和数字    delCStr = '《》()&%¥#@!{}【】'       s = '中华人民共和国(北京)'       s = s.translate(identify, delEStr) #去掉ASCII 标点符号和空格    if re.findall('[\x80-\xff].', s):    #s为中文   unicode编码中,中文字符范围为 [^\u4e00-\u9fa5]    s = s.translate(identify, delCStr)       print s    else: #s为英文        print s   

  当然,首先是要import string和re(这里需要正则表达式功能)。 

  delEStr是一个包含英文标点符号和数字的字符串,就如 '(){}<>1234 ' 这样。delCStr是一个包含中文标点符号的字符串。s是一个测试字符串。 

  12行的功能就是把s中的英文标点符号都删除。 

    Python code

    ?

         1

         2

         3

         4

         import 

         string

         s 

         = 

         'abcdef'

         table 

         = 

         s.maketrans(

         'bc'

         ,

         'BC'

         )

         s.translate(table)

 楼主给出的代码是没有错的,但是string模块根本没有用上。原因是这样的:2.x系列string模块和内置的str类型有很多方法是重复的,所以3.x系列时string模块把这些重复的方法都去掉了,只保留一些独有的方法和常量来有区别与str类型,所以调用string的maketrans出错,所以上面的代码即使不import string也是可以通过的

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档