Python 中连接字符串效率最高的方式是哪种呢?

Photo from Unsplash

在编码过程中,我们经常需要对字符串进行连接处理操作。如果我们能使用优雅的方式来处理字符串连接,那么程序内存开销会小很多。

众所周知,在 Java 语言中使用运算符 "+" 来连接字符串效率是最低。因为 String 类是 final 类型,使用 "+" 连接字符串时,内部是创建临时对象 StringBuffer,再转化为 String。

那么在 Python 中,使用 "+" 连接字符串同样也是效率最低的吗? 让我们来做个测试验证下。在做测试之前, 我们先了解下 Python 中几种连接字符串的方法。

1、使用 "+" 运算符连接

这种方式是最容易想到连接方式。

fir = 'hello,'
sec = 'monkey'
print(fir + sec)

2、使用 "%" 运算符连接

这种方式有点像 C 语言中 printf 函数的功能,使用 "%s" 来表示字符串类型参数,再用 "%" 连接一个字符串和一组变量。

fir = 'hello'
sec = 'monkey'
result = '%s, %s' % (fir, sec)
print(result)

上述代码是用元组作为变量,"%" 还支持字典类型作为变量。

fir = 'hello'
sec = 'monkey'
result = '%(fir)s, %(sec)s' % {'fir':fir, 'sec':sec}
print(result)

3、使用 format() 格式化连接

这种格式化字符串函数是 Python 特有的,属于高级用法。因为它威力强大,不仅支持多种参数类型,还支持对数字格式化。

fir = 'hello'
sec = 'monkey'
result = '{}, {}'.format(fir, sec)
print(result)

上述代码使用隐式的位置参数,format() 还能显式指定参数所对应变量的位置。

fir = 'hello'
sec = 'monkey'
result = '{1}, {0}'.format(fir, sec)
print(result)

4、使用 join() 方式

这种算是技巧性办法。join() 方法通常是用于连接列表或元组中的元素。

list = ['1', '2', '3']
result = '+'.join(list)
print(result)

运行结果:

1+2+3

接下来,我使用 cProfile 来分析这种连接字符串所消耗的时间。cProfile 输出的结果是以秒为单位,而短字符串连接时间太短,输出结果都是 0.000 秒。所以我将字符串分别乘以 100000 变成长字符串。这样方便我们更加直观地观察结果。

join() 这种连接方式是比较特殊,所以不将其列入测试范围。

以下是测试代码:

# -*- coding:utf-8 -*-
import cProfile

# 使用 "+" 运算符连接
def concat_way1():
    fir = 'Hello' * 1000000
    sec = '极客猴' * 1000000
    result = fir + sec

# 使用 "%" 运算符连接
def concat_way2():
    fir = 'Hello' * 1000000
    sec = '极客猴' * 1000000
    result = '%s%s' % (fir, sec)

# 使用 format() 格式化连接, 隐藏参数位置
def concat_way3():
    str1 = 'Hello' * 1000000
    sec = '极客猴' * 1000000
    result = '{}{}'.format(str1, sec)

# 使用 format() 格式化连接, 指定参数位置
def concat_way4():
    fir = 'Hello' * 1000000
    sec = '极客猴' * 1000000
    result = '{0}{1}'.format(fir, sec)

if __name__ == '__main__':
    cProfile.run('concat_way1()')
    cProfile.run('concat_way2()')
    cProfile.run('concat_way3()')
    cProfile.run('concat_way4()')

最后 cProfile 统计结果是:

从结果上看,跟我们设想的不太一样,有点出乎我们的意料。使用操作符 "+" 连接字符串竟然耗时最少,其次是使用隐式参数的 format() 方式,耗时最长的是使用 "%" 符号。

END

作者:猴哥

公众号:极客猴

爱好读书,喜欢钻研技术,梦想成为文艺青年的 boy。

原文发布于微信公众号 - 极客猴(Geek_monkey)

原文发表时间:2018-01-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏walterlv - 吕毅的博客

.NET Core/Framework 创建委托以大幅度提高反射调用的性能

发布于 2018-02-07 09:45 更新于 2018-02...

9810
来自专栏用户1191492的专栏

物联网平台设计文档:精简GC(垃圾回收)

许多高级编程语言的自动内存管理功能让编程变成了比较容易的一件事。然而,嵌入式平台经常缺少这一部分功能,这是有原因的:现代垃圾收集(GC)系统使用的...

30350
来自专栏应用案例

不到40行代码构建正则表达式引擎

原文:Build a Regex Engine in Less than 40 Lines of Code (作者:Nick Drane ,翻译:Diwei) ...

22070
来自专栏精讲JAVA

Gof设计模式之工厂模式(四)

定义 工厂模式是 Java 中最常用的设计模式之一。这种类型的设计模式属于创建型模式,它提供了一种创建对象的最佳方式。 工厂模式...

21080
来自专栏AI科技大本营的专栏

送书 | Python编程:从入门到实践

本文摘自《Python编程:从入门到实践》一书,本书是Amazon编程入门类榜首图书,是一本全面的Python编程从入门到实践教程,带领读者快速掌握编程基础知识...

665100
来自专栏智能合约

PHP魔术方法之__set()和__get()

18530
来自专栏嵌入式程序猿

号外号外:无规矩不成方圆(4)

本文MISRA规则由嵌入式程序猿整理自网络,版权归原作者所有 不能使用三字母词 三字母词由2 个问号序列后跟1 个确定字符组成(如, ??- 代表“ ~”(非)...

27850
来自专栏老九学堂

1分钟彻底理解C语言指针的概念

计算机中所有的数据都必须放在内存中,不同类型的数据占用的字节数不一样,例如 int 占用4个字节,char 占用1个字节。为了正确地访问这些数据,必须为每个字节...

53580
来自专栏ImportSource

快来了解JDK10中引入的全新JIT编译器:Graal

在(JDK10要来了:下一代 Java 有哪些新特性?)文中,我们提到jdk10中包含有一个实验性质的编译器(compiler)。它的名字叫做:Graal。这是...

584110
来自专栏小詹同学

Python系列之零——从零说起!!!

2017年可谓是人工智能元年,要问哪个行业最火,詹小白不敢确定,但要问哪个编程语言最热门,好吧,詹小白还是不敢说太满。但是!至少从舆论Pytho...

384100

扫码关注云+社区

领取腾讯云代金券