我们直接进入主题,来看一段非常简单的Python的 for 循环代码:
for i in range(10000):
x[i] = x[i] + 10
看到这代码,肯定有小伙伴会有疑问,这么简单的代码你告诉我竟然可以优化???
还真可以!
且听我慢慢分析:
首先我们要意识到,这个循环体循环了10000次。
那么加速的其中一个关键就是减少循环次数,因为每次循环结束之后本质上都是一个分支指令的判断,判断这次循环是否结束。如果是则跳出循环,进行下一个代码块的执行,否则继续循环。
另外我们还可以充分利用cpu内的寄存器。
程序在执行前,编译器会自动给我们的加法指令分配各个不同的寄存器,避免指令流水线的数据冲突,这样循环内多路并行也降低了时间开销。 得此,优化后我们的程序如下:
for i in range(0, 10000, 5):
x[i] = x[i] + 10
x[i+1] = x[i+1] + 10
x[i+2] = x[i+2] + 10
x[i+3] = x[i+3] + 10
x[i+4] = x[i+4] + 10
经过测试,优化后的程序所花时间为69ms,而未经优化的程序时间为81ms。
饱受Leetcode超时困扰的小伙伴,这样的小trick也许能帮助你们侥幸过关!
对这类优化感兴趣的小伙伴,可以参考计算机体系结构相关内容学习。速速上车