前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python中的向量化编程

Python中的向量化编程

作者头像
云水木石
发布2019-07-01 11:34:01
2.1K0
发布2019-07-01 11:34:01
举报

在Andrew Ng的<< Machine Learning >>课程中,多次强调了使用向量化的形式进行编码,在深度学习课程中,甚至给出了编程原则:尽可能避免使用for循环而采用向量化形式。该课程采用的是matlab/octave语言,所擅长的方向正是数值计算,语言本身内置了对矩阵/向量的支持,比如:

代码语言:javascript
复制
a = log(x)

如果变量x是一个数值,那么a也会得到一个数值结果,如果x是一个矩阵,那么结果a也是一个矩阵。

但是对于机器学习领域广为使用的python语言而言,并没有内置这样的功能,毕竟python是一门通用语言。好消息是,借助一些第三方库,我们也可以很容易的处理向量数值运算。

Numpy是Numerical Python的缩写,是Python生态系统中高性能科学计算和数据分析所需的基础软件包。 它是几乎所有高级工具(如Pandas和scikit-learn)的基础。TensorFlow使用NumPy数组作为基础构建模块,在这些模块的基础上,他们为深度学习任务(大量进行长列表/向量/数值矩阵的线性代数运算)构建了张量对象和图形流。

许多Numpy运算都是用C实现的,相比Python中的循环,速度上有明显优势。所以采用向量化编程,而不是普通的Python循环,最大的优点是提升性能。另外相比Python循环嵌套,采用向量化的代码显得更加简洁。

下面就用一些简单的示例进行说明:

代码语言:javascript
复制
import numpy as np
import timea = np.random.rand(1000000)
b = np.random.rand(1000000)tic = time.time()
c = np.dot(a, b)
toc = time.time()
print("c: %f" % c)
print("vectorized version:" + str(1000*(toc-tic)) + "ms")c = 0
tic = time.time()
for i in range(1000000):
   c += a[i] * b[i]
toc = time.time()
print("c: %f" % c)
print("for loop:" + str(1000*(toc-tic)) + "ms")

在我的电脑上运行结果如下:

代码语言:javascript
复制
c: 249981.256724
vectorized version:0.998973846436ms
c: 249981.256724
for loop:276.798963547ms

可见,向量化的实现代码速度上有飞速提升,而且代码也看起来更简洁。

总之,无论你有多长的数据列表并需要对它们进行数学转换,都强烈考虑将这些Python数据结构(列表或元组或字典)转换为numpy.ndarray对象并使用固有的矢量化功能。

更多关于numpy向量化编程的指导,可以参考这本开源的在线书籍:From Python to Numpy

)

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-05-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 云水木石 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档