合理选择数据结构

写程序很重要的一点是选择合理的数据结构,不合适的数据结构在如今高性能计算机盛行的情况下,小数据量体现不出什么来,但是在超大数据的时候, 你所面临的困境将会无穷的放大。 在python里主要的数据结构,也就是内置数据结构,包括了列表,元组,字典以及集合。这四种数据结构分别具有不同的特性,影响着python的方方面面。 列表和元组类似于C的数组,但是不同的是,列表是动态的数组,具有着增删改查的操作,元组是静态的数组,本身是不可变的(除非里面包含了可变的容器类) 。那python为啥还要实现元组呢?按照python之禅所述,Special cases aren't special enough to break the rules...There should be one-- and preferably only one --obvious way to do it. 这是因为元组可以缓存于python的运行环境,在每次使用元组时我们都无需去访问内核分配内存,元组和列表代表着两种不同的方式,元组是一个不会改变事物的多种属性,而 列表是保存多个相对独立的对象的集合。 列表的搜索,如果在已知次序的情况下,使用二分法效率会变得很好,但是如前言所述,在相对独立的对象的数据集合中,有序是比较少见的情况,这意味着对列表的搜索 在python内部结构就只能是遍历。python的内建排序不是如《python源码剖析》所述是快速排序,而是Tim排序,这个排序是google发明的,可以在最好的情况下实现O(n)的复杂度排序 ,在最坏的情况下也有O(log(n))。对于数据的搜索, def b_search(i, haystack): imin, imax = 0, len(haystack) while True: if imin > imax: return -1 mid = (imin + imax) // 2 if haystack[mid] > i: imax = mid elif haystack[mid] < i: imin = mid + 1 else: return mid python的二分搜索实现很简单,因为你不需要再考虑内存溢出以及安全性,这些python已经帮你做好了。还有和二分搜索相似的,就是二叉搜索树。至于如果你不想自己实现 你可以选择bisect模块帮你解决这个问题。 元组因为其的不可改变性,对于列表为了其可变性牺牲的额外的内存以及使用它们进行的额外的计算,元组就内存消耗和速度就快的多了。并且小元组在申请了内存后也就是 不会返还给系统,还留待未来使用,在接下来需要新元组时就不需要向系统申请内存了。 下面看看字典和集合,字典在很多语言内都有实现,也就是映射,属于key-value的一种,在python里集合也是类似字典的结构,只不过没有了value,只有key了。 字典和集合的查询无需遍历,只需要计算散列函数就可获得其值,但这也意味着这两种数据结构会占用更大的内存,而且O(1)的复杂度也取决于散列函数的计算复杂度。 字典插入时,会计算键的散列值,理想的散列函数对应的键应该是就是整数,不会出现任何形式的冲突。计算出散列值后,很重要的一点要计算掩码,来得知value应该存放的 位置。对于冲突的处理,python使用的是开放定址法,会在一个数组里不断‘嗅探’,获得空的内存空间。当然,在字典的内存不够用时,自然会申请空间,这意味着我们需要重新散列值和 掩码。 所以,每种数据结构都有其不同的特性,所以这也意味着选择一个良好的数据数据会使得你的代码效率快上不少。

原文发布于微信公众号 - 鸿的学习笔记(shujuxuexizhilu)

原文发表时间:2017-09-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏磐创AI技术团队的专栏

干货 | 如何写一个更好的Python函数?

《Writing Idiomatic Python》一书的作者在Medium上发表了一篇文章,给出了6个建议。

8410
来自专栏用户2442861的专栏

C++ 智能指针详解

http://blog.csdn.net/xt_xiaotian/article/details/5714477

74410
来自专栏编程

手把手教你半个小时用python语言编程出你的第一个程序

学习目标 知道有序的软件开发过程的步骤。 了解遵循输入、处理、输出(IPO)模式的程序,并能够以简单的方式修改它们。 了解构成有效Python标识符和表达式的规...

42250
来自专栏Flutter入门到实战

封装工厂类创建BottomNavigationBar的addItem

●  工厂方法模式的具体工厂类只能创建一个具体产品类的实例,而抽象工厂模式可以创建多个。

10620
来自专栏北京马哥教育

如何写出优雅又地道的Python代码?

译序 如果说优雅也有缺点的话,那就是你需要艰巨的工作才能得到它,需要良好的教育才能欣赏它。 —— Edsger Wybe Dijkstra 在Python社...

366100
来自专栏博岩Java大讲堂

Java集合--Queue队列介绍

38680
来自专栏程序员八阿哥

年薪20万Python工程师进阶(6):Python ORM框架之 Peewee入门Python中10个必读的PEP提案

PEP 是 Python 增强提案(Python Enhancement Proposal)的缩写。社区通过PEP来给 Python 语言建言献策,每个版本你所...

12930
来自专栏北京马哥教育

让你的 Python 代码优雅又地道

学Python最简单的方法是什么?推荐阅读:Python开发工程师成长魔法 译序 如果说优雅也有缺点的话,那就是你需要艰巨的工作才能得到它,需要良好的教育才能欣...

406100
来自专栏鸿的学习笔记

python新手应注意的一些小问题

最重要的是看你公司喜欢哪个版本的python。。。。对于你个人而言,python2与python3的差别你可以忽略。。。。 一.注意pep8的编程风格,请记住...

58420
来自专栏量子位

干货 | 如何写一个更好的Python函数?

《Writing Idiomatic Python》一书的作者在Medium上发表了一篇文章,给出了6个建议。

10520

扫码关注云+社区

领取腾讯云代金券