根据不同的条件进行不同的计算或操作,是很常见的需求。Python 有 if 语句可以实现。但是一旦分支很多,多个 if 就是使你眼花缭乱。
我们有许多技巧(套路)来简化这一过程。我会一连几篇文章,从简单到复杂,教你如何理解和应用这些技巧。
这里,你可以学到很多 Python 知识点的应用:
先看数据:
每一种计算方式如下:
看过我之前文章【为什么你总是学不会Python,入门Python的4大陷阱ython,因为你全掉坑了】的小伙伴已经学聪明了,为每一种计算单独定义了函数:
但是,该怎么调用这些函数呢?
"很简单呀,判断,然后调用":
这看起来不错,但是,每新增一种方式,就要在这里追加一个判断,一旦分支很多,这里的代码就会非常冗长:
为什么我一直让每一块代码尽可能简短?
因为我们每次处理一个独立小问题会比处理大问题要高效得多,大问题意味着涉及很多小问题。同时解决多个小问题,会让我们的大脑短路。
如果我们可以这样子定义计算方式与函数的关系,那就很舒服了:
"这看着有点眼熟,不就是字典吗?"
对,字典就是用来表达这种一对一关系的最佳结构。
你可以把字典当作是一个过目不忘(死记硬背)的记忆高手,只要他过一遍数据之后,你给他一个 key 值,他能马上找出对应的 value 值给你。
于是,我们可以把计算方式与定义的每个函数给他记忆:
接下来,真正处理每一行数据的时候,只需要让他(字典)取出函数,然后调用即可:
现在我们的代码挺不错,如果数据中出现了新的计算方式,但我们忘记加入字典,那么代码运行就会报错:
"一举两得,太完美了!"
但是,如果你跟我学习 pandas ,就会知道,pandas 中尽可能避免自己遍历处理数据。
pandas 的简洁程度与计算效率不是我们自己遍历处理可以比得过。
这个例子中,每一种的计算方式的区别仅仅在于后面的系数:
这种情况下,其实我们可以先批量把每一行对应的系数取出来,然后直接计算:
别以为这只是 pandas 把 for 遍历给你写了而已,他是基于 numpy 的,而numpy处理时都是基于 c++ 的调用,性能非常快速
这种方式其实也有他的缺点:
"那么,之前的字典声明方式,是不是就是这种场景下最通用的方式?"
用字典声明对应关系其实已经非常好了,但是如果能在定义函数的地方上直接标记对应关系,那么也挺好:
怎么可以做到这种效果呢?有兴趣的小伙伴不妨试试。下一节,我们将介绍这种套路