前言
虽然目前dask,cudf等包的出现,使得我们的数据处理大大得到了加速,但是并不是每个人都有比较好的gpu,非常多的朋友仍然还在使用pandas工具包,但有时候真的很无奈,pandas的许多问题我们都需要使用...实验对比
01 Apply(Baseline)
我们以Apply为例,原始的Apply函数处理下面这个问题,需要18.4s的时间。...import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randint(0, 11, size=(1000000, 5)),...x['d'],x['e']),axis=1)
HBox(children=(HTML(value='Dask Apply'), FloatProgress(value=0.0, max=16.0), HTML...如果我们的操作是可以直接向量化的话,那么我们就尽可能的避免使用:
for循环;
列表处理;
apply等操作
在将上面的问题转化为下面的处理之后,我们的时间缩短为:421 ms。