文章/答案/技术大牛

发布

用 Joblib 加速机器学习：高效存储与加载大数据！

文章来源：企鹅号 - 小牛哥游戏解说

【今日python】用Joblib加速机器学习：高效存储与加载大数据！

咱们今天来唠唠Joblib这玩意儿，这可是个加速Python，特别是机器学习任务的好东西。它能让咱轻松存储和加载大数据集，比pickle快多了，尤其是在NumPy数组这种科学计算数据上，更是杠杠的。

##Joblib是个啥？

其实吧，Joblib就像一个加强版的pickle，专门处理Python对象的持久化。简单说，就是把Python对象存到磁盘上，需要的时候再读回来。但它比pickle更牛的地方在于，它对NumPy数组这类大数据做了优化，存取速度飞快。

##Joblib的安装

安装Joblib非常简单,就一句命令的事儿:

pipinstalljoblib

搞定！

##存取NumPy数组

用Joblib存NumPy数组，就像腌咸菜一样简单：

importnumpyasnp

fromjoblibimportdump,load

#创建一个巨大的NumPy数组，就当是咱的"咸菜"

big_array=np.random.rand(1000,1000)

#把它"腌"起来，存到"big_array.joblib"文件里

dump(big_array,'big_array.joblib')

#啥时候想吃了，再从文件里"取"出来

loaded_array=load('big_array.joblib')

#看看是不是原来的味道，啊不，是原来的数据

print(np.array_equal(big_array,loaded_array))#输出True

温馨提示：文件名最好用.joblib后缀，这样看着明白。

##压缩大法

Joblib还支持压缩，就像把咸菜真空包装一样，更省空间。

#'zlib','gzip','bz2','lzma','xz'这些压缩算法都行,

#数字越大压缩率越高,但速度越慢,看情况选择.3就挺好.

dump(big_array,'big_array.joblib.gz',compress=('gzip',3))

loaded_array=load('big_array.joblib.gz')

温馨提示：压缩级别别太高，小心压缩时间比加载时间还长，那就搞笑了。

##处理多个对象

Joblib不光能存NumPy数组，还能一次存多个对象，就像一个大坛子，啥都能往里装。

data={'model':some_trained_model,'data':big_array,'params':some_parameters}

dump(data,'all_data.joblib')

loaded_data=load('all_data.joblib')

##在机器学习里用Joblib

在机器学习里，Joblib最大的用处就是存储训练好的模型。比方说，你训练了一个老大的模型，花了好几个小时，总不能每次用都重新训练吧？用Joblib存起来，下次直接加载，嗖一下就搞定了。

fromsklearn.linear_modelimportLinearRegression#随便举个例子

#假设model是你训练好的模型

model=LinearRegression()

#...训练过程...

#保存模型

dump(model,'trained_model.joblib')

#加载模型

loaded_model=load('trained_model.joblib')

#继续用

predictions=loaded_model.predict(some_new_data)

##内存映射大法

对于超大的数据集，Joblib还有一个更狠的招：内存映射。这就像把数据直接映射到内存里，用的时候再读取，避免一次性加载所有数据，省内存！

#mmap_mode='r'表示只读,还有'w+'(读写),'c'(如果文件不存在就创建)等模式

big_data=load('big_data.joblib',mmap_mode='r')

温馨提示：内存映射适合处理超大文件，小文件就别折腾了，没啥效果。

##延迟加载

Joblib还能延迟加载，就像点外卖一样，先下单，等饿了再送过来。

fromjoblibimportdelayed

#delayed包装一下函数和参数

delayed_result=delayed(some_function)(some_arguments)

#等需要的时候再执行

result=delayed_result()

咱们今天学习了Joblib的基本用法，包括存储和加载NumPy数组、压缩、处理多个对象、在机器学习中的应用、内存映射和延迟加载。有了Joblib，处理大数据和机器学习模型就方便多了。赶紧试试吧！别忘了，多练习才能熟能生巧。

发表于: 2024-12-302024-12-30 00:13:00
原文链接：https://page.om.qq.com/page/OxIFRFVmrxZhJ4lOgn_UMlUQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

用 Joblib 加速机器学习：高效存储与加载大数据！

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐