pandas数据帧到scipy稀疏矩阵的高效转换_如何使用scipy的csr_matrix将pandas数据帧转换为稀疏矩阵？_如何将pandas数据帧中的稀疏矩阵转换为密集矩阵？ - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

scipy.sparse、pandas.sparse、sklearn稀疏矩阵的使用

单机环境下，如果特征较为稀疏且矩阵较大，那么就会出现内存问题，如果不上分布式 + 不用Mars/Dask/CuPy等工具，那么稀疏矩阵就是一条比较容易实现的路。

01

稀疏矩阵的概念介绍

来源：DeepHub IMBA本文约2700字，建议阅读9分钟本文为你介绍一种既能够保存信息，又节省内存的方案：我们称之为“稀疏矩阵”。在机器学习中，如果我们的样本数量很大，在大多数情况下，首选解决方案是减少样本量、更改算法，或者通过添加更多内存来升级机器。这些方案不仅粗暴，而且可能并不总是可行的。由于大多数机器学习算法都期望数据集（例如常用的 DataFrame）是保存在内存中的对象（因为内存读取要比磁盘读取快不止一个量级），所以升级硬件这种解决方案基本上会被否定。所以科学家们找到的一种既能够保存信息，

02

您找到你想要的搜索结果了吗？

是的

没有找到

稀疏矩阵的概念介绍

在机器学习中，如果我们的样本数量很大，在大多数情况下，首选解决方案是减少样本量、更改算法，或者通过添加更多内存来升级机器。这些方案不仅粗暴，而且可能并不总是可行的。由于大多数机器学习算法都期望数据集（例如常用的 DataFrame）是保存在内存中的对象（因为内存读取要比磁盘读取快不止一个量级），所以升级硬件这种解决方案基本上会被否定。所以科学家们找到的一种既能够保存信息，又节省内存的方案：我们称之为“稀疏矩阵”。

03

Python 进阶视频课 - 6. SciPy 下

上节主要从插值、数值积分和优化三大功能介绍 scipy，下节从有限差分和线性回归两大功能来介绍 scipy。

04

SciPy 稀疏矩阵（3）：DOK

散列表（Hash Table）是一种非常重要的数据结构，它允许我们根据键（Key）直接访问在内存存储位置的数据。这种数据结构是一种特殊类型的关联数组，对于每个键都存在一个唯一的值。它被广泛应用于各种程序设计和应用中，扮演着关键的角色。散列表的主要优点是查找速度快，因为每个元素都存储了它的键和值，所以我们可以直接访问任何元素，无论元素在数组中的位置如何。这种直接访问的特性使得散列表在处理查询操作时非常高效。因此，无论是进行数据检索、缓存操作，还是实现关联数组，散列表都是一种非常有用的工具。这种高效性使得散列表在需要快速查找和访问数据的场景中特别有用，比如在搜索引擎的索引中。散列表的基本实现涉及两个主要操作：插入（Insert）和查找（Lookup）。插入操作将一个键值对存储到散列表中，而查找操作则根据给定的键在散列表中查找相应的值。这两种操作都是 O(1) 时间复杂度，这意味着它们都能在非常短的时间内完成。这种时间复杂度在散列表与其他数据结构相比时，如二分搜索树或数组，显示出显著的优势。然而，为了保持散列表的高效性，我们必须处理冲突，即当两个或更多的键映射到同一个内存位置时。这是因为在散列表中，不同的键可能会被哈希到同一位置。这是散列表实现中的一个重要挑战。常见的冲突解决方法有开放寻址法和链地址法。开放寻址法是一种在散列表中解决冲突的方法，其中每个单元都存储一个键值对和一个额外的信息，例如，计数器或下一个元素的指针。当一个元素被插入到散列表中时，如果当前位置已经存在另一个元素，那么下一个空闲的单元将用于存储新的元素。然而，这个方法的一个缺点是，在某些情况下，可能会产生聚集效应，导致某些单元过于拥挤，而其他单元过于稀疏。这可能会降低散列表的性能。链地址法是一种更常见的解决冲突的方法，其中每个单元都存储一个链表。当一个元素被插入到散列表中时，如果当前位置已经存在另一个元素，那么新元素将被添加到链表的末尾。这种方法的一个优点是它能够处理更多的冲突，而且不会产生聚集效应。然而，它也有一个缺点，那就是它需要更多的空间来存储链表。总的来说，散列表是一种非常高效的数据结构，它能够快速地查找、插入和删除元素。然而，为了保持高效性，我们需要处理冲突并采取一些策略来优化散列表的性能。例如，我们可以使用再哈希（rehashing）技术来重新分配键，以更均匀地分布散列表中的元素，减少聚集效应。还可以使用动态数组或链表等其他数据结构来更好地处理冲突。这些优化策略可以显著提高散列表的性能，使其在各种应用中更加高效。

05

SciPy 稀疏矩阵（2）：COO

上回说到，计算机存储稀疏矩阵的核心思想就是对矩阵中的非零元素的信息进行一个必要的管理。然而，我们都知道在稀疏矩阵中零元素的分布通常情况下没有什么规律，因此仅仅存储非零元素的值是不够的，我们还需要非零元素的其他信息，具体需要什么信息很容易想到：考虑到在矩阵中的每一个元素不仅有值，同时对应的信息还有矩阵的行和列。因此，将非零元素的值外加上其对应的行和列构成一个三元组（行索引，列索引，值）。然后再按照某种规律存储这些三元组。

02

【学术】一篇关于机器学习中的稀疏矩阵的介绍

AiTechYun 编辑：Yining 在矩阵中，如果数值为0的元素数目远远多于非0元素的数目，并且非0元素分布无规律时，则称该矩阵为稀疏矩阵；与之相反，若非0元素数目占大多数时，则称该矩阵为稠密矩阵

04

【Python环境】Python的数据分析——前言

一. Python相关的科学计算库 ● NumPy NumPy是Numerical Python的简称，是Python科学计算的基础库。它提供了如下内容：快速有效的多维数组对象ndarray，数组之间的运算，基于数组的数据读写到磁盘功能，线代运算，傅里叶变换，随机数生成，将C、C++和Fortran集成到Python的工具。 ● pandas pandas提供了丰富的数据结构和功能，可以快速、简单、富于表现地处理结构化数据。它是使Python在数据分析领域强大高效的关键组件之

05

Scipy 高级教程——稀疏矩阵

Scipy 提供了处理稀疏矩阵的工具，这对于处理大规模数据集中的稀疏数据是非常有效的。本篇博客将深入介绍 Scipy 中的稀疏矩阵功能，并通过实例演示如何应用这些工具。

01

SciPy 稀疏矩阵（4）：LIL（上）

上回说到，无论是 COO 格式的稀疏矩阵还是 DOK 格式的稀疏矩阵，进行线性代数的矩阵运算的操作效率都非常低。至于如何优化线性代数的矩阵运算的操作效率，继续改进三元组的存储方式可能不好办了，需要换一种存储方式。至于存储方式也不需要我们去实现，SciPy 已经实现了这样的稀疏矩阵存储方式，它就是另一个板块，这个板块共有 4 种稀疏矩阵格式，分别是{BSR, CSC, CSR, LIL}，这一回先介绍 LIL 格式的稀疏矩阵！

01

《深入浅出Python机器学习》读书笔记第二章基于Python语言的环境配置

《深入浅出Python机器学习》读书笔记，第二章基于Python语言的环境配置

01

Python数据分析库介绍及引入惯例

NumPy（Numerical Python的简称）是Python科学计算的基础包。

03

Pandas直接读取arff格式的文件，这种需求还是头一次碰到！

这只是开胃小菜，昨天有位即将从电子科技大学毕业的网友联系到我，说arff文件不仅仅只有上面的存储形式，还有以稀疏矩阵的格式存储的。

02

python的高级数组之稀疏矩阵

具有少量非零项的矩阵（在矩阵中，若数值0的元素数目远多于非0元素的数目，并且非0元素分布没有规律时，）则称该矩阵为稀疏矩阵；相反，为稠密矩阵。非零元素的总数比上矩阵所有元素的总数为矩阵的稠密度。

01

用Python做数据分析

Numpy库是Python数值计算的基石。它提供了多种数据结构、算法以及大部分涉及Python数值计算所需的接口。主要包括以下内容：

01

利用Python进行数据分析(1) 简单介绍

在这里，“数据”是指结构化的数据，例如：记录、多维数组、Excel 里的数据、关系型数据库中的数据、数据表等。

02

如何使用python处理稀疏矩阵

大多数机器学习从业者习惯于在将数据输入机器学习算法之前采用其数据集的矩阵表示形式。矩阵是一种理想的形式，通常用行表示数据集实例，用列表示要素。

03

推荐系统为什么使用稀疏矩阵？如何使用python的SciPy包处理稀疏矩阵

这意味着当我们在一个矩阵中表示用户(行)和行为(列)时，结果是一个由许多零值组成的极其稀疏的矩阵。

02

精品课 - Python 数据分析

有个人可能会问 NumPy-Pandas-SciPy 不都是免费资源吗，为什么还要花钱来上课？没错，我也是参考了大量书籍、优质博客和付费课程中汲取众多精华，才打磨出来的前七节课。

04

单细胞分析过程中的稀疏矩阵删减

在单细胞转录组分析中，偶尔会出现电脑内存有限等情况，无法直接读取所有数据，这种时候可以考虑分析部分数据。

01

原创译文 | 最新顶尖数据分析师必用的15大Python库（上）

近几年来，Python在数据科学界受到大量关注，我们在这里为数据科学界的科学家和工程师列举出了最顶尖的Python库。（文末更多往期译文推荐）因为这里提到的所有的库都是开源的，所以我们还备注了每个库的贡献资料数量、贡献者人数以及其他指数，可对每个Python库的受欢迎程度加以辅助说明。 1. NumPy （资料数量：15980；贡献者：522）在最开始接触Python的时候，我们不可避免的都需要寻求Python的SciPy Stack的帮助，SciPy Stack是一款专为Python中科学计算而设

09

稀疏矩阵的压缩方法

说明：稀疏矩阵是机器学习中经常遇到的一种矩阵形式，特别是当矩阵行列比较多的时候，本着“节约”原则，必须要对其进行压缩。本节即演示一种常用的压缩方法，并说明其他压缩方式。

02

讲解from . import _arpack ImportError: DLL load failed

在Python编程中，经常会遇到各种 ImportError 错误。今天我们来讲解一种常见的 ImportError 错误： "from . import _arpack ImportError: DLL load failed"。

01

大数据测试学习笔记之Python工具集

这是2018年度业余主要学习和研究的方向的笔记：大数据测试整个学习笔记以短文为主，记录一些关键信息和思考预计每周一篇短文进行记录，可能是理论、概念、技术、工具等等学习资料以IBM开发者社区、华为开发者社区以及搜索到的相关资料为主我的公众号：开源优测大数据测试学习笔记之Python工具集简介在本次笔记中主要汇总Python关于大数据处理的一些基础性工具，个人掌握这些工具是从事大数据处理和大数据测必备技能主要工具有以下（包括但不限于）： numpy pandas SciPy Scikit-L

06

SciPy 稀疏矩阵（1）：介绍

SciPy 是一个利用 Python 开发的科学计算库，其中包含了众多的科学计算工具。其中，SciPy 稀疏矩阵是其中一个重要的工具。相比于常规的矩阵，稀疏矩阵主要的特点是它的数据大部分都是 0 ，而非 0 的数据只有少数。这种特点可以在存储和计算上节省大量的时间和空间。SciPy 提供了多种格式的稀疏矩阵，包括 COO、CSR、CSC 等多种格式。在实际应用中，SciPy 稀疏矩阵被广泛应用于图像处理、网络分析、文本处理等领域。例如，在图像处理中，为了压缩存储图像，可以将彩色图像转化为三个单色图像，然后使用稀疏矩阵存储。另外，在网络分析中，线性代数中的稀疏矩阵常被用来表示网络拓扑结构。因此，学习和掌握 SciPy 稀疏矩阵是非常有必要的。

01

盘点最重要的7个Python库

NumPy是Numerical Python的简写，是Python数值计算的基石。它提供多种数据结构、算法以及大部分涉及Python数值计算所需的接口。NumPy还包括其他内容：

01

如何动手设计和构建推荐系统？看这里

你听说过著名的果酱实验吗？在 2000 年，来自哥伦比亚大学和斯坦福大学的心理学家 Sheena Iyengar 和 Mark Lepper 基于现场实验提出了一项研究。

01

【知识】稀疏矩阵是否比密集矩阵更高效？

这里的效率高，应该是有前提的：当使用稀疏矩阵的存储格式(如CSR)时，计算效率更高。如果是普通的完整矩阵格式，实际上效率一样。

01

【知识】稀疏矩阵是否比密集矩阵更高效？

这里的效率高，应该是有前提的：当使用稀疏矩阵的存储格式(如CSR)时，计算效率更高。如果是普通的完整矩阵格式，实际上效率一样。

01

推荐 | 微软SAR近邻协同过滤算法拆解（二）

推荐 | 微软SAR近邻协同过滤算法解析（一）前面这篇介绍了整个SAR算法，算法本身比较容易理解。本篇主要对一下里面有趣的小函数。

02

【实验楼-Python 科学计算】SciPy - 科学计算库（下）

使用 eigvals 计算矩阵的特征值，使用 eig 同时计算矩阵的特征值与特征向量：

02

2017，最受欢迎的 15 大 Python 库有哪些？

近年来，Python 在数据科学行业扮演着越来越重要的角色。因此，我根据近来的使用体验，在本文中列出了对数据科学家、工程师们最有用的那些库。由于这些库都开源了，我们从Github上引入了提交数，贡献

06

2017，最受欢迎的 15 大 Python 库有哪些？

AI 研习社按：本文作者为 ActiveWizards 的数据顾问 Igor Bobriakov，林立宏与 Raey Li 编译。 Igor Bobriakov 近年来，Python 在数据科学行业扮

04

机器学习基础与实践（二）——数据转换

本文目录：一.标准化的原因二.适用情况三.三种数据变换方法的含义与应用四.具体方法及代码一）标准化 1.1 scale----零均值单位方差1.2 StandardScaler 二）归一化 2.1 MinMaxScaler(最小最大值标准化)2.2 MaxAbsScaler（绝对值最大标准化） 2.3 对稀疏数据进行标准化 2.4 对离群点进行标准化三）正则化 3.1 L1、L2正则化四）二值化 4.1特征二值化五）对类别特征进行编码六）缺失值的插补七）生成多项式特征八）自定义

06

盘一盘 Python 特别篇 20 - SciPy 稀疏矩阵

和稠密矩阵相比，稀疏矩阵的最大好处就是节省大量的内存空间来储存零。稀疏矩阵本质上还是矩阵，只不过多数位置是空的，那么存储所有的 0 非常浪费。稀疏矩阵的存储机制有很多种 (列出常用的五种)：

03

10行代码搞定图Transformer，图神经网络框架DGL迎来1.0版本

机器之心报道机器之心编辑部让所有人都能快速使用图机器学习。 2019 年，纽约大学、亚马逊云科技联手推出图神经网络框架 DGL (Deep Graph Library)。如今 DGL 1.0 正式发布！DGL 1.0 总结了过去三年学术界或工业界对图深度学习和图神经网络（GNN）技术的各类需求。从最先进模型的学术研究到将 GNN 扩展到工业级应用，DGL 1.0 为所有用户提供全面且易用的解决方案，以更好的利用图机器学习的优势。 DGL 1.0 为不同场景提供的解决方案。 DGL 1.0 采用分层和模

03

Rust的一些科学计算相关经验（稀疏矩阵计算的相关生态仍有很大欠缺）

大家好，之前在论坛里问了不少有关线性代数计算库的问题，现在姑且来交个作业，顺便给出一些用Rust做科学计算的个人经验。结论我就直接放在开头了。

03

【水了一篇】Scipy简单介绍

Scipy是基于Numpy的科学计算库，用于数学、科学、工程学等领域，很多有一些高阶抽象和物理模型需要使用Scipy。SciPy包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。

02

章神的私房菜之数据预处理

作者：章华燕编辑：徐松 Scikit-learn实战之数据预处理 ——Data Preprocessing ---- 各位看官，我们又见面了，今天我们继续学习开源包 Scikit-learn 功能

SciPy详解

在Python科学计算领域，SciPy是一个非常重要的库。它提供了许多用于数值计算、优化、积分、统计和许多其他科学计算任务的功能。SciPy构建在NumPy之上，为数学、科学和工程领域的广泛问题提供了高效的解决方案。本教程将介绍SciPy的主要功能和用法，并提供一些示例以帮助您快速入门。

01

Scipy入门

标题中的英文首字母大写比较规范，但在python实际使用中均为小写。建议读者安装anaconda，这个集成开发环境自带了很多包。作者推荐到2018年8月2日仍为最新版本的anaconda下载链接: https://pan.baidu.com/s/1pbzVbr1ZJ-iQqJzy1wKs0A 密码: g6ex 下面代码的开发环境为jupyter notebook，使用在jupyter notebook中的截图表示运行结果。

01

小白的机器学习实战——向量，矩阵和数组小白的机器学习实战——向量，矩阵和数组

创建矩阵 import numpy as np # 创建矩阵 matrix = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]]) 向量 # 行向量 vector_row = np.array([1, 2, 3]) # 列向量 vector_column = np.array([[1],

04

走过19年，每年千万下载量，科学计算开源库SciPy的前世今生

作为科学计算中的中流砥柱，SciPy 从 2001 年到现在已经走过了十九个年头，它为最优化、积分、微分方程等各种数值计算提供了完整的流程，也为科研分析人员提供了最好用与高效的开源库。

03

走过19年，每年千万下载量，科学计算开源库SciPy的前世今生

作为科学计算中的中流砥柱，SciPy 从 2001 年到现在已经走过了十九个年头，它为最优化、积分、微分方程等各种数值计算提供了完整的流程，也为科研分析人员提供了最好用与高效的开源库。

03

【python语言学习】(一)向量、矩阵和数组

向量、矩阵和数组 1.0简介 1.1创建一个向量 1.2创建一个矩阵 1.3创建一个稀疏矩阵 1.4选择元素 1.5展示一个矩阵的属性 1.0简介向量(vector）矩阵(matrice）张量(tensor）行(row）列(column) 1.1创建一个向量 import numpy as np vector_row = np.array([1, 2, 3]) vector_column = np.array([[1], [2], [3]]) 1.2创建一个矩阵 (●’◡’●)通过二维数组来创建一

01

XGBoost2.0重大更新！

XGBoost是Extreme Gradient Boosting的缩写，是一个非常流行的开源机器学习库，以其高性能和出色的准确性而闻名。它已广泛应用于各个领域，包括数据科学、金融和在线广告。

02

Python稀疏矩阵及参数保存代码实现

4. save：类似于matlab中的.mat格式，python也可以保存参数数据，除了保存成csv，json，excel等之外，个人觉得matlab的.mat格式真的很强，啥都可以直接保存~~

02

《利用Python进行数据分析·第3版》学习笔记1·准备环境

这5年中，数据分析又发生了很大的变化。尤其是眼见着OpenAI的GPT横扫技术领域，让以往一切模型方法看起来都像“小孩子的游戏”一样。大模型成为了海量信息和有效信息之间的新桥梁，而上一座桥梁是以谷歌的PageRank为代表的搜索算法。幸好，因为数据分析是直接跟数据打交道，并且要根据数据生成决策，这方面是人的强项，暂时不会受到影响。

03

大规模稀疏线性规划求解思路梳理

已知现在有M个广告主和N个广告词，其中每个单位流量的（广告主，广告词）收益固定，且每个广告主/广告词均有流量分配限制，问如何给（广告主，广告词）分配流量，使得收益达到最大。

01

机器学习/深度学习代码速查：6大工具库 &27种神经网络图览

Kailash Ahirwar，Mate Lab 联合创始人，Github的一位资深作者，也是一位活雷锋，近日在其Github个人主页上发表了一个机器学习/深度学习的代码速查表，包括： Keras Numpy Scipy Pandas Scikit-learn Matplotlib 五大工具库常用代码，以及 Neural Networks Zoo——27种神经网络图概览。可以说极大方便了学习者的代码查找。附上网址：https://github.com/kailashahirwar/cheatsheet

05

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭