,则为: 按照上表和矩阵,可以得到三个文档中的每个单词出现的列索引,即矩阵中非零元素对应的列索引,组成一个列表:
ind = [0, 1, 0, 1, 2, 3, 4, 5, 3, 4, 6, 7]...然后,将矩阵 中的所有非零数字(单词出现次数)也组成一个列表(与ind中的列索引对应):
val = [1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 2, 1]
一般称val为值。...将这几个数字仍然组成一个列表:
ptr = [0, 2, 8, 12]
这样,我们通过ind、val、ptr 三个列表中的值,就能准确地记录了矩阵 中所有非零数字的位置和值,同时剔除了零元素。...对分块稀疏矩阵按行压缩
coo_matrix 坐标格式的稀疏矩阵
csc_matrix 压缩系数矩阵
csr_matrix 按行压缩
dia_matrix 压缩对角线为非零元素的稀疏矩阵
dok_matrix...字典格式的稀疏矩阵
lil_matrix 基于行用列表保存稀疏矩阵的非零元素
下面以csr_matrix为例进行演示。