,则为: 按照上表和矩阵,可以得到三个文档中的每个单词出现的列索引,即矩阵中非零元素对应的列索引,组成一个列表:
ind = [0, 1, 0, 1, 2, 3, 4, 5, 3, 4, 6, 7]...然后,将矩阵 中的所有非零数字(单词出现次数)也组成一个列表(与ind中的列索引对应):
val = [1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 2, 1]
一般称val为值。...最后,观察稀疏矩阵 ,第一行第一个非零元素之前共有 个非零元素;第二行的第一个非零元素之前共有 个非零元素,第三行的第一个非零元素之前共有
个非零元素;再记录矩阵中所有的非零数字个数...将这几个数字仍然组成一个列表:
ptr = [0, 2, 8, 12]
这样,我们通过ind、val、ptr 三个列表中的值,就能准确地记录了矩阵 中所有非零数字的位置和值,同时剔除了零元素。...图 2-6-3
CSR 的“按行压缩”就体现在ptr所记录的结果中,其中的数值可以称为行偏移量,从中可以确定每行的非零数字个数。