例如,对于两个TF-IDF向量的l2-norm进行点积,就可以得到这两个向量的余弦相似性。
函数normalize 提供了一个快速有简单的方式在一个单向量上来实现这正则化的功能。...([[-0.70710678, 0.70710678, 0. ]])
'''
normalize和Normalizer都既可以用在密集数组也可以用在稀疏矩阵(scipy.sparse)...中
对于稀疏的输入数据,它会被转变成维亚索的稀疏行表征(具体请见scipy.sparse.csr_matrix)
二值化–特征的二值化
特征的二值化是指将数值型的特征数据转换成布尔类型的值。...[[ 0., 0., 1.],
[ 1., 0., 0.],
[ 0., 0., 0.]])
'''
binarize and Binarizer都可以用在密集向量和稀疏矩阵上..., 6. ]])
'''
Imputer类同样也可以支持稀疏矩阵,以下例子将0作为了缺失值,为其补上均值
import scipy.sparse as sp
# 创建一个稀疏矩阵