我们在第一章简单介绍过文档-词项矩阵的构成,直观来看,矩阵的行代表文档,列代表词汇,矩阵元素即为文档中某一词汇出现的次数。...“保护”},这个词典一共包含 8 个不同的词汇,利用词典的索引号,上面两个文档都可以用一个 8 维的向量表示:(1,1, 1,1,0,0,0,0)和(0,0,0,0,1,1,1,1),向量元素表示对应维度的词汇在文档中出现的次数...,可以利用该参数设置处理方案,有以下三种方案:
(1)strict:默认缺失值,出现异常报错
(2)ignore:忽略异常情况
(3)replace
analyzer:指定特征项为词(word)还是 n-grams...可以将参数 max_df 取值设置为 [0.7, 1.0) 基于内部语料库词频自动识别、过滤停用词
lowercase:在分词前是否将所有字符都转换为小写形式,默认缺失值为 “True”
token_pattern...DictVectorizer 模块下定义的 DictVectorizer 类可以将字典形式的特征表示转换为 Numpy 数组形式,对于分类变量采用“one-hot coding”表示。