我们在第一章简单介绍过文档-词项矩阵的构成,直观来看,矩阵的行代表文档,列代表词汇,矩阵元素即为文档中某一词汇出现的次数。...“保护”},这个词典一共包含 8 个不同的词汇,利用词典的索引号,上面两个文档都可以用一个 8 维的向量表示:(1,1, 1,1,0,0,0,0)和(0,0,0,0,1,1,1,1),向量元素表示对应维度的词汇在文档中出现的次数...“特征”中的一种。...“english”:使用内建的英文停用词表
(2)自定义停用词列表:列表中词汇将会从分词结果中删除,只有当参数 analyzer == 'word' 时才可以进行此项设置
(3)None:不使用停用词,...可以将参数 max_df 取值设置为 [0.7, 1.0) 基于内部语料库词频自动识别、过滤停用词
lowercase:在分词前是否将所有字符都转换为小写形式,默认缺失值为 “True”
token_pattern