:文件格式,csv(逗号分隔值)
# 不使用数据库:
# 1,性能瓶颈,数量过多,2,3GB 读取慢
# 2,数据格式不符合机器学习要求的格式
# pandas:读取工具,速度非常快...frequecy log(总文档数量/该词出现的文档数量)
# tf*idf ---->重要性 得出改次在该文档中的重要性
# 每篇文档每个词都有重要性,不同文章的同一个词重要性不同
# 如果一个文章中的...一个词在文章中重要性高,没其文章中低------>改词可用于区分分类
# 语法
# TfidfVectorizer(stop_words=None,.....)
# 返回权重矩阵
# TfidfVectorizer.fit_transform...() 单词列表
from sklearn.feature_extraction.text import TfidfVectorizer
def tfidfvec():
tfidf = TfidfVectorizer...(每行代表一篇文章,每列表示一个词,在该文章中的重要性),是否存在,若存在显示为重要性,不存在为0
[[0. 0. 0. 0. 0.