首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

干货 | 自然语言处理(3)之词频-逆文本词频(TF-IDF)详解

但是实际上”to“是一个非常普遍的词,几乎所有的文本都会用到,因此虽然它的词频为2,但是重要性却比词频为1的"China"和“Travel”要低的多。...如果向量化特征仅仅用词频表示就无法反应这一点,TF-IDF可以反映这一点。...TF就是前面说到的词频,之前做的向量化也就是做了文本中各个词的出现频率统计。关键是后面的这个IDF,即“逆文本频率”如何理解。...上面谈到几乎所有文本都会出现的"to"其词频虽然高,但是重要性却应该比词频低的"China"和“Travel”要低。IDF就是来反映这个词的重要性的,进而修正仅仅用词频表示的词特征值。...其中TF(x)指词x在当前文本中的词频。 TF-IDF实战 在scikit-learn中,有两种方法进行TF-IDF的预处理。

2.3K50

词频统计与TF-IDF

词频统计 TF-IDF和词频是脱不了关系的,所以在这里再记录一下关于词频的内容。 其实在词云图那块儿就已经完成了词频统计,这里记录另一种方法,即利用NLTK包实现统计与可视化。...jieba分词中的方法 import matplotlib # 设置使用字体 matplotlib.rcParams['font.sans-serif'] = 'SimHei' # 利用nltk进行词频特征统计...# 可视化 fdist.plot(30) # 频率分布图 fdist.plot(30,cumulative=True) # 频率累计图 print('='*3,'根据词语长度查找词语...name__=='__main__': path= r'xxxx.txt' str_doc = readFile(path) # print(str_doc) # 2 词频特征统计...该技术采用一种统计方法,根据字词的在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。它的优点是能过滤掉一些常见的却无关紧要本的词语,同时保留影响整个文本的重要字词。

67910

软工作业2-词频统计

功能实现:        读取文件               获取文件名               判断获取参数是否正确               判断文件是否可读取,否则报错处理        根据文件内容进行分析处理...统计单词数        输出结果 测试用例:        创建临时文件 根据一定规则随机生成内容 记录生成内容的有效单词等各种你参数                      功能测试              ...   _word_check_in_line:函数:获取字符串中合法单词,使用正则表达式匹配    单元测试:        创建临时文件      根据一定规则随机生成内容     记录生成内容的有效单词等各种你参数...(-x[1], x[0]))[:10]        使用sorted函数对字典进行排序     参数:key=lambda x: (-x[1], x[0])            表示排序依据,先根据字典值大...->小排序,后根据字典键按字典序排序            [:10]:表示取前十个结果 生成用于测试的临时文件: 1 def touch_test_file(line_num, word_num):

65330
领券