nltk FreqDisk函数能够统计数组当中单词出现的次数。
text = ['hadoop','spark','hive','hadoop','hadoop'
,'spark','lucene','hadoop','spark','hive'
,'hadoop','hadoop','spark','pig','zookeeper'
,'flume','stream','hadoop','hadoop','spark'
,'pig','zookeeper','flume','stream','hadoop'
,'hadoop','spark','pig','zookeeper','flume'
,'stream','hadoop','hadoop','spark','pig'
,'zookeeper','flume','stream','hadoop','hadoop'
,'spark','pig','zookeeper','flume','stream']
fdist = nltk.FreqDist(text)
for k in fdist:
print(k+" "+str(fdist[k]))
hadoop 14
spark 8
hive 2
lucene 1
pig 5
zookeeper 5
flume 5
stream 5
参数n,以折线图的方式展示频数最大的前n项数据。
fdist.plot(4)
参数n,以表格的方式展示频数最大的前n项数据。
fdist.tabulate(5)
参数n,展示频数最大的前n项数据。
print(fdist.most_common(3))
[('hadoop', 14), ('spark', 8), ('pig', 5)]
展示频数最小的数据。
print(fdist.hapaxes())
['lucene']
展示频数最大的数据。
print(fdist.max())
hadoop
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/226787.html原文链接:https://javaforall.cn