当绘制文本语料库中某些单词的条件频率分布时,y轴显示为计数,而不是百分比 我遵循Steven Bird,Ewan Klein和Edward Loper在"Natural Language Processingwith Python“中概述的代码,以显示不同语言的UDHR在Jupyter Notebook中的单词频率分布。for word in udhr.words(lan
不幸的是,我使用的是一个非常大的语料库,这些语料库分布在数百个.gz文件中--实际上是24 an (打包)的文件。每一行都有一个n-gram (二元、三元、四元等)右边是频率计数。我基本上需要创建一个文件,该文件存储每个四元组的子串频率及其整个字符串频率计数(即,4个一元组频率,3个双元组频率,2个三元