假设现在有一个已经用空格分隔的分词语料库,将其命名为 my_corpus.txt,当然这里只是一个简单的小例子,实际的语料库要复杂的多。..._jclass.java.util.LinkedList'>
>>> print(sents)
[[商品, 和, 服务], [商品, 和服, 物美价廉], [服务, 和, 货币]]
统计一元语法和二元语法...有一些语料库中含有人工标注的词性,因此词典格式最好还要支持词性,所以在进行一元语法的频次统计时,可以考虑为语料库中的每个单词设置词性,这里为了简单统一设置为名词,当然在实际中即使是相同的单词在不同的上下文中也可能表示不同的词性..._jclass.java.util.LinkedList'>
>>> print(sents)
[[商品/n, 和/n, 服务/n], [商品/n, 和服/n, 物美价廉/n], [服务/n, 和/n,