我正在做文本摘要工作,使用nltk库,我能够提取二元语法和三元语法,并按频率对它们进行排序
因为我对这个领域(NLP)非常陌生,所以我想知道我是否可以使用一个统计模型来自动选择Ngram的正确大小(我所说的大小是指N元语法的长度一个单词一元语法,两个单词二元语法,或者三个单词三元语法)
例如,假设我有一个想要总结的文本,作为总结,我将只保留5个最相关的N-gram:
"A more principled way to estimate sentence importance is using random walks
and eigenvector centrality. LexRa