我试图从语料库中删除较长(>25个标记)和较短(<4个标记)的句子,并删除包含出现次数少于8次的罕见单词的句子。我试图删除它,但每次尝试都会收到错误消息或空列表。语料库是棕色语料库。lens = [w for w in corpus.sents() if len(w)>=25 and len(w)<= 4]out: []
我也不知道如何在</e
对于没有标点符号和/或所有小写字母的段落,是否有可能从段落/句子标记中提取句子?我们有一个特殊的需要,能够将段落分割成句子,同时预计最坏的情况下,输入的段落是不适当的。示例:
将this is a sentence this is a sentence this is a sentence this is a sentence this is