我正在使用几种语言,对于其中一些语言,我在NLTK中有一个停用词列表,但对于其他语言则没有。如何从代码中检查一种语言在nltk.corpus.stopwords.words(" language ")中是否可用? 当找不到给定的语言时,我希望在不管理异常的情况下这样做。如下所示: if "language" in nltk.corpus.stopwords.languages:
sw =
我已经编写了做情感分析的代码,因此我使用了两个不同的字典,其中的句子被标记为否定或积极。到目前为止,我的代码片段如下所示: return {word: True for word in word_tokenize(satz) }
with open('Positiv.txt') as f: pos_data.append([format_sentence(line), 'pos'])
neg_data =
我有一些从我的数据集中删除停用词的代码,因为停用列表似乎也没有删除我想要的大部分单词,我希望将这些词添加到这个停用列表中,以便在这种情况下可以删除它们。我用来删除停用词的代码是:
word_list2 = [w.strip() for w in word_list if w.strip() not in nltk.corpus.stopwords.words
我有一个脚本,主要是为自然语言工具包工作。它的工作方式是使用NLTK对单个单词进行标记化和标记(分类)。我的问题是,有一种方法可以跳过元组,这会给我一个错误,因为它们不会返回标签属性?2 2 George (显然不完美,但总比没有强)for i in range(len(text)):
SENT_DETECTOR = nltk.data.load('