因此,我有一个数据集,我想删除要使用的停用词
stopwords.words('english')
我正在努力如何在我的代码中使用它来简单地去掉这些单词。我已经有了这个数据集中的单词列表,我正在努力的部分是与这个列表进行比较并删除停用的单词。任何帮助都是非常感谢的。
发布于 2011-03-30 20:53:40
from nltk.corpus import stopwords
# ...
filtered_words = [word for word in word_list if word not in stopwords.words('english')]
发布于 2012-03-27 06:25:10
您还可以执行set diff,例如:
list(set(nltk.regexp_tokenize(sentence, pattern, gaps=True)) - set(nltk.corpus.stopwords.words('english')))
发布于 2017-10-27 22:31:35
要排除所有类型的停用词,包括nltk停用词,您可以这样做:
from stop_words import get_stop_words
from nltk.corpus import stopwords
stop_words = list(get_stop_words('en')) #About 900 stopwords
nltk_words = list(stopwords.words('english')) #About 150 stopwords
stop_words.extend(nltk_words)
output = [w for w in word_list if not w in stop_words]
https://stackoverflow.com/questions/5486337
复制相似问题