首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >如何使用nltk或python删除停用词

如何使用nltk或python删除停用词
EN

Stack Overflow用户
提问于 2011-03-30 20:36:26
回答 13查看 213K关注 0票数 128

因此,我有一个数据集,我想删除要使用的停用词

代码语言:javascript
复制
stopwords.words('english')

我正在努力如何在我的代码中使用它来简单地去掉这些单词。我已经有了这个数据集中的单词列表,我正在努力的部分是与这个列表进行比较并删除停用的单词。任何帮助都是非常感谢的。

EN

回答 13

Stack Overflow用户

发布于 2011-03-30 20:53:40

代码语言:javascript
复制
from nltk.corpus import stopwords
# ...
filtered_words = [word for word in word_list if word not in stopwords.words('english')]
票数 228
EN

Stack Overflow用户

发布于 2012-03-27 06:25:10

您还可以执行set diff,例如:

代码语言:javascript
复制
list(set(nltk.regexp_tokenize(sentence, pattern, gaps=True)) - set(nltk.corpus.stopwords.words('english')))
票数 21
EN

Stack Overflow用户

发布于 2017-10-27 22:31:35

要排除所有类型的停用词,包括nltk停用词,您可以这样做:

代码语言:javascript
复制
from stop_words import get_stop_words
from nltk.corpus import stopwords

stop_words = list(get_stop_words('en'))         #About 900 stopwords
nltk_words = list(stopwords.words('english')) #About 150 stopwords
stop_words.extend(nltk_words)

output = [w for w in word_list if not w in stop_words]
票数 17
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5486337

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档