文章/答案/技术大牛

发布

社区首页 >问答首页 >删除列中类似停用词的词

问删除列中类似停用词的词
EN

Stack Overflow用户

提问于 2021-05-31 17:00:01

回答 1查看 80关注 0票数 0

我有一个数据帧，其中有一个对象列和超过100,000行，如下所示：

    df['words']
 0 the
 1 to
 2 of
 3 a
 4 with
 5 as
 6 job
 7 mobil
 8 market
 9 think
 10....

不带停用字的期望输出：

   df['words']
 0 way
 1 http
 2 internet
 3 car
 4 do
 5 want
 6 work
 7 uber
 8....

有没有一种方法可以使用gensim、spacy或nltk在单个专栏中遍历常见的停用词？

我试过了：

from gensim.parsing.preprocessing import remove_stopwords
stopwords.words('english')

df['words'] = df['words'].apply(lambda x: gensim.parsing.preprocessing.remove_stopwords(" ".join(x)))

但这会导致：

TypeError: can only join an iterable

python

pandas

nltk

gensim

stop-words

Stack Overflow用户

发布于 2021-05-31 17:19:01

使用nltk删除停用词。导入包

import pandas as pd
from nltk.corpus import stopwords

创建停用词列表

stop_words = stopwords.words('english')
stop_words[:10]

然后,

df['newword'] = list(map(lambda line: list(filter(lambda word: word not in stop_words, line)), df.words))
df

票数 0

查看全部 1 条回答

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/67770734

复制

相似问题

问删除列中类似停用词的词
EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问删除列中类似停用词的词EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问删除列中类似停用词的词
EN