首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >删除列中类似停用词的词

删除列中类似停用词的词
EN

Stack Overflow用户
提问于 2021-05-31 17:00:01
回答 1查看 80关注 0票数 0

我有一个数据帧,其中有一个对象列和超过100,000行,如下所示:

代码语言:javascript
运行
复制
    df['words']
 0 the
 1 to
 2 of
 3 a
 4 with
 5 as
 6 job
 7 mobil
 8 market
 9 think
 10....

不带停用字的期望输出:

代码语言:javascript
运行
复制
   df['words']
 0 way
 1 http
 2 internet
 3 car
 4 do
 5 want
 6 work
 7 uber
 8....

有没有一种方法可以使用gensim、spacy或nltk在单个专栏中遍历常见的停用词?

我试过了:

代码语言:javascript
运行
复制
from gensim.parsing.preprocessing import remove_stopwords
stopwords.words('english')

df['words'] = df['words'].apply(lambda x: gensim.parsing.preprocessing.remove_stopwords(" ".join(x)))

但这会导致:

代码语言:javascript
运行
复制
TypeError: can only join an iterable
EN

Stack Overflow用户

发布于 2021-05-31 17:19:01

使用nltk删除停用词。导入包

代码语言:javascript
运行
复制
import pandas as pd
from nltk.corpus import stopwords

创建停用词列表

代码语言:javascript
运行
复制
stop_words = stopwords.words('english')
stop_words[:10]

然后,

代码语言:javascript
运行
复制
df['newword'] = list(map(lambda line: list(filter(lambda word: word not in stop_words, line)), df.words))
df
票数 0
EN
查看全部 1 条回答
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67770734

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档