Python noob很抱歉问了这么简单的问题,但我找不到针对我的情况的确切解决方案。 我有一个python列表,我想从列表中删除停用的单词。如果停用词与另一个令牌配对,我的代码不会删除它。text if word not in stopwords.words('english')]
print(newText) 当前输出:‘游戏’,‘电影’ 所需的输出‘游戏’,‘电影’ 我更喜欢使用列表理解
我需要反复删除文章中的某些停用词。目前,我正在使用函数str_replace来实现这一点。作为第一个参数,我使用stop list数组变量来删除所有出现的停用词。这样做很好,除了它还删除了出现在单词中间的任何匹配(即,如果停用词是"th“,它将从" the ","then”等中删除"th“)。现在,如果我使用纯文本提供参数,我可以在单词的两边添加一个空格来纠正这种情况
我正在使用numpy删除python中的停用词。停止词文件将作为列表导入。这就是我的想法:# loop through the stop words list, and remove each one fromstopwords: words.remove(line) print (tw_line)
结果:没有<e
当我使用spaCy清理数据时,我运行以下代码行: df['text'] = df.sentence.progress_apply(lambda text: " ".join(token.lemma_for token in nlp(text) if not token.is_stop and token.is_alpha)) 如果该词不是停用词,则其对文本行中的每个词进行词条分类。问题在于,在检查令牌是否是停用词之后,对该令牌应用text.lemma_。因此,如果停用词不是词汇化形式