停用词不会使用python删除

文章/答案/技术大牛

发布

3回答

python、nlp、stop-words

我正在尝试从我拥有的令牌列表中删除停用词。但是，看起来文字并没有被删除。会有什么问题呢？谢谢。

浏览 38提问于2020-05-25得票数 0

回答已采纳

1回答

Javascript:使用字典从字符串中过滤单词？

javascript

我需要从一个字符串中过滤出几百个“停”字。因为有很多“停止”的词，我不认为这样做是个好主意： sentence.replace(/\b(?:the|it is|we all|an?在这个映射中，键本身就是一个停用词，值并不重要。则过滤将导致检查该单词是否不存在于停用词映射中。使用什么数据结构来构建这样的地图？

浏览 0提问于2012-02-23得票数 0

1回答

当我已经设置了文档频率的上限时，不删除停用词是不是很糟糕？

python、scikit-learn、nlp、text-mining、text-processing

我使用的是sklearn.feature_extraction.text.TfidfVectorizer。我在处理文本。删除停用词似乎是标准做法。然而，在我看来，如果我已经有了文档频率的上限，这意味着我不会包括文档中占很大比例的标记(例如max_df=0.8)，那么删除停用词似乎是没有必要的。从理论上讲，停用词是经常出现的词，应该排除在外。这样，我们就不必争论在我们的停用词列表中应该包括什么，对吧？我的理解是，对于哪些词使用得足够频繁

浏览 18提问于2019-07-11得票数 1

回答已采纳

1回答

使用列表理解移除Python列表中的停用词

python、list、nlp、nltk、stop-words

Python noob很抱歉问了这么简单的问题，但我找不到针对我的情况的确切解决方案。我有一个python列表，我想从列表中删除停用的单词。如果停用词与另一个令牌配对，我的代码不会删除它。text if word not in stopwords.words('english')] print(newText) 当前输出：‘游戏’，‘电影’ 所需的输出‘游戏’，‘电影’ 我更喜欢使用列表理解

浏览 14提问于2021-01-19得票数 0

回答已采纳

3回答

在使用Spacy，Bert时，是否有必要对文本分类进行停用词删除、词干提取/词汇化？

nlp、spacy、text-classification、bert-language-model

当使用Spacy，Bert或其他高级NLP模型来获得文本的向量嵌入时，文本分类是否有必要进行停用词删除、词干提取和词汇化？Text=“婚礼上供应的食物非常美味” 1.由于Spacy，Bert是在巨大的原始数据集上训练的，在使用bert/spacy生成用于文本分类任务的嵌入之前，在这些文本上应用停用词删除、词干提取和词汇化是否有任何好处2.我可以理解，当我们使用countvectorizer，tfidf向量器来实现句子的嵌入时，去掉停用词，词干

浏览 4提问于2020-08-28得票数 7

2回答

如何向MeCab添加停用词？

nlp、stop-words、mecab

我想在MeCab中添加一些停用词，比如“我”、“你”之类的。但是我在MeCab的手册上找不到任何关于stopword的信息。

浏览 1提问于2012-10-25得票数 4

3回答

替换PHP中单词的确切出现？

php

我需要反复删除文章中的某些停用词。目前，我正在使用函数str_replace来实现这一点。作为第一个参数，我使用stop list数组变量来删除所有出现的停用词。这样做很好，除了它还删除了出现在单词中间的任何匹配(即，如果停用词是"th“，它将从" the "，"then”等中删除"th“)。现在，如果我使用纯文本提供参数，我可以在单词的两边添加一个空格来纠正这种情况

浏览 2提问于2013-08-26得票数 3

3回答

在Python中仅使用Numpy从列表中移除停用词

python、list

我正在使用numpy删除python中的停用词。停止词文件将作为列表导入。这就是我的想法：# loop through the stop words list, and remove each one fromstopwords: words.remove(line) print (tw_line) 结果:没有<e

浏览 0提问于2017-02-12得票数 1

1回答

如何使用Python在内存中无法容纳的大型数据集上执行LSA？

python、nlp、artificial-intelligence

我想要词条，删除停用词，并使用100,000个单词来构建tf-idf矩阵，然后对其进行奇异值分解。如何在合理的时间内使用Python完成此操作，而不会遇到内存错误？如果有人有什么想法，那就太好了。

浏览 13提问于2020-08-20得票数 0

1回答

在不使用NLTK的情况下从Python中的文本中移除停用词

python、list、stop-words

我用Python列出了我的母语中的停用词。当我输入文本时，如何在不使用NLTK的情况下删除它们？

浏览 14提问于2021-01-23得票数 0

回答已采纳

1回答

“所有单词”功能中的停用词

lucene

我正在使用Lucene开发“所有这些单词”功能。我正在使用没有任何停用词的StandardAnalyzer。当用户输入包含"the“、"and”等的单词时，lucene不会返回任何结果。如果我从输入中删除停用词，lucene就会给出搜索结果。我是不是错过了什么？谢谢。

浏览 4提问于2009-02-14得票数 1

回答已采纳

1回答

如何在使用spaCy时同时删除停用词和词汇化？

python、nlp、spacy

当我使用spaCy清理数据时，我运行以下代码行： df['text'] = df.sentence.progress_apply(lambda text: " ".join(token.lemma_for token in nlp(text) if not token.is_stop and token.is_alpha)) 如果该词不是停用词，则其对文本行中的每个词进行词条分类。问题在于，在检查令牌是否是停用词之后，对该令牌应用text.lemma_。因此，如果停用词不是词汇化形式

浏览 26提问于2021-06-17得票数 1

回答已采纳

2回答

不希望在python中删除Stopword

python、pandas、stop-words

我已经将我的stopword.txt文件导入python，如下所示：并试图从我的pandas数据框列中删除停用词：代码运行良好，但停用词仍然

浏览 2提问于2020-05-19得票数 0

2回答

使用linux命令行从文本语料库中删除停用词

macos、sed

我有大约200MB的文本文件(rawtext.txt)，并且在文本文件(stopwords.txt)中有一个停用词列表。我想删除文本语料库中的停用词。但是怎么做呢？什么是最快最简单的方法？我更喜欢像sed或tr这样的命令行。不想使用python或NLTK。有人能帮帮忙吗？我使用的是Mac OSX (不是linux)

浏览 2提问于2015-10-10得票数 1

2回答

del似乎不会从列表中删除任何内容

python、stop-words

单词中的数据是元组列表，其中元组如下所示：我的代码的目的是删除单词列表中的所有停用词。唯一的问题是，停用词不会在事后被删除。我到底做错了什么？

浏览 1提问于2017-08-07得票数 2

回答已采纳

1回答

Bigram包含weka中的Stopword？

machine-learning、weka

我正在处理weka中的一个分类问题，并使用smart 524停用词列表。我在weka中使用NGram标记器。它正确地从unigram中过滤停用词，但二元语法中包含停用词，例如"the east"，"the window“。我之前假设weka可能会首先过滤文本文档中的所有停用词，然后将它们转换为单字和双字，但这并不是发生在那里的事情。有没有办法从bigram中删除停用词?也许我需要另一个针对bigram的停用词</

浏览 0提问于2014-01-25得票数 2

2回答

Sitecore 7 ContentSearch应用编程接口是否从查询中删除了停用词？

lucene、sitecore、sitecore7

我发现包含'of'，'and'，'the‘等的搜索不会返回结果，因为Lucene删除了停用的单词。因此，如果我搜索一个标题为“第一次世界大战的后果”的条目，我将得到零结果。ContentSearch应用编程接口是否删除查询中的停用词？这是一个可以配置Lucene删除的东西吗？或者，我应该在构建查询之前删除这些停用词吗？谢谢亚当

浏览 0提问于2014-02-06得票数 7

4回答

使用NLTK删除停止字

python、nlp、nltk、stop-words

我试图通过使用nltk工具包删除停用词来处理用户输入的文本，但是使用停用词删除时，像'and'，'or'，'not‘这样的单词会被删除。我希望这些单词在停用词删除过程后出现，因为它们是以后将文本作为查询处理所需的运算符。我不知道哪些词可以作为文本查询的运算符，我也想从我的文本中删除不必要的词。

浏览 78提问于2013-10-02得票数 78

回答已采纳

1回答

anti_join无法识别我的数据集中的整文本停靠词

r、nlp、tidyverse、tidytext、anti-join

我正在使用R. 中的tidytext方法从正文中删除停用的单词。str_v %>% unnest_tokens(word, value) %>%当我将此方法应用于我正在处理的数据时，它不会出错，但不会删除停用词。是否需要在文本结构上发生看不见的事情，才能使停用词匹配？输出行看起来与停止字(降低、挤压等)相同，但它们仍然...我正在处理受保护的数据，无法共享原始材料。

浏览 12提问于2021-02-14得票数 0

2回答

使用word2vec时删除停止字

nlp、gensim、word2vec

我已经使用gensim的word2vec库尝试word2vec有一段时间了。我的问题是，我必须从我的输入文本中删除停用词吗？因为，根据我最初的实验结果，我可以看到像“of”，“when”这样的词。(停用词)当我做model.most_similar('someword')的时候弹出...？什么是必须做的预处理工作(就像主

浏览 1提问于2016-01-11得票数 21

回答已采纳

点击加载更多