使用NLTK停用词的正确方式是什么？

NLTK（Natural Language Toolkit）是一个用于自然语言处理的Python库。停用词是在文本处理中常用的一种技术，用于过滤掉对文本分析无意义的常见词语。NLTK库提供了一种正确的方式来使用停用词。

在NLTK中，可以使用nltk.corpus模块中的stopwords来获取常见的停用词列表。首先，需要导入相应的模块和停用词列表：

import nltk
from nltk.corpus import stopwords

# 下载停用词列表（仅需执行一次）
nltk.download('stopwords')

# 获取英文停用词列表
stop_words = set(stopwords.words('english'))

接下来，可以使用停用词列表来过滤文本数据。假设有一个句子需要进行停用词过滤：

sentence = "This is an example sentence to demonstrate the use of stop words."

# 分词
words = nltk.word_tokenize(sentence)

# 过滤停用词
filtered_words = [word for word in words if word.lower() not in stop_words]

以上代码会将句子分词，并过滤掉停用词，得到一个新的列表filtered_words，其中只包含有意义的词语。

NLTK库还提供了其他功能，如词性标注、词干提取等，可以根据具体需求进行使用。

停用词的使用可以在文本处理、信息检索、机器学习等领域中发挥作用。通过过滤掉常见的停用词，可以减少文本数据的噪音，提高后续处理的效果。

腾讯云相关产品中，与自然语言处理相关的产品有腾讯云智能语音（https://cloud.tencent.com/product/tts）和腾讯云智能文本（https://cloud.tencent.com/product/nlp），可以用于语音合成、语音识别、文本分析等任务。

在nltk python中创建停用词集

、、、

我知道NLTk停用词有很多种语言，但如果我想创建自己的停用词集并在NLTK停用词中使用它们，这是可行的吗？ import nltk from nltk.corpus import stopwords stops=set(stopwords.words('My own set')) words=["Don't", 'hesitate','to','ask','questions'] print([word for word in words if word not in stops])

浏览 28提问于2019-12-23得票数 1

回答已采纳

10回答

将单词添加到nltk非索引字列表

、、

我有一些从我的数据集中删除停用词的代码，因为停用列表似乎也没有删除我想要的大部分单词，我希望将这些词添加到这个停用列表中，以便在这种情况下可以删除它们。我用来删除停用词的代码是： word_list2 = [w.strip() for w in word_list if w.strip() not in nltk.corpus.stopwords.words('english')] 我不确定添加单词的正确语法，似乎到处都找不到正确的语法。任何帮助都是非常感谢的。谢谢。

浏览 0提问于2011-04-01得票数 18

1回答

如何使用NLTK删除停用词

、

我在使用NLTK删除停用词时遇到了问题。我正在使用下面的代码，它的工作没有我试图删除停用词的部分。 from nltk.probability import FreqDist from nltk.corpus import stopwords text = open(r"C:\Users\meris\OneDrive\Dokumente\example.txt",encoding='utf-8').read() token = word_tokenize(text) clean_tokens = token[:] sr = stopwords.w

浏览 28提问于2021-01-29得票数 0

1回答

如果行只包含停用词中的任何行，则从文本文件中删除这些行

、、、、

我只想从Myfile.txt文件中删除那些行，如果该行只包含并且只包含停止字中的任何行例如，Myfile.txt文件的示例为 Adh Dhayd Abu Dhabi is # here is "is" stopword but this line should not be removed because line contain #Abu Dhabi is Zaranj of # this line contains just stop word, this line should be removed on

浏览 0提问于2019-03-06得票数 0

回答已采纳

2回答

使用NLTK的FreqDist

、、、

我正在尝试使用Python获取一组文档的频率分布。由于某些原因，我的代码无法工作，并产生以下错误： Traceback (most recent call last): File "C:\Documents and Settings\aschein\Desktop\freqdist", line 32, in <module> fd = FreqDist(corpus_text) File "C:\Python26\lib\site-packages\nltk\probability.py", line 104, in __init_

浏览 0提问于2011-06-09得票数 3

2回答

NLTK -缺少停用词-英语

、、

我刚刚下载了NLTK的最新版本及其所有资源。我看到could和would没有被列为停用词。但should被视为一个停用词。这是某种已知的bug还是...？ In [7]: import nltk In [8]: "shouldn't" in nltk.corpus.stopwords.words("english") Out[8]: True In [9]: "couldn't" in nltk.corpus.stopwords.words("english") Out[9]: True In [10]

浏览 10提问于2019-05-21得票数 4

2回答

绘制文本中最常用的单词(删除停用单词)

、、

我正在尝试绘制具有以下列tags和text列的DataFrame中最常用的单词。这个DataFrame是True和Fake新闻的混合体。真新闻在DataFrame中的值为0，假新闻的值为1 tags text kt-rOnMBAC-oqacdW1Q- 1 On Monday night, Donald Trump traveled to West... k9-rOnMBAC-oqacdW1Q- 1 Donald Trump is very busy right now trying to ... l

浏览 22提问于2020-09-12得票数 1

回答已采纳

1回答

去除单词标记化后的停用词并降低大小写

、

我是NLP的新手，在执行以下任务时面临一些挑战。我想执行这些顺序的任务。1.语义标记化2.对每个句子进行单词标记化3.小写4.停止词删除5.对每个词进行词素化我试着写一个函数来完成上面的任务 import nltk import numpy as np import random import string from nltk.corpus import stopwords def text_processing(input_str): tokens = nltk.sent_tokenize(input_str)#sentence tokenizing for words

浏览 0提问于2018-11-05得票数 0

1回答

如何检测给定字符串中停用词并仅将停用词从句子大小写转换为小写

、、、、

我有以下代码 import nltk from nltk.corpus import stopwords nltk.download('stopwords') import re text='Director Of IT' pattern = re.compile(r'\b(' + r'|'.join(stopwords.words('english'))+ r')\b\s*') #remove stop words textmod5 = pattern.sub('', text)

浏览 1提问于2020-03-16得票数 0

1回答

在python中删除不在NLTK库中的停用词

、

我一直在尝试从csv文件中删除在NLTK库中找不到的停用词，但当我生成新的数据帧时，我仍然看到其中的一些单词，并且我不确定如何删除它们。我不确定我的代码有什么问题，但它是这样的： import nltk from nltk.tokenize import word_tokenize from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer from nltk.corpus import stopwords stop_words = stopwords.words('english')

浏览 12提问于2020-11-20得票数 0

1回答

跳过不带属性的元组Python NLTK

、、、、

我有一个脚本，主要是为自然语言工具包工作。它的工作方式是使用NLTK对单个单词进行标记化和标记(分类)。当我的列表包括名称和实体时，它工作得很好。如果列表中包含诸如" the "，"a"，"and“等词性冠词，它就会被分解。这些单词不会从NLTK接收标签(人员、组织、地理位置等)。我的问题是，有一种方法可以跳过元组，这会给我一个错误，因为它们不会返回标签属性？示例数据帧： Order Text results 0 0 John 1 1 Paul 2 2 George 3 3 Ring

浏览 21提问于2020-05-06得票数 0

3回答

下面的python代码中的错误是什么

、、

我想删除停用词。以下是我的代码 import nltk from nltk.corpus import stopwords import string u="The apple is the pomaceous fruit of the apple tree, species Malus domestica in the rose family (Rosaceae). It is one of the most widely cultivated tree fruits, and the most widely known of the many members of genus M

浏览 0提问于2012-10-03得票数 1

回答已采纳

1回答

我想从数据集中删除所有的德语停用词

在拟合模型和预测准确性之前，我想从我的数据集中删除德语停用词。我不确定为什么下面的代码不能提供帮助。所有NLTK和关联库都已安装。 import nltk nltk.download() from nltk.stem.snowball import SnowballStemmer stemmer = SnowballStemmer('german', ignore_stopwords=True) class StemmedCountVectorizer(CountVectorizer): def build_analyzer(self):

浏览 23提问于2019-08-06得票数 3

回答已采纳

1回答

将停用字典导入到python

、、

如何将特定的停用词字典(excel表格)导入Python，并将其附加到nltk停用词列表中？目前我的停用词部分看起来像这样： # filter out stop words from nltk.corpus import stopwords stop_words = set(stopwords.words('english')) words = [w for w in words if not w in stop_words] 提前感谢！

浏览 71提问于2018-06-11得票数 1

1回答

无法在NLTK图书中复制结果，文档分类(第6章，1.3节)

、、

从这里： (1.3节)。作者引用了.81的准确性。当然，由于random.shuffle的原因，存在一些随机性，但无论我运行多少次，我都不能超过.73。 (还有一个奇怪之处，作者声称下面的word_features包含2000个最常见的单词，但这不是真的(与list(all_words.most_common(2000))相比)。 import nltk import random from nltk.corpus import movie_reviews documents = [(list(movie_reviews.words(fileid)), category)\

浏览 3提问于2017-02-19得票数 0

1回答

ChunkParserI in nltk.chunk是什么？究竟是什么要求呢？

、、

from nltk.chunk import ChunkParserI from nltk.chunk.util import conlltags2tree from nltk.corpus import gazetteers class LocationChunker(ChunkParserI): def __init__(self): self.locations = set(gazetteers.words()) self.lookahead = 0 for loc in self.locations:

浏览 0提问于2019-08-13得票数 1

1回答

如何从Tfidvectorizer添加停用词？

、

我正在尝试将停用词添加到我的stop_word列表中，然而，我使用的代码似乎不起作用：创建停用词列表： stopwords = nltk.corpus.stopwords.words('english') CustomListofWordstoExclude = ['rt'] stopwords1 = stopwords.extend(CustomListofWordstoExclude) 这里，我将文本转换为具有tfidf权重的dtm (文档术语矩阵)： vect = TfidfVectorizer(stop_words = 'english'

浏览 2提问于2021-05-01得票数 1

1回答

尝试使用python-2.7来处理自然语言中的字符串

、、

我正在从nltk.stem.snowball导入SnowballStemmer导入我有一个如下的字符串： Text_string=“大家好，如果您能读懂这条消息，您正在正确地使用parseOutText，请继续项目的下一部分” 我在上面运行了下面的代码: words =“”.join(text_string.split中word的stemmer.stem(Word)(“")) 我得到了以下内容，其中缺少几个'e‘。找不出是什么原因造成的。有什么建议吗？感谢您的反馈 “大家好，如果你能读懂这条信息，你应该正确使用parseouttext，请继续项目的下一部分”

浏览 0提问于2016-06-20得票数 0

1回答

将自定义停用词追加到nltk.corpus的默认停用词列表中，并使用lambda从数据帧中的一系列中删除停用词

、、、、

我有多列数据帧，有41,000行Flickr标签。我只想从一个专栏中删除所有的英语停用词，而其他专栏则保持不变。这是我从nltk.corpus中提取停用词列表的代码： from nltk.corpus import stopwords stopWordsListEng = stopwords.words("english") 但我想添加我能想到的其他停用词： according accordingly across act actually 我还没有想出如何将它添加到现有的停用词列表中。以及如何应用lambda来删除仅一列中的停用字。因为我希望我的代码尽可能简单。下面是

浏览 18提问于2020-01-16得票数 0

回答已采纳

1回答

停用词将负面评论改为正面评论。在文本摘要过程中，什么是消除停用词的好方法？

、、

dataframe我尝试从数据框中的两列中删除停用词(英语)。请参见屏幕截图。然而，我发现在应用这个过程之后，审查的含义发生了变化。例如，Not recommend更改为recommend。在保持原文思想不变的情况下删除停用词的最好方法是什么？这是我的代码和结果： from nltk import word_tokenize from nltk.corpus import stopwords stop = set(stopwords.words('english')) df['Text_after_removed_stopwords'] = df['

浏览 14提问于2019-09-25得票数 0

回答已采纳

13回答

导入nltk库时找不到语料库/停止字

、

我尝试在python2.7中导入nltk包 import nltk stopwords = nltk.corpus.stopwords.words('english') print(stopwords[:10]) 运行此命令会出现以下错误： LookupError: ********************************************************************** Resource 'corpora/stopwords' not found. Please use the NLTK Downloader

浏览 13提问于2017-01-12得票数 69

2回答

在Gensim中添加停用词

、、、、

感谢您的光临！我有一个关于附加停用词的快速问题。我有一些精选的单词出现在我的数据集中，我希望我可以将它们添加到gensims停用单词列表中。我已经看到了很多使用nltk的例子，我希望在gensim中也能做到这一点。我将在下面发布我的代码： def preprocess(text): result = [] for token in gensim.utils.simple_preprocess(text): if token not in gensim.parsing.preprocessing.STOPWORDS and len(token) > 3

浏览 65提问于2019-03-20得票数 1

回答已采纳

1回答

为collocationbigramfinder NLTK删除停用词和标记化

、、、

我一直收到这个错误 sub return _compile(pattern, flags).sub(repl, string, count) TypeError: expected string or buffer 当我尝试运行此脚本时。不确定出了什么问题。我本质上是从一个文本文件中读取，过滤掉停用词，并使用NLTK对它们进行标记。 import nltk from nltk.collocations import * from nltk.tokenize import word_tokenize from nltk.corpus import stopwords stopset =

浏览 0提问于2014-01-04得票数 4

回答已采纳

1回答

从pandas数据帧中删除停止字

、、

我有下面的脚本&在最后一行中，我试图从名为'response‘的字符串中删除停用词。问题是，不是“有点恼火”变成“有点恼火”，实际上它甚至连字母都掉了--所以，“有点恼火”会变成“有点厌烦”。因为'a‘是一个停用的词有人能给我一些建议吗？ import pandas as pd from textblob import TextBlob import numpy as np import os import nltk nltk.download('stopwords') from nltk.corpus i

浏览 25提问于2019-01-25得票数 2

回答已采纳

3回答

创建一个带有'word group‘的字典

、、

我想对工作描述做一些文本分析，并打算使用nltk。我可以建立一个字典并删除停用的单词，这是我想要的一部分。然而，除了单个单词及其频率之外，我还想保留有意义的“单词组”，并对它们进行计数。例如，在包含“机器学习”的工作描述中，我不想单独考虑“机器”和“学习”，但如果它经常出现在我的字典中，请保留该词组。做这件事最有效的方法是什么？(我认为我不需要超出包含2个或2个单词的词组)。还有:我应该在什么时候删除停用字？下面是一个示例： text = 'As a Data Scientist, you will focus on machine learnin

浏览 26提问于2017-03-13得票数 2

回答已采纳

1回答

为什么在NLTK中"not“在英语中被认为是停用词？

、、、

我目前正在学习Python中的nltk，在那里我正在编写一个情感分析程序。在研究的过程中，我发现"not，on，never“被认为是停用词。所以我的问题是，为什么这是因为这些类型的词可以改变句子的整个含义，并可能导致情感分析失败。

浏览 18提问于2020-05-28得票数 0

1回答

删除修改后的停用词

、、、、

背景： 1)我有以下代码，可以使用nltk包删除stopwords： import nltk from nltk.corpus import stopwords from nltk.tokenize import sent_tokenize from nltk.tokenize import word_tokenize your_string = "The dog does not bark at the tree when it sees a squirrel" tokens = word_tokenize(your_string) lower_tokens = [t.lo

浏览 71提问于2019-05-27得票数 2

回答已采纳

1回答

pandas数据帧中字符串数据的预处理

、、、、

我有一个用户评论数据集。我已经加载了这个数据集，现在我想对用户评论进行预处理(例如，删除停用词、标点符号、转换为小写、删除问候语等)。在将其安装到分类器之前，但我得到了错误。下面是我的代码： import pandas as pd import numpy as np df=pd.read_json("C:/Users/ABC/Downloads/Compressed/reviews_Musical_Instruments_5.json/Musical_Instruments_5.json",lines=True) dataset=df.filt

浏览 18提问于2017-12-23得票数 2

回答已采纳

1回答

Python/NLTK停止字和文件写入的问题

、、、、

我正在尝试写一份来自NLTK的停用词列表。所以，我写了这个脚本： import nltk from nltk.corpus import stopwords from string import punctuation file_name = 'OUTPUT.CSV' file = open(file_name, 'w+') _stopwords = set(stopwords.words('english')+list(punctuation)) i = 0 file.write(f'\n\nSTOP WORDS:+++\n\

浏览 0提问于2019-01-27得票数 0

2回答

提高朴素贝叶斯分类器准确率

、、、

我写了一个简单的文档分类器，目前正在Brown语料库上进行测试。然而，我的准确率仍然很低(0.16)。我已经排除了停用词。关于如何提高分类器的性能，还有其他的想法吗？ import nltk, random from nltk.corpus import brown, stopwords documents = [(list(brown.words(fileid)), category) for category in brown.categories() for fileid in brown.fileids(category)] random.s

浏览 11提问于2017-07-17得票数 0

4回答

使用NLTK删除停止字

、、、

我试图通过使用nltk工具包删除停用词来处理用户输入的文本，但是使用停用词删除时，像'and'，'or'，'not‘这样的单词会被删除。我希望这些单词在停用词删除过程后出现，因为它们是以后将文本作为查询处理所需的运算符。我不知道哪些词可以作为文本查询的运算符，我也想从我的文本中删除不必要的词。

浏览 78提问于2013-10-02得票数 78

回答已采纳

1回答

如何在python中修改停用词列表中的NLTK？

、、

我是python/编程社区的新手，所以请原谅我提出的相对简单的问题:我想在词汇化csv文件之前过滤掉停用的单词。但我需要把“this”/“this”这几个停下来的词包括在最终的集合中。在Python中导入nltk停用词并将其定义为 stopwords = set(stopwords.words('english')) ..。我如何修改这个包含“this”/“this”的集合？我知道我可以手动列出除了这两个单词之外的每一个单词，但我正在寻找一个更优雅的解决方案。

浏览 14提问于2018-02-11得票数 1

回答已采纳

1回答

在不使用NLTK的情况下从Python中的文本中移除停用词

、、

我用Python列出了我的母语中的停用词。当我输入文本时，如何在不使用NLTK的情况下删除它们？

浏览 14提问于2021-01-23得票数 0

回答已采纳

1回答

Python在nltk.tree中查找单词

、、

我正试图构建一个新的语言来获取单词的上下文。我有两句话 sentences=pd.DataFrame({"sentence": ["The weather was good so I went swimming", "Because of the good food we took desert"]}) 我想知道“好”这个词指的是什么。我的想法是对句子(来自教程的代码)进行分块，然后查看单词"good“和一个名词是否在同一个节点中。如果不是，它指的是之前或之后的名词。首先，如本教程所示，我构建了分块。 from nltk.corpus

浏览 4提问于2016-06-06得票数 3

回答已采纳

1回答

如何在Python中将输入默认字典切换为小写以进行NLTK比较

、

我有一个python字典，看起来是这样的： defaultdict(<type 'int'>, {u'RT': 1, u'be': 1, u'uniforms': 1, u'@ProFootballWkly:': 1, u'in': 1, u'Nike': 1, u'Brooklyn.': 1, u'ET': 1, u"NFL's": 1, u'will': 1, u'a.m.': 1

浏览 1提问于2012-04-20得票数 1

回答已采纳

2回答

Word2Vec词汇相似性

、、、、

我在大约750k单词的文本上运行了一个word2vec算法(在删除一些停用的单词之前)。使用我的模型，我开始寻找与我选择的特定单词最相似的单词，相似度得分(对于model.wv.most_similar方法)都超级接近1。最接近的第十个得分仍然像.998，所以我觉得我没有得到导致无意义相似单词的单词相似度之间的任何显著差异。我的模型构造函数是 model = Word2Vec(all_words, size=75, min_count=30, window=10, sg=1) 我认为问题可能在于我如何构造文本以运行神经网络。我像这样存储所有的单词： all_sentences = nltk.

浏览 1提问于2019-11-27得票数 0

2回答

使用linux命令行从文本语料库中删除停用词

、

我有大约200MB的文本文件(rawtext.txt)，并且在文本文件(stopwords.txt)中有一个停用词列表。 I a about an are as at be by com for ..。我想删除文本语料库中的停用词。但是怎么做呢？什么是最快最简单的方法？我更喜欢像sed或tr这样的命令行。不想使用python或NLTK。有人能帮帮忙吗？我使用的是Mac OSX (不是linux)

浏览 2提问于2015-10-10得票数 1

1回答

基于频率分布的返回文章- Python NLTK

、、

有人知道使用Python和NLTK来获取最接近搜索查询的文章的简单方法吗？例如，我想从维基百科中提取10篇文章，找出每篇文章的频率分布(如果您有任何推荐的话，还有另一种分类方法)，然后根据搜索查询，返回您可能引用的最有可能的文章。有什么想法吗？我想要一种比频率分布更好的方法，但我想我应该从那里开始。

浏览 0提问于2012-08-07得票数 0

回答已采纳

3回答

如何从文本集合nltk中排除停用词

、、

我正在尝试从文本集合中排除stopwords。从底部可以看到，t保存这些文本。我检查文本中的单词是否不在stopword列表中，然后返回不在stopwords中的单词。然而，当我运行这个程序时，它会用stopwords显示所有的单词。 t = [ (text,word) for text in ['1861-Lincoln.txt','1865-Lincoln.txt', '1933Roosevelt.txt','1937-Roosevelt.txt','1941-Roosevelt.txt','1

浏览 0提问于2015-11-19得票数 0

3回答

删除停用词和string.punctuation

、、

我不明白为什么这个不起作用： import nltk from nltk.corpus import stopwords import string with open('moby.txt', 'r') as f: moby_raw = f.read() stop = set(stopwords.words('english')) moby_tokens = nltk.word_tokenize(moby_raw) text_no_stop_words_punct = [t for t in moby_token

浏览 2提问于2017-08-05得票数 1

回答已采纳

1回答

从Python中的字符串列中删除Stopword

、、、、

我正在做一个阅读文本并对结果进行预测的项目。作为清理数据的一部分，我正在尝试删除所有的停用词。当我尝试这样做时，我需要输出数据格式，但我在那里遇到了问题。因此，经过多次清理后，我获得了如下所示的数据。标签在不同的数据帧中，我必须合并该数据帧，但这超出了重点。我现在要做的是删除每行中每个字符串中的所有停用词。经过一些研究，我使用的代码看起来像这样： import nltk from nltk.corpus import stopwords nltk.download('stopwords') stop_words = set(stopwords.words('

浏览 14提问于2019-08-12得票数 1

2回答

在python中删除停用词和标记化

、

我有以下输入数据，我想要删除此输入中的停用词，并希望执行标记化： input = [['Hi i am going to college', 'We will meet next time possible'], ['My college name is jntu', 'I am into machine learning specialization'], ['Machine learnin is my favorite subject' ,'Here i am us

浏览 28提问于2019-03-18得票数 2

回答已采纳

1回答

在Google Colab中加载某些NLTK模块时出错

、、

我试图将comtrans从NLTK加载到Google Colab笔记本中，但它给出了以下错误： [nltk_data] Downloading package comtrans to /root/nltk_data... [nltk_data] Package comtrans is already up-to-date! --------------------------------------------------------------------------- LookupError Traceback (mos

浏览 247提问于2021-10-15得票数 2

回答已采纳

1回答

Stopword消除困境

、、、

我正面临着在NLTK中使用停止词功能的两难境地。我正在通过使用NLTK删除停用词来处理来自社交媒体平台的用户生成的内容。然而，进退两难的是，我想在用户的文本中保留人称代词，这对分类任务很重要。其中包括诸如“我”、“你”、“我们”等词。不幸的是，停用词函数也删除了这些单词，我需要它们存在。我该如何解决这个问题？

浏览 27提问于2020-04-27得票数 3

回答已采纳

2回答

NLP:我如何将词干和标签结合起来？

、、、、

我正在尝试编写代码，它传递的文本已经被标记，停止词被过滤掉，然后继续并标记它。但是，我不确定我应该按照什么顺序进行标记。这是我目前拥有的： #### Stemming ps = PorterStemmer() # PorterStemmer imported from nltk.stem stemText = [] for word in swFiltText: # Tagged text w/o stop words stemText.append(ps.stem(word)) #### POS Tagging def tagging(): tagTot

浏览 4提问于2020-04-24得票数 0

回答已采纳

3回答

使用NLP让系统学习对文本进行分类

、

在我花大量时间学习这些概念之前，我想知道NLP和Python的NLTK是否可以通过简单地向系统输入文本并告诉它适用的类别来帮助我训练系统。假设我有大约100条文本，我想根据它们所描述的业务对它们进行分类。有没有办法只向系统指出每个文本描述的是什么业务，然后从长远来看，让系统对新文本进行越来越准确的分类？

浏览 0提问于2015-10-13得票数 3

1回答

nltk大包表达情感的单词

、、

我正在使用python和nltk开发NLP。我想知道是否有一些数据集包含大量的单词，其中显示了与情绪相关的关键字，如快乐、快乐、愤怒、悲伤等从我在nltk语料库中挖掘出来的，我发现有一些情感分析语料库，其中包含积极和消极的评论，这些评论与显示情感的关键字并不完全相关。有没有什么方法可以让我建立自己的字典，里面有表达情感的单词呢？如果是这样，我该怎么做，有没有这样的词的集合？任何帮助都将不胜感激

浏览 0提问于2018-11-08得票数 0

1回答

NLTK停止字列表

、、

我有下面的代码，我正在尝试将停用词列表应用到单词列表中。然而，结果仍然显示诸如"a“和" the”之类的单词，我认为这些单词已经被这个过程删除了。任何出错的想法都是很棒的。 import nltk from nltk.corpus import stopwords word_list = open("xxx.y.txt", "r") filtered_words = [w for w in word_list if not w in stopwords.words('english')] print filtered_words

浏览 0提问于2014-03-31得票数 13

回答已采纳

2回答

机器学习分类器与NLTK Vader相结合的情感分析

、、、、

作为我大学项目的一部分，我正在研究/开发一个情感分析模型，在该模型中，我尝试将NLTK (SentimentIntensityAnalyzer)结果与机器学习训练的分类器结合起来，用于预测Twitter数据上的情绪。详细描述- 为了解释我试图做的是-结合机器学习分类器和NLTK情感分析，得到更好的分类推文作为积极，消极或中立。我所做的是- 清除数据(Niek Sanders推特语料库)并对其进行预处理，包括停止词删除、URL删除、用户提及删除、从标签中删除#符号、小写转换、词干处理等。分成80:20培训:测试比率使用TfidfVectorizer创建了一个稀疏的特征矩阵，其中包含了词的

浏览 0提问于2017-08-15得票数 7

1回答