使用NLTK: TypeError从标记化文本中删除停用词_使用dataframe删除标记化nltk中的标点符号(python)_如何使用NLTK语料库从Pandas dataframe text列中删除英语停用词？ - 腾讯云开发者社区

python、nltk、tokenize、stop-words

我一直收到这个错误 sub return _compile(pattern, flags).sub(repl, string, count) TypeError: expected string or buffer 当我尝试运行此脚本时。不确定出了什么问题。我本质上是从一个文本文件中读取，过滤掉停用词，并使用NLTK对它们进行标记。 import nltk from nltk.collocations import * from nltk.tokenize import word_tokenize from nltk.corpus import stopwords stopset =

浏览 0提问于2014-01-04得票数 4

回答已采纳

1回答

在python中删除不在NLTK库中的停用词

python、preprocessor

我一直在尝试从csv文件中删除在NLTK库中找不到的停用词，但当我生成新的数据帧时，我仍然看到其中的一些单词，并且我不确定如何删除它们。我不确定我的代码有什么问题，但它是这样的： import nltk from nltk.tokenize import word_tokenize from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer from nltk.corpus import stopwords stop_words = stopwords.words('english')

浏览 12提问于2020-11-20得票数 0

2回答

使用NLTK的FreqDist

python、frequency、nltk、frequency-distribution

我正在尝试使用Python获取一组文档的频率分布。由于某些原因，我的代码无法工作，并产生以下错误： Traceback (most recent call last): File "C:\Documents and Settings\aschein\Desktop\freqdist", line 32, in <module> fd = FreqDist(corpus_text) File "C:\Python26\lib\site-packages\nltk\probability.py", line 104, in __init_

浏览 0提问于2011-06-09得票数 3

3回答

如何从csv文件中删除停用词

python、pandas、dataframe

目前我正在做一个分析Twitter数据的项目。我正处于预处理阶段，正在努力让我的应用程序从数据集中删除停用词。 import pandas as pd import json import re import nltk from nltk.corpus import stopwords nltk.download('stopwords') self.file_name = filedialog.askopenfilename(initialdir='/Desktop',

浏览 64提问于2021-02-18得票数 1

回答已采纳

1回答

使用PlainTextCorpusReader创建语料库并进行分析

python、nltk

我对python比较陌生，我对如何使用NLTK的PlainTextCorpusReader方面创建一个语料库感兴趣。我把所有的文件都进口进去了。但是，当我运行代码来标记整个语料库中的文本时，它会返回一个错误。如果这个问题是重复的，我很抱歉，但我想对此有所了解。这是导入文档的代码。我的电脑上有一堆与2016年DNC相关的文档(为了重现性，请从获取部分或全部文本文件) import os import nltk from nltk.corpus import PlaintextCorpusReader from nltk.corpus import stopwords corpus_root

浏览 1提问于2019-08-07得票数 2

回答已采纳

3回答

下面的python代码中的错误是什么

python、nltk、stop-words

我想删除停用词。以下是我的代码 import nltk from nltk.corpus import stopwords import string u="The apple is the pomaceous fruit of the apple tree, species Malus domestica in the rose family (Rosaceae). It is one of the most widely cultivated tree fruits, and the most widely known of the many members of genus M

浏览 0提问于2012-10-03得票数 1

回答已采纳

2回答

NLP:我如何将词干和标签结合起来？

python、nlp、nltk、tagging、stemming

我正在尝试编写代码，它传递的文本已经被标记，停止词被过滤掉，然后继续并标记它。但是，我不确定我应该按照什么顺序进行标记。这是我目前拥有的： #### Stemming ps = PorterStemmer() # PorterStemmer imported from nltk.stem stemText = [] for word in swFiltText: # Tagged text w/o stop words stemText.append(ps.stem(word)) #### POS Tagging def tagging(): tagTot

浏览 4提问于2020-04-24得票数 0

回答已采纳

1回答

在NLTK和scikit-learn中结合文本词干和标点符号删除

python、text、scikit-learn、nltk

我正在使用NLTK和scikit-learn的CountVectorizer的组合来对单词进行词干和标记化。下面是CountVectorizer的简单用法示例 from sklearn.feature_extraction.text import CountVectorizer vocab = ['The swimmer likes swimming so he swims.'] vec = CountVectorizer().fit(vocab) sentence1 = vec.transform(['The swimmer likes swimming.

浏览 0提问于2014-10-01得票数 22

回答已采纳

1回答

如果行只包含停用词中的任何行，则从文本文件中删除这些行

python、python-3.x、text、nltk、stop-words

我只想从Myfile.txt文件中删除那些行，如果该行只包含并且只包含停止字中的任何行例如，Myfile.txt文件的示例为 Adh Dhayd Abu Dhabi is # here is "is" stopword but this line should not be removed because line contain #Abu Dhabi is Zaranj of # this line contains just stop word, this line should be removed on

浏览 0提问于2019-03-06得票数 0

回答已采纳

1回答

去除单词标记化后的停用词并降低大小写

python、nltk

我是NLP的新手，在执行以下任务时面临一些挑战。我想执行这些顺序的任务。1.语义标记化2.对每个句子进行单词标记化3.小写4.停止词删除5.对每个词进行词素化我试着写一个函数来完成上面的任务 import nltk import numpy as np import random import string from nltk.corpus import stopwords def text_processing(input_str): tokens = nltk.sent_tokenize(input_str)#sentence tokenizing for words

浏览 0提问于2018-11-05得票数 0

3回答

使用NLP让系统学习对文本进行分类

python、nlp

在我花大量时间学习这些概念之前，我想知道NLP和Python的NLTK是否可以通过简单地向系统输入文本并告诉它适用的类别来帮助我训练系统。假设我有大约100条文本，我想根据它们所描述的业务对它们进行分类。有没有办法只向系统指出每个文本描述的是什么业务，然后从长远来看，让系统对新文本进行越来越准确的分类？

浏览 0提问于2015-10-13得票数 3

1回答

跳过不带属性的元组Python NLTK

python、python-3.x、pandas、jupyter-notebook、nltk

我有一个脚本，主要是为自然语言工具包工作。它的工作方式是使用NLTK对单个单词进行标记化和标记(分类)。当我的列表包括名称和实体时，它工作得很好。如果列表中包含诸如" the "，"a"，"and“等词性冠词，它就会被分解。这些单词不会从NLTK接收标签(人员、组织、地理位置等)。我的问题是，有一种方法可以跳过元组，这会给我一个错误，因为它们不会返回标签属性？示例数据帧： Order Text results 0 0 John 1 1 Paul 2 2 George 3 3 Ring

浏览 21提问于2020-05-06得票数 0

3回答

如何从文本集合nltk中排除停用词

python、nltk、ipython-notebook

我正在尝试从文本集合中排除stopwords。从底部可以看到，t保存这些文本。我检查文本中的单词是否不在stopword列表中，然后返回不在stopwords中的单词。然而，当我运行这个程序时，它会用stopwords显示所有的单词。 t = [ (text,word) for text in ['1861-Lincoln.txt','1865-Lincoln.txt', '1933Roosevelt.txt','1937-Roosevelt.txt','1941-Roosevelt.txt','1

浏览 0提问于2015-11-19得票数 0

1回答

pandas数据帧中字符串数据的预处理

python-3.x、pandas、machine-learning、nltk、data-cleaning

我有一个用户评论数据集。我已经加载了这个数据集，现在我想对用户评论进行预处理(例如，删除停用词、标点符号、转换为小写、删除问候语等)。在将其安装到分类器之前，但我得到了错误。下面是我的代码： import pandas as pd import numpy as np df=pd.read_json("C:/Users/ABC/Downloads/Compressed/reviews_Musical_Instruments_5.json/Musical_Instruments_5.json",lines=True) dataset=df.filt

浏览 18提问于2017-12-23得票数 2

回答已采纳

4回答

使用NLTK删除停止字

python、nlp、nltk、stop-words

我试图通过使用nltk工具包删除停用词来处理用户输入的文本，但是使用停用词删除时，像'and'，'or'，'not‘这样的单词会被删除。我希望这些单词在停用词删除过程后出现，因为它们是以后将文本作为查询处理所需的运算符。我不知道哪些词可以作为文本查询的运算符，我也想从我的文本中删除不必要的词。

浏览 78提问于2013-10-02得票数 78

回答已采纳

1回答

将自定义停用词追加到nltk.corpus的默认停用词列表中，并使用lambda从数据帧中的一系列中删除停用词

python、lambda、tags、flickr、stop-words

我有多列数据帧，有41,000行Flickr标签。我只想从一个专栏中删除所有的英语停用词，而其他专栏则保持不变。这是我从nltk.corpus中提取停用词列表的代码： from nltk.corpus import stopwords stopWordsListEng = stopwords.words("english") 但我想添加我能想到的其他停用词： according accordingly across act actually 我还没有想出如何将它添加到现有的停用词列表中。以及如何应用lambda来删除仅一列中的停用字。因为我希望我的代码尽可能简单。下面是

浏览 18提问于2020-01-16得票数 0

回答已采纳

1回答

我想从数据集中删除所有的德语停用词

python

在拟合模型和预测准确性之前，我想从我的数据集中删除德语停用词。我不确定为什么下面的代码不能提供帮助。所有NLTK和关联库都已安装。 import nltk nltk.download() from nltk.stem.snowball import SnowballStemmer stemmer = SnowballStemmer('german', ignore_stopwords=True) class StemmedCountVectorizer(CountVectorizer): def build_analyzer(self):

浏览 23提问于2019-08-06得票数 3

回答已采纳

11回答

如何使用NLTK标记器消除标点符号？

python、nlp、tokenize、nltk

我刚刚开始使用NLTK，我不太明白如何从文本中获取单词列表。如果我使用nltk.word_tokenize()，我会得到一个单词和标点符号的列表。相反，我只需要文字。我怎样才能摆脱标点符号？此外，word_tokenize不能处理多个句子:在最后一个单词上添加圆点。

浏览 0提问于2013-03-21得票数 138

1回答

Pre_process一列tweet并创建一个dataframe

python、pandas、text-processing

我有一个CSV文件，其中包括2319条tweet及其标签。我在一个数据框中读到了它，它看起来如下所示： ? 我想阅读每条推文，并执行以下操作：删除停用词、删除链接、删除#、删除标点符号、删除@(提及)、小写、标记化，也删除表情符号然后将每个处理过的推文存储在数据帧的新列中(假设是处理过的文本)。因此，前面的dataframe将更改为类似以下内容：(下表将是我在dataframe中所需的输出) ? 我用Jupyter写了以下代码： from io import StringIO df['Processed Text']= df['Text'] col =

浏览 48提问于2021-08-16得票数 0

1回答

从Python中的字符串列中删除Stopword

python、python-3.x、nlp、nltk、stop-words

我正在做一个阅读文本并对结果进行预测的项目。作为清理数据的一部分，我正在尝试删除所有的停用词。当我尝试这样做时，我需要输出数据格式，但我在那里遇到了问题。因此，经过多次清理后，我获得了如下所示的数据。标签在不同的数据帧中，我必须合并该数据帧，但这超出了重点。我现在要做的是删除每行中每个字符串中的所有停用词。经过一些研究，我使用的代码看起来像这样： import nltk from nltk.corpus import stopwords nltk.download('stopwords') stop_words = set(stopwords.words('

浏览 14提问于2019-08-12得票数 1

2回答

Word2Vec词汇相似性

python、machine-learning、neural-network、nlp、word2vec

我在大约750k单词的文本上运行了一个word2vec算法(在删除一些停用的单词之前)。使用我的模型，我开始寻找与我选择的特定单词最相似的单词，相似度得分(对于model.wv.most_similar方法)都超级接近1。最接近的第十个得分仍然像.998，所以我觉得我没有得到导致无意义相似单词的单词相似度之间的任何显著差异。我的模型构造函数是 model = Word2Vec(all_words, size=75, min_count=30, window=10, sg=1) 我认为问题可能在于我如何构造文本以运行神经网络。我像这样存储所有的单词： all_sentences = nltk.

浏览 1提问于2019-11-27得票数 0

2回答

提高朴素贝叶斯分类器准确率

python、classification、nltk、naivebayes

我写了一个简单的文档分类器，目前正在Brown语料库上进行测试。然而，我的准确率仍然很低(0.16)。我已经排除了停用词。关于如何提高分类器的性能，还有其他的想法吗？ import nltk, random from nltk.corpus import brown, stopwords documents = [(list(brown.words(fileid)), category) for category in brown.categories() for fileid in brown.fileids(category)] random.s

浏览 11提问于2017-07-17得票数 0

1回答

如何在NLTK的tokenize.regexp python中将输入作为文本文件

python、python-2.7、nltk、tokenize

基本上，我将文本文件作为NLTK tokenize.regexp输入。如何在下面的代码中输入文本文件： ‘从nltk.tokenize导入RegexpTokenizer 标记器= RegexpTokenizer(r'\w+') raw = doc_a.lower() #我希望输入文本文件而不是'doc_a‘ tokens =tokenizer.tokenize(原始)`

浏览 0提问于2017-08-11得票数 0

回答已采纳

2回答

如何向MeCab添加停用词？

nlp、stop-words、mecab

我想在MeCab中添加一些停用词，比如“我”、“你”之类的。但是我在MeCab的手册上找不到任何关于stopword的信息。

浏览 1提问于2012-10-25得票数 4

1回答

在大熊猫中执行nltk.stem.SnowballStemmer

python、pandas、nlp、nltk

我有一个四列的DataFrame，其中有两列标记化的单词，它们已经删除了停止词，并转换成小写，现在正试图阻止它们。我不确定apply()方法是否访问了这个系列和它的单个单元，或者我是否需要另一种方式进入每一条记录，因此尝试了这两种方法(我认为！) from nltk.stem import SnowballStemmer stemmer = nltk.stem.SnowballStemmer('english') 我试过： df_2['Headline'] = df_2['Headline'].apply(lambda x: stem

浏览 0提问于2020-01-13得票数 1

回答已采纳

3回答

创建一个带有'word group‘的字典

python、nltk、gensim

我想对工作描述做一些文本分析，并打算使用nltk。我可以建立一个字典并删除停用的单词，这是我想要的一部分。然而，除了单个单词及其频率之外，我还想保留有意义的“单词组”，并对它们进行计数。例如，在包含“机器学习”的工作描述中，我不想单独考虑“机器”和“学习”，但如果它经常出现在我的字典中，请保留该词组。做这件事最有效的方法是什么？(我认为我不需要超出包含2个或2个单词的词组)。还有:我应该在什么时候删除停用字？下面是一个示例： text = 'As a Data Scientist, you will focus on machine learnin

浏览 26提问于2017-03-13得票数 2

回答已采纳

3回答

在使用Spacy，Bert时，是否有必要对文本分类进行停用词删除、词干提取/词汇化？

nlp、spacy、text-classification、bert-language-model

当使用Spacy，Bert或其他高级NLP模型来获得文本的向量嵌入时，文本分类是否有必要进行停用词删除、词干提取和词汇化？ Text=“婚礼上供应的食物非常美味” 1.由于Spacy，Bert是在巨大的原始数据集上训练的，在使用bert/spacy生成用于文本分类任务的嵌入之前，在这些文本上应用停用词删除、词干提取和词汇化是否有任何好处？ 2.我可以理解，当我们使用countvectorizer，tfidf向量器来实现句子的嵌入时，去掉停用词，词干提取和词汇化会很好。

浏览 4提问于2020-08-28得票数 7

2回答

在Gensim中添加停用词

python、windows、nlp、gensim、stop-words

感谢您的光临！我有一个关于附加停用词的快速问题。我有一些精选的单词出现在我的数据集中，我希望我可以将它们添加到gensims停用单词列表中。我已经看到了很多使用nltk的例子，我希望在gensim中也能做到这一点。我将在下面发布我的代码： def preprocess(text): result = [] for token in gensim.utils.simple_preprocess(text): if token not in gensim.parsing.preprocessing.STOPWORDS and len(token) > 3

浏览 65提问于2019-03-20得票数 1

回答已采纳

3回答

带有频率的Ngram的Python列表

python、nltk、scikit-learn

我需要从文本中获取最流行的ngram。Ngram长度必须介于1到5个单词之间。我知道如何得到二元模型和三元模型。例如： bigram_measures = nltk.collocations.BigramAssocMeasures() finder = nltk.collocations.BigramCollocationFinder.from_words(words) finder.apply_freq_filter(3) finder.apply_word_filter(filter_stops) matches1 = finder.nbest(bigram_measures.pmi,

浏览 85提问于2012-08-02得票数 16

回答已采纳

1回答

如何使用NLTK删除停用词

python、nltk

我在使用NLTK删除停用词时遇到了问题。我正在使用下面的代码，它的工作没有我试图删除停用词的部分。 from nltk.probability import FreqDist from nltk.corpus import stopwords text = open(r"C:\Users\meris\OneDrive\Dokumente\example.txt",encoding='utf-8').read() token = word_tokenize(text) clean_tokens = token[:] sr = stopwords.w

浏览 28提问于2021-01-29得票数 0

2回答

在python中删除停用词和标记化

python-3.x、natural-language-processing

我有以下输入数据，我想要删除此输入中的停用词，并希望执行标记化： input = [['Hi i am going to college', 'We will meet next time possible'], ['My college name is jntu', 'I am into machine learning specialization'], ['Machine learnin is my favorite subject' ,'Here i am us

浏览 28提问于2019-03-18得票数 2

回答已采纳

1回答

在不使用NLTK的情况下从Python中的文本中移除停用词

python、list、stop-words

我用Python列出了我的母语中的停用词。当我输入文本时，如何在不使用NLTK的情况下删除它们？

浏览 14提问于2021-01-23得票数 0

回答已采纳

2回答

删除单个字母停用词，但不从包含该字母的单词中删除该字母

python、stop-words

我正在试着从我的文本中删除停用词。我已经尝试使用下面的代码。 from nltk.corpus import stopwords sw = stopwords.words("english") my_text='I love coding' my_text=re.sub("|".join(sw),"",my_text) print(my_text) 预期结果：love coding。实际结果：I l cng (因为'o‘和've’都在停用词列表“sw”中找到)。怎样才能得到预期的结果？

浏览 30提问于2019-07-25得票数 0

回答已采纳

1回答

删除Tensorflow extended中的停止字

tensorflow、stop-words、tfx

我必须对NLP数据进行预处理，所以我必须从Tensorflow数据集中删除停用字(从nltk库中)。我尝试了很多这样的东西： docs = tf.data.Dataset.from_tensor_slices([['Never tell me the odds.'], ["It's a trap!"]]) tokenizer = text.WhitespaceTokenizer() tokenized_docs = docs.map(lambda x: tokenizer.tokenize(x)) data = tokenized_docs.filte

浏览 11提问于2021-02-04得票数 1

1回答

停用词将负面评论改为正面评论。在文本摘要过程中，什么是消除停用词的好方法？

python-3.x、nlp、stop-words

dataframe我尝试从数据框中的两列中删除停用词(英语)。请参见屏幕截图。然而，我发现在应用这个过程之后，审查的含义发生了变化。例如，Not recommend更改为recommend。在保持原文思想不变的情况下删除停用词的最好方法是什么？这是我的代码和结果： from nltk import word_tokenize from nltk.corpus import stopwords stop = set(stopwords.words('english')) df['Text_after_removed_stopwords'] = df['

浏览 14提问于2019-09-25得票数 0

回答已采纳

1回答

Solr特殊排序

sorting、solr

我有在solr的文本字段，我希望它是以特殊的方式排序 title ------- The Book When Available 因为当我查询和排序字段时，( when，on)单词包括在我的停用词列表中，所以我希望它们显示为： When Available ( first ) The Book ( second ) 到目前为止，我已经尝试了不同的组合 <fieldType name="sortString" class="solr.TextField" sortMissingLast="true" omitNorm

浏览 2提问于2014-05-24得票数 0

1回答

NLTK:矢量化后的特征约简

python、machine-learning、scikit-learn、nlp、nltk

我已经从大约3000份文档中提取了非结构化的文本数据，我正在尝试使用这些数据对该文档进行分类。然而，即使删除了停止词&标点符号并对数据进行归一化处理，计数矢量化也产生了64000多个特性。许多这些特性包含不必要的标记，比如不同语言中的随机数和文本。我所使用的图书馆是：令牌化: Punkt (NLTK) pos标记:宾夕法尼亚树银行(NLTK) 柠檬化: WordNet(NLTK) 矢量化: CountVectorizer (sk-学习) 有人能建议我如何减少训练分类器的特征数量吗？

浏览 2提问于2017-11-29得票数 0

回答已采纳

1回答

如何在python中修改停用词列表中的NLTK？

python、nltk、stop-words

我是python/编程社区的新手，所以请原谅我提出的相对简单的问题:我想在词汇化csv文件之前过滤掉停用的单词。但我需要把“this”/“this”这几个停下来的词包括在最终的集合中。在Python中导入nltk停用词并将其定义为 stopwords = set(stopwords.words('english')) ..。我如何修改这个包含“this”/“this”的集合？我知道我可以手动列出除了这两个单词之外的每一个单词，但我正在寻找一个更优雅的解决方案。

浏览 14提问于2018-02-11得票数 1

回答已采纳

1回答

Python在nltk.tree中查找单词

python、nltk、chunking

我正试图构建一个新的语言来获取单词的上下文。我有两句话 sentences=pd.DataFrame({"sentence": ["The weather was good so I went swimming", "Because of the good food we took desert"]}) 我想知道“好”这个词指的是什么。我的想法是对句子(来自教程的代码)进行分块，然后查看单词"good“和一个名词是否在同一个节点中。如果不是，它指的是之前或之后的名词。首先，如本教程所示，我构建了分块。 from nltk.corpus

浏览 4提问于2016-06-06得票数 3

回答已采纳

6回答

NLP:有哪些流行的多字标记包？

nlp、nltk、tokenization

我打算标记一些职务描述文本。我已经尝试了使用空白作为分隔符的标准标记化。然而，我注意到，有一些多词的表达是分裂的空格，这很可能会导致在后续处理的准确性问题。因此，我想在这些文本中得到所有有趣的/信息丰富的搭配。是否有任何好的包来做多字标记化，而不考虑特定的编程语言？例如，“他学习信息技术”“===>”他“研究”“信息技术”。我注意到NLTK (Python)有一些相关的功能。搭配模块：http://www.nltk.org/api/nltk.html#module-nltk.collocations nltk.tokenize.mwe模块：http://www.nltk.org/a

浏览 0提问于2017-03-02得票数 9

1回答

从标记文本文件创建自定义nltk语料库

nltk、corpus、pos-tagger

在阅读了大量的帖子后，我仍然很难在nltk中制作一个定制语料库。我有一个标记句子的文本文件，表格字符串中的每一项.单词/标签。我想用这东西训练一个标签师。我正在尝试使用一个名为列车标签的nltk包，它可以训练各种类型的tagger。2个问题。1)训练标记者可以使用文本文件作为输入还是只使用nltk语料库对象? 2)如果只使用一个语料库，如何从文本文件中创建一个文本文件？我试过以下代码来创建一个语料库..。 import nltk from nltk.corpus import PlaintextCorpusReader corpus_root = './' newcorpus

浏览 2提问于2012-05-29得票数 0

1回答

在Python中对整个数据集使用简单

python、stemming

我想在我的数据集上使用simplemma。我知道对于单独的单词，脚本是如何工作的： from simplemma import text_lemmatizer langdata=simplemma.load_data('nl') text_lemmatizer('word1 word2 word3', langdata) 但是我如何改变这个脚本，使它在我的数据集df中的一个完整的“Text”列中工作呢？该列中的每一行包含多个单词。我编写了以下脚本： from simplemma import text_lemmatizer langdata=simplemm

浏览 18提问于2021-10-22得票数 0

回答已采纳

5回答

从Python的NLTK中的自定义文本中生成随机句子？

python、random、nltk

我在Python下遇到了NLTK问题，特别是.generate()方法。生成(self，length=100) 打印随机文本，使用三图语言模型生成。参数： *长度(int) -要生成的文本长度(default=100) 下面是我正在尝试的一个简化版本。 import nltk words = 'The quick brown fox jumps over the lazy dog' tokens = nltk.word_tokenize(words) text = nltk.Text(tokens) print text.generate(3) 这将始终生成 Bu

浏览 6提问于2009-07-19得票数 8

1回答

提高Spacy中自定义命名实体识别(NER)的召回率

nltk、spacy、named-entity-recognition

这是我发布的另一个问题的第二部分。然而，它们的不同之处足以成为独立的问题，但也可能是相关的。上一个问题Building a Custom Named Entity Recognition with Spacy , using random text as a sample 我已经使用上一个问题中描述的方法构建了一个自定义命名实体识别(NER)。从这里，我只是复制了从Spacy网站(在这个网站https://spacy.io/usage/training#ner的“命名实体识别器”下)构建NER的方法。自定义NER在某种程度上是有效的。如果我对文本进行句子标记化，对单词进行词汇化(因此“s

浏览 34提问于2020-08-07得票数 1

2回答

混淆了词干和pos标记之间的优先级

python、nltk、stemming、part-of-speech

因此，我分析了一个文本语料库，并使用词干器对所有的标记词。但我也必须找到语料库中的所有名词，所以我再次做了一个nltk.pos_tag(stemmed_sentence)，但我的问题是，我做的对吗？ A.] tokenize->stem->pos_tagging 或 B.] tokenize->stem #stemming and pos_tagging done seperately tokeinze->pos_tagging 我遵循了方法A，但我对它实现pos_tagging的正确方法感到困惑。

浏览 5提问于2014-12-01得票数 6

回答已采纳

1回答

从pandas数据帧中删除停止字

python、pandas、nltk

我有下面的脚本&在最后一行中，我试图从名为'response‘的字符串中删除停用词。问题是，不是“有点恼火”变成“有点恼火”，实际上它甚至连字母都掉了--所以，“有点恼火”会变成“有点厌烦”。因为'a‘是一个停用的词有人能给我一些建议吗？ import pandas as pd from textblob import TextBlob import numpy as np import os import nltk nltk.download('stopwords') from nltk.corpus i

浏览 25提问于2019-01-25得票数 2

回答已采纳

1回答

西班牙语文本的正则表达式解析器

python、regex、nltk

我正在尝试定义一个语法，以便使用Regex解析器从文本中检索数量和水果。很明显，语法有问题，因为在结果中我只能看到数量。我在下面粘贴了示例文本和我正在使用的代码。HMM标记器是用cess_esp语料库训练的。 grammar = r""" fruits: {<NCFP000>} quantity:{<Z>} """ regex_parser = nltk.RegexpParser(grammar) cp = nltk.RegexpParser(grammar) example=['quiero 3 c

浏览 28提问于2020-09-14得票数 1

回答已采纳

1回答

如何使用sparknlp中的注释器处理文本文件

scala、apache-spark、johnsnowlabs-spark-nlp

因为我是spark NLP的初学者，所以我开始使用中显示的功能做一些动手练习我使用来自data bricks的SCALA，我从获得了一个很大的文本文件因此，首先我导入必要的库和数据，如下所示： import com.johnsnowlabs.nlp.base._ import com.johnsnowlabs.nlp.annotator._ import com.johnsnowlabs.nlp.pretrained.PretrainedPipeline val book = sc.textFile("/FileStore/tables/84_0-5b1ef.txt").

浏览 14提问于2020-02-28得票数 0

回答已采纳

1回答

如何从nltk模块读取english.pickle文件？

python、nlp、pickle

我试图弄清楚为什么我无法读取从nltk模块下载的english.pickle文件的内容。我首先使用以下代码下载了nltk文件： import nltk nltk.download('punkt') 然后我在我的主目录中的punkt文件中查找，找到了english.pickle文件。我使用以下代码读取python中的文件： import pickle with open('english.pickle', 'rb') as file: x = pickle.load(file) 但是，当我运行变量x(它应该存储pickled数据)时，我不

浏览 0提问于2020-09-21得票数 0

1回答

word_tokenize TypeError:预期的字符串或缓冲区

python、python-3.x、nlp、nltk、tokenize

当调用word_tokenize时，我得到以下错误： File "C:\Python34\lib\site-packages\nltk\tokenize\punkt.py", line 1322, in _slices_from_text for match in self._lang_vars.period_context_re().finditer(text): TypeError: expected string or buffer 我有一个大的文本文件(1500.txt)，我想从其中删除停止词。我的代码如下： from nltk.corpus impor

浏览 1提问于2015-11-18得票数 2

回答已采纳