用NLTK的SklearnClassifier和ClassifierBasedPOSTagger构建自己的分类器词性标签器_在Google Coral Devboard和Jetson Nano中使用我自己构建的卷积神经网络分类器 - 腾讯云开发者社区

python、classification、bayesian、scikit-learn、bayesian-networks

我想使用半监督的朴素贝叶斯(Bernoulli)的实现.根据的说法，一年前有一些关于它的工作和讨论(SemisupervisedNB班)。另一方面，似乎有。但是，在当前的稳定版本中，没有任何一个是可用的。有人能给我举个例子，说明我如何使用这两种实现中的一种与当前发布的scikit-learn一起来构建一个半胱氨酸朴素Bayes吗？谢谢。 P.S.：我正在使用SklearnClassifier类从NLTK学习分类器编辑我在我的项目中尝试了SemiSupervisedNB代码，将未标记类的标签从-1更改为2(我使用的是来自NLTK的SKlearnClassifier，而未标记的类得到标签2)

浏览 3提问于2013-01-19得票数 2

回答已采纳

1回答

我可以多次训练我的分类器吗？

python、scikit-learn、nlp、nltk、training-data

我正在使用nltk和sklearn构建一个基本的NLP程序。我在数据库中有一个很大的数据集，我想知道训练分类器的最佳方法是什么。建议将训练数据分块下载并将每个块传递给分类器吗？这是可能的吗，或者我会覆盖从上一块中学到的东西吗？ from nltk.classify.scikitlearn import SklearnClassifier from sklearn.naive_bayes import MultinomialNB while True: training_set, proceed = download_chunk() # pseudo trained = S

浏览 10提问于2017-12-19得票数 2

回答已采纳

1回答

在nltk中使用scikit-learn分类器，多类情况

python、nltk、scikit-learn

文本文档的分类是一个，但在NLTK中没有一个干净的支持，也有像这样困难的方法来做这件事的示例。我想用NLTK进行预处理，并用sckit-learn进行分类，我在NLTK中发现了SklearnClassifier，但有一个小问题。在scikit-learn everything is OK： from sklearn.naive_bayes import MultinomialNB from sklearn.multiclass import OneVsRestClassifier X_train = [[0, 0], [0, 1], [1, 1]] y_train = [('fir

浏览 2提问于2012-11-23得票数 6

回答已采纳

1回答

用NLTK的SklearnClassifier和ClassifierBasedPOSTagger构建自己的分类器词性标签器

python、scikit-learn、nlp、nltk、pos-tagger

我正在尝试使用SklearnClassifier和ClassifierBasedPOSTagger构建自己的基于分类器的词性标记器。我尝试过的代码如下所示。 from nltk.corpus import treebank nltk.download('treebank') data = treebank.tagged_sents() train_data = data[:3500] test_data = data[3500:] from nltk.classify import SklearnClassifier from sklearn.naive_bayes imp

浏览 10提问于2021-08-11得票数 0

回答已采纳

1回答

NLTK SklearnClassifier包装器数据

python、python-2.7、machine-learning、scikit-learn、nltk

我试图在nltk.SklearnClassifier包装器中创建一个sklearn分类器，并遇到了这个问题:如果我们不立即训练分类器(所有的教程都是这样做的)并一次训练一个数据，它会删除并破坏以前对分类器所做的训练吗？我希望我说得很清楚，但如果不是这样，这里有一些代码需要解释。 from nltk.classify.scikitlearn import SklearnClassifier from sklearn.naive_bayes import MultinomialNB class classifier(object): def __init__(self,c):

浏览 0提问于2017-03-09得票数 0

回答已采纳

1回答

“展开”SklearnClassifier对象- NLTK

python、scikit-learn、nltk

我使用了来自NLTK包的SklearnClassifier()包装器来训练一对sklearn分类器(LogisticRegression()和RandomForest())，以解决文本是特性的二进制分类问题。是否有任何功能允许您“展开”此对象，以便可以访问诸如参数估计(用于逻辑回归)或来自随机林中的变量重要性列表(或从原始sklearn对象中获得的任何可用项)？nltk分类器对象可以记录新实例，因此底层信息必须包含在该对象的某个地方？谢谢你的想法。

浏览 4提问于2015-05-21得票数 1

回答已采纳

1回答

nltk中的TaggedCorpusReader和UnigramTagger (python)

python、nltk

我正在尝试使用nltk以一种非常低保真的方式对新闻文章进行自动分类。我已经创建了一个与我的类别相关的词/标签对的自定义语料库(即，教师/教育、计算机/技术等)我一直在到处阅读，让我非常接近，但我仍然被卡住了。根据我到目前为止的代码，我如何使用标记器来标记我的句子？ import nltk # Loads my custom word/tag corpus from nltk.corpus.reader import TaggedCorpusReader reader = TaggedCorpusReader('taggers','.*') #Sets up

浏览 0提问于2011-12-29得票数 0

回答已采纳

1回答

“SklearnClassifier”对象在NLTK中没有属性“batch_classify”

python-3.x、scikit-learn、classification、nltk

我正在尝试使用NLTK的SklearnClassifier和BernoulliNB对数据进行分类。下面是一些代码： train = posFeatures[174:]+negFeatures[174:]+neuFeatures[174:] devtest = posFeatures[124:174]+negFeatures[124:174]+neuFeatures[124:174] test = posFeatures[:124]+negFeatures[:124]+neuFeatures[:124] dev, tag_dev = zip(*devtest) def score(classif

浏览 3提问于2016-10-30得票数 1

2回答

TypeError:传递稀疏矩阵，但需要密集数据。使用X.toarray()将其转换为密集的numpy数组。使用NaiveBayes分类器

python、numpy、nlp、nltk、naivebayes

多项式朴素Bayes分类器给出了正确的结果，而另两种--高斯NB和二项NB不是。它给出的错误是： TypeError:传递稀疏矩阵，但需要密集数据。使用X.toarray()将其转换为密集的numpy数组。但是，即使添加了该函数(train_set.toarray())，错误也是 AttributeError：“列表”对象没有属性“toarray” 代码是 import pickle from nltk.corpus import names import random import nltk from sklearn.naive_bayes import Multinomi

浏览 3提问于2017-07-12得票数 1

3回答

NLTK SklearnClassifier误差

python、classification、nltk、scikit-learn

我试图使用NLTK的SklearnClassifier和MultinomialNB对文本文档进行分类。这是代码： pipeline = Pipeline([('tfidf', TfidfTransformer()), ('chi2', SelectKBest(chi2, k=1000)), ('nb', MultinomialNB())]) classifier = SklearnClassifier(pipeline) test

浏览 3提问于2013-12-05得票数 2

回答已采纳

1回答

情感分析-交叉验证无效分数

python、scikit-learn、nltk、cross-validation

我正在使用NLTK和SKlearn测试一个情感分析模型。 Movie_reviews数据有"pos“和"neg”标签。为了训练分类器，我使用的是“特征集”。我使用交叉验证的训练数据和准确性的测试数据。然而，交叉验证总是比精确性高得多。在下面的例子中，logistic回归算法CV = 97 (平均)，精度= 70。我也测试了与其他标志，并仍然交叉验证非常高。我很确定用于交叉验证的代码是不正确的。 import nltk import random from nltk.corpus import movie_reviews from sklearn import cross

浏览 0提问于2016-07-27得票数 1

回答已采纳

2回答

哪个是执行的第一位: POS标记还是左旋？

python、nlp、nltk、pos-tagger、lemmatization

如果我想制作一个像NLTK这样的NLP工具包，那么在标记化和正常化之后，我将首先实现哪些特性。贴标签还是留标签？

浏览 4提问于2017-03-16得票数 1

回答已采纳

3回答

NLP - 'SklearnClassifier‘对象没有'fit’属性/ Python

python、python-3.x、scikit-learn、deep-learning、nlp

我正在尝试编写一个仇恨语音检测代码，但我遇到了一个问题。我从使用pyhton 2的源码中得到了错误SklearnClassifier' object has no attribute 'fit'，但我使用的是python3，也许问题就是因为这个而发生的，但我无法解决这个问题。我如何解决这个问题？ training_set = nltk.classify.apply_features(extract_features, train_tweets) classifier = nltk.NaiveBayesClassifier.train(training_set) f

浏览 119提问于2019-03-13得票数 0

2回答

用NLTK、scikit learn和OneVsRestClassifier启动多标签分类

python、machine-learning、scikit-learn、nltk、multilabel-classification

免责声明:我是非常新的人工智能，Python，NLTK和科学工具包-学习。我试图训练一个分类器来将一组文档分类为一组标签。我正在使用NLTK包装与scikit-learn的OneVsRestClassifier对话。 training_set = [ [{"car": True, ...}, "Label 1"], [{"car": False, ...}, "Label 2"], ... [{"car": False, ...}, "Label 1"], ]

浏览 5提问于2016-03-24得票数 2

回答已采纳

2回答

scikit中分类算法的文本特征输入格式

python、scikit-learn、classification、text-processing、feature-engineering

我开始使用坐骨器-学习做一些NLP。我已经使用了一些来自NLTK的分类器，现在我想尝试一下在scikit-learn中实现的分类器。我的数据基本上是句子，我从这些句子中的一些单词中提取特征来完成一些分类任务。我的大部分特征都是名词性的:词性词性( POS )，词对左，词性字到左，字对右，词性字对右，句法关系路径从一个词到另一个，等等。当我使用NLTK分类器(决策树，朴素贝叶斯)做一些实验时，特征集只是一个字典，其中包含特征的对应值:标称值。例如：{"postag":"noun"，“path”：“house”，"path":"VPNPN

浏览 1提问于2012-08-24得票数 5

回答已采纳

4回答

python:如何在scikit学习类(SVM)中使用POS (部分词性)特性

python、machine-learning、scikit-learn、nltk

我想使用从nltk.pos_tag返回的词性部分(POS)作为学习分类器，如何将它们转换成向量并使用它？例如： sent =“这是POS示例” Tok=nltk.tokenize.word_tokenize(发送) pos=nltk.pos_tag(tok)打印(pos) 它返回如下(' This '，'DT')，('is'，'VBZ')，('POS'，'NNP')，(‘示例’，'NN') 现在，我无法应用任何一个向量器(DictVectorizer，或FeatureHasher，C

浏览 0提问于2014-06-02得票数 13

回答已采纳

0回答

组合不同类型的特征(文本分类)

python、text、classification、nltk

我在做文本分类任务时遇到了一个问题。我已经使用词袋方法选择了1000个最佳特征集。现在我想使用基于词性、平均词长等的另一个功能。在我想将这些功能组合在一起之后。我正在使用Python，NLTK，Scikit包。这是我的第一个python项目，所以代码可能不是很好。提前谢谢你， import nltk from nltk.corpus.reader import CategorizedPlaintextCorpusReader from sklearn.feature_extraction.text import TfidfVectorizer import o

浏览 1提问于2017-01-02得票数 0

3回答

python中按句子结构对文本进行分类

python、python-2.7、python-3.x、machine-learning、nlp

我想知道一个句子在python中是否真的有意义。例如 Hello, how are you today? --> Correct Hello, are today are how --> Incorrect 到目前为止，我已经有了这段代码，它执行以下操作： 1-从nltk.browns语料库中获取20000个句子。 2-混淆最后10000个句子的单词(用于不正确的数据) 3-使用斯坦福词性标记器标记所有句子 from nltk.corpus import brown from nltk.tokenize import sent_tokenize, word_tokenize fro

浏览 0提问于2016-12-25得票数 3

1回答

使用python的NLTK计算动词、名词和其他词性

python、nlp、tagging、nltk、part-of-speech

我有多个文本，我想根据它们对各种词性的使用情况来创建它们的配置文件，比如名词和动词。基本上，我需要计算每个词性使用了多少次。我已经标记了文本，但不确定如何进一步： tokens = nltk.word_tokenize(text.lower()) text = nltk.Text(tokens) tags = nltk.pos_tag(text) 如何将每个词性的计数保存到一个变量中？

浏览 0提问于2012-05-20得票数 20

回答已采纳

2回答

在nltk中使用scikit的GaussianNB不起作用

python、scikit-learn、nltk

我正在尝试使用nltk的包装的科学工具包-学习的分类器。我使用这个代码来训练分类器： classifier = SklearnClassifier(GaussianNB()) classifier.train(self.training_set) training_set看上去就像 [({'name':'Alpha Hotel', 'clicks':765, 'zip_code':75025},'no bookings')] 我所犯的错误是 TypeError:传递稀疏矩阵，但需要密集数据。使用X.toarray

浏览 2提问于2015-08-20得票数 1

1回答

这是有可能显示标签的概率在科学工具包-学习几个模型？

python、machine-learning、scikit-learn、nltk

我有一个VoteClassifier模型，由以下算法组成：贝叶斯分类器 SVC LinearSVC NuSVC 多国旅 BernoulliNB LogisticRegression 我训练了一些数据来获得所有可能标签的概率和概率，例如，如果我有两个标签: x和y，以及在x中重新设置特征的概率方法，那么我想知道x和y标签的结果概率。根据这个，我使用来自nltk.clssify模块的ClassifierI方法的prob_classify (documentation )函数来实现这一目标，其思想是在计算结束时，得到所有概率的平均值来表示这两个标签的最终概率，但

浏览 2提问于2020-08-01得票数 1

2回答

尝试将MEGAM用作NLTK ClassifierBasedPOSTagger？

python、nlp、nltk、pos-tagger

我目前正在尝试用NLTK建立一个通用的(或作为实用的) POS标记器。我已经用brown和treebank语料库进行了训练，但很可能会选择treebank语料库。随着我的学习，我发现分类器POS标记器是最准确的。最大实体分类器应该是最准确的，但我发现它使用了太多的内存(和处理时间)，以至于我必须大幅减少训练数据集，因此最终结果比使用默认的朴素贝叶斯分类器的准确性要低。有人建议我使用MEGAM。NLTK对MEGAM有一些支持，但我找到的所有示例都是针对通用分类器的(例如，使用单词特征向量的文本分类器)，而不是更具体的词性标记器。而不必重新创建我自己的POS特征提取器和编译器(即。我更喜欢使用

浏览 3提问于2010-12-17得票数 5

回答已采纳

1回答

NLTK词性问题

python、nltk、part-of-speech

我在NLTK上遇到了一些麻烦。我已经使用了一个词性标签列表，我希望当我使用VBD运行这段代码时，我会得到这些单词：(dipped，pleaded，soaked) lines = ("ask, Assemble, assess, dipped, pleaded, soaked, languished, panelized, used, sue, cure, lengthen") tokenized = nltk.word_tokenize(lines) verbs = [word for (word, pos) in nltk.pos_tag(tokenized) if(pos

浏览 9提问于2021-02-17得票数 0

2回答

MUC数据集的pos_tagging和NER标记不能正常工作

nltk、corpus、named-entity-recognition

我对MUC数据集有问题。我想对此执行NER，但此数据集中的所有单词都是大写字母，因此当运行pos_tagger时，它会将所有错误的单词检测为名词。为了解决这个问题，整个文本最初都变成了小写。然而，这种方式带来了另一个问题；如果文本是小写字母，则NER不能正常工作，并且从字面上找不到“人、组织或位置”。因此，保留了整个文本到小写的转换，以便能够成功地pos_tag，然后执行每个单词的手动大写，以将它们提供给NER模块。但另一个问题出现了，这一次NER检测到的一切都是位置。下面是我的代码： import nltk from nltk.tokenize import word_tokenize, s

浏览 0提问于2017-07-18得票数 0

1回答

使用python 36的nltk中的CFG自上而下解析

python、python-3.x、nltk、text-parsing、topdown

我是学习NLP的初学者。我读到过CFG，我想把它应用于自上而下的解析和自下而上的解析。我从自上而下的解析开始。我想用nltk和python36绘制自上而下的解析树。我写了下面的代码，但是它不能工作。出了什么问题？有没有人可以帮我增强代码？ import nltk from nltk.tag import pos_tag from nltk.tokenize import word_tokenize from nltk.tree import * from nltk.draw import tree from nltk import Nonterminal, nonterminals, Prod

浏览 25提问于2016-11-25得票数 0

1回答

如何解决NotImplementedError从nltk.classify ClassifierI？

python、nltk

我对编程很陌生，但我一遍又一遍地看我的代码，看不到任何错误。我不知道如何继续下去，因为无论我尝试什么，这个错误都会弹出。我会把完整的代码贴在这里。任何帮助都将不胜感激，谢谢！ import nltk import random from nltk.corpus import movie_reviews import pickle from nltk.classify.scikitlearn import SklearnClassifier from sklearn.naive_bayes import MultinomialNB,BernoulliNB from sklearn.linear

浏览 0提问于2018-03-26得票数 1

回答已采纳

1回答

NLTK词性标签器是使用全局信息还是仅使用被标记的单词？

python、nlp、nltk

我目前正在使用NLTK的"nltk.pos_tag“做一些词性标注。我想知道NLTK的标记器是否使用当前标记的单词之外的信息来确定单词的词性？如果没有，NLTK有没有标记器可以做到这一点？提前感谢您提供的任何信息！

浏览 0提问于2013-03-23得票数 2

回答已采纳

2回答

多语言NLTK，用于词性标记和词法分析

python、nlp、nltk、pos-tagger、lemmatization

最近，我接触了自然语言处理，尝试使用和来分析文本。我想开发一个应用程序，分析旅行者的评论，因此我必须管理许多用不同语言编写的文本。我需要做两个主要的操作: POS标签和词汇化。我已经看到，在NLTK中，有可能为句子标记化选择正确的语言，如下所示： tokenizer = nltk.data.load('tokenizers/punkt/PY3/italian.pickle') 我还没有找到正确的方法来设置不同语言的POS标签和Lemmatizer的语言。如何为意大利语、法语、西班牙语或德语等非英语文本设置正确的语料库/词典？我还看到可以导入"TreeBank“或"

浏览 3提问于2015-09-23得票数 14

1回答

TextClassification与TextBlob

machine-learning、nltk、sentiment-analysis、text-classification、textblob

我是一个机器学习，NLP，数据分析的新手，但我很有动力更好地理解它。我正在读几本关于NLTK、scikit-learn等的书。我发现了一个python模块"TextBlob“，并且发现它非常容易开始。因此，我创建了一个示例示例python脚本，托管在：。我试图找出最适合于情感分析和文本分类的算法。我的问题如下：为什么NaiveBayesClassifier中的情绪分析即使在如此小的训练集上也是缓慢的？这个时间是恒定的，还是会随着更多的训练数据而增加？情感分析也是不正确的(参考脚本输出，对输入文本“三明治是好的”它说“否定”)。我做错了什么？我在TextBlob的文档中看到，

浏览 7提问于2015-11-29得票数 4

1回答

NLTK Python中的训练数据集

python、nltk

我正在做Python NLTK标签，我的输入文本是非印地语。为了对输入文本进行标记化，必须首先对其进行训练。我的问题是如何训练数据？我在stackoverflow上给我建议了这行代码。 train_data = indian.tagged_sents('hindi.pos') *非印地语数据输入如何。

浏览 2提问于2015-06-01得票数 0

2回答

NLP:我如何将词干和标签结合起来？

python、nlp、nltk、tagging、stemming

我正在尝试编写代码，它传递的文本已经被标记，停止词被过滤掉，然后继续并标记它。但是，我不确定我应该按照什么顺序进行标记。这是我目前拥有的： #### Stemming ps = PorterStemmer() # PorterStemmer imported from nltk.stem stemText = [] for word in swFiltText: # Tagged text w/o stop words stemText.append(ps.stem(word)) #### POS Tagging def tagging(): tagTot

浏览 4提问于2020-04-24得票数 0

回答已采纳

1回答

VSCODE中的Python处理时间30+ mins

python、python-2.7、scipy、scikit-learn、nltk

我对编程非常陌生，所以请耐心点，保持简单，因为我上周才开始学习python。我愿意发布任何你需要的更多信息，但请记住，我是一个n00b。我的问题是：我使用MacOSX塞拉利昂和VisualStudioCodewithpython2.7，并运行YUGE数据处理时间(即5+分钟，更接近10+分钟，并在这个特定的代码30+分钟) 有什么建议吗？我在网上任何地方都找不到太多的解决方案。我在活动监视器中的CPU在运行这些进程时是稳定的98%，我不知道这是否正常，也不知道如何加快速度。警告：在简单的编码中，我的处理时间不算太糟糕，但似乎当引入算法时，事情就会陷入泥潭，令人沮丧。下面是我正在使用

浏览 2提问于2016-10-25得票数 0

回答已采纳

2回答

文本分类的朴素贝叶斯-Python2.7数据结构问题

python-2.7、data-structures、scikit-learn、nltk、naivebayes

我有一个问题，训练我的天真贝斯分类器。我有一个功能集和目标，我想使用，但我不断地错误。我看过其他有类似问题的人，但我似乎找不出这个问题。我相信有一个简单的解决方案，但我还没有找到。下面是我试图用来训练分类器的数据结构的一个例子。 In [1] >> train[0] Out[1] ({ u'profici': [False], u'saver': [False], u'four': [True], u'protest': [False],

浏览 7提问于2017-04-03得票数 0

回答已采纳

2回答

SklearnClassifier对象没有属性_vectorizer

python、scikit-learn、nltk、pickle

我买了一台新的笔记本电脑，安装了最新版本的NLTK和SciKit-Learn。我使用一个旧脚本进行情感分析，加载了我今年早些时候创建的一个旧泡菜，我收到了下面的错误。似乎来自NLTK的SciKitClassifier包装器现在具有属性_vectorizer，而它以前没有属性。 File "c:\users\yoprado\pycharmprojects\gnip_sentiment\gnip_sentiment\main.py", line 64, in mongoaddsentiment MongoSentiment(mongo_server, mongo_por

浏览 6提问于2014-11-13得票数 3

回答已采纳

1回答

情感分析模型的高精度怀疑

python、scikit-learn、nltk、sentiment-analysis

我正在使用NLTK和scikitlearn构建一个情感分析模型。我已经决定测试几个不同的分类器，以确定哪一个是最准确的，并最终使用它们作为一种手段，以产生一个信心评分。用于这一测试的数据集都是评论，标记为阳性或阴性。我用5,000个评论，5次不同的时间，用6个不同(但非常相似)的数据集训练了每个分类器。每个测试都有5000条新的评论。我平均每个测试和数据集的准确性，以获得一个整体的平均精度。看一看：多项式朴素贝叶斯：91.291% Logistic回归分析：96.103% SVC：95.844% 在某些试验中，准确度高达99.912%。事实上，其中一个数据集的最低平

浏览 1提问于2018-02-07得票数 0

回答已采纳

2回答

使用NLTK WordNet查找专有名词

python、nltk、wordnet

有没有办法用NLTK Wordnet找到专有名词?也就是说，我能用nltk Wordnet标记所有格名词吗？

浏览 1提问于2013-07-16得票数 32

回答已采纳

2回答

如何实现词性(POS)标记器

php、parsing、tags、full-text-search、tagging

我正在寻找最好的基于PHP的方式来扫描大量的文本条目(分类广告)并提取关键字-有人知道词性标记吗？有没有一种PHP式的方法可以做到这一点？我浏览了很多在线分类广告，但都没有分类！为了加快分类过程，我打算安装一个词性标记器()。基本上，这些都是很酷的文本解析算法软件包，它们可以告诉我哪些词是名词(如“公寓”、“汽车”、“狗”等)，以及哪些词是垃圾词，如at、if、和，但是，等等。还有一些在线标签服务--一个是雅虎的，最近似乎没那么受欢迎了--另一个是施乐的。然而，我真的很有兴趣安装我自己的库/软件并将其插入到我的web应用程序中。有没有人知道安装POS标签的好方法，可以与PHP web应用

浏览 0提问于2011-01-21得票数 6

回答已采纳

2回答

在NLTK中选择哪个分类器

nlp、classification、nltk

我想将短信分为几类，如“关系建立”、“协调”、“信息共享”、“知识共享”和“冲突解决”。我正在使用NLTK库来处理这些数据。我想知道nltk中的哪个分类器更适合这个特定的多类分类问题。我计划使用朴素贝叶斯分类，这是可取的吗？

浏览 2提问于2011-07-06得票数 7

回答已采纳

2回答

如何计算python和NLTK中的预测概率？

python、python-3.x、machine-learning、nltk

我试图用LinearSVC和OneVsRestClassifier计算支持向量机模型中的每一种预测概率，但得到了误差。 AttributeError: 'LinearSVC' object has no attribute 'predict_proba' 尝试过的代码： model = Pipeline([('vectorizer', CountVectorizer(ngram_range=(1,2))), ('tfidf', TfidfTransformer(use_idf=True)), ('clf&#

浏览 1提问于2018-10-29得票数 1

回答已采纳

3回答

Python中用于内容分类的Orange vs NLTK

python、machine-learning、nltk、naivebayes、orange

我们需要一个内容分类模块。贝叶斯分类器似乎就是我要找的。我们应该去橙色还是NLTK？

浏览 3提问于2011-01-25得票数 11

回答已采纳

1回答

pos_tag与UnigramTagger和BigramTagger在nltk中有什么区别？

python、nlp、nltk、n-gram

我想把我的手弄脏。我指的是。它指出，nltk.pos_tag函数将词性部分分配给单词列表中的每个单词，并作为参数传递给它。向前看，我发现还有nltk.DefaultTagger、nltk.RegexpTagger、nltk.UnigramTagger和nltk.BigramTagger。我对此感到困惑，为什么我们需要这些taggers，因为nltk.pos_tag在标记词性部分方面做得很好。此外，nltk.pos_tag内部使用哪个标记器进行标记。提前谢谢。

浏览 2提问于2018-01-02得票数 1

回答已采纳

1回答

性能:提高朴素贝叶斯分类器的准确性

python、nltk、text-classification、naivebayes、stemming

我正在开发一个简单的朴素贝叶斯文本分类器，它使用Brown语料库进行测试和训练数据。到目前为止，在没有任何预处理的情况下，我使用简单的方法得到了53%的准确率。为了改进我的分类器，我添加了一些预处理(停用词、词汇化、词干、词性标记)，但我的性能似乎变得更差(11%)。我做错了什么？我刚开始使用Python，所以我非常感谢能得到的任何帮助。 import nltk, random from nltk.corpus import brown, stopwords from nltk.stem.porter import PorterStemmer documents = [(list(brow

浏览 9提问于2017-08-05得票数 0

1回答

ImportError:无法导入重写的名称

python、nltk

因此，我正在尝试使用nltk，并将一切都安装到正确的环境中。当我单独运行import命令时，一切都可以工作，但是当我用ImportError运行所有代码时，就会得到这个错误ImportError。有人知道我怎么解决这个问题吗？帮帮忙，谢谢！ import nltk import random from nltk.classify.scikitlearn import SklearnClassifier import pickle from sklearn.naive_bayes import MultinomialNB, BernoulliNB from sklearn.linear_mode

浏览 0提问于2018-03-21得票数 2

1回答

跳过不带属性的元组Python NLTK

python、python-3.x、pandas、jupyter-notebook、nltk

我有一个脚本，主要是为自然语言工具包工作。它的工作方式是使用NLTK对单个单词进行标记化和标记(分类)。当我的列表包括名称和实体时，它工作得很好。如果列表中包含诸如" the "，"a"，"and“等词性冠词，它就会被分解。这些单词不会从NLTK接收标签(人员、组织、地理位置等)。我的问题是，有一种方法可以跳过元组，这会给我一个错误，因为它们不会返回标签属性？示例数据帧： Order Text results 0 0 John 1 1 Paul 2 2 George 3 3 Ring

浏览 21提问于2020-05-06得票数 0

1回答

如何训练以pos序列为特征的朴素贝叶斯分类器？

machine-learning、nltk、stanford-nlp、text-classification、naivebayes

我有两类句子。每一个都有相当不同的pos序列。如何训练带有POS标签序列的朴素贝叶斯分类器？Stanford /NLTK (Java或Python)提供了以pos作为特性构建分类器的方法吗？我知道在python中，NaiveBayesClassifier允许构建一个NB分类器，但是它使用contains-a-word作为特性，但是它可以扩展到使用pos序列作为一个特性吗？

浏览 1提问于2015-02-27得票数 6

回答已采纳

1回答

python -使用nltk和scikit从文本中为标记云选择最相关的单词--学习

python、data-mining、nltk、text-mining、scikit-learn

为了准备一个标签云，我想从文本中获取最相关的单词。我使用了来自scikit-learn包的CountVectoriser： cv = CountVectorizer(min_df=1, charset_error="ignore", stop_words="english", max_features=200) 这很好，因为它给了我词汇和频率： counts = cv.fit_transform([text]).toarray().ravel() words = np.array(cv.get_feature_names()) 我可以过滤掉不常出现的词

浏览 4提问于2013-02-07得票数 3

1回答

错误地使用nltk "python 3.7.4“进行词条分类

nltk、python-3.7、lemmatization

我正在使用nltk lemmatizer，但每次都得到错误的结果!！ >>> import nltk >>> from nltk.stem import WordNetLemmatizer >>> print(WordNetLemmatizer().lemmatize('loved')) loved >>> print(WordNetLemmatizer().lemmatize('creating')) creating 输出为'loved'/ 'creating&

浏览 19提问于2019-10-12得票数 1

回答已采纳

1回答

TextBlob和NLTK分类器有什么区别？

nlp、nltk

我正在实现一个文本分类器，我用NLTK和TextBlob找到了分类器。这些包的分类器之间有什么区别？例如，Textblob的NaiveBayesClassifier和Nltk的有区别吗？谢谢。

浏览 1提问于2019-07-04得票数 2

回答已采纳

1回答

MaxEnt分类器在java语言中的实现

java、nlp、maxent

我想训练一个MaxEnt分类器而不是训练语料库。我的特点是句法和语义，如POS标签或纳标签，等等。在Java中是否有任何支持定义这些特性的MaxEnt分类器实现？

浏览 1提问于2015-06-11得票数 0

回答已采纳

1回答

NLTK词性标注使用我自己的标记语料库？

python、nlp、nltk

我试图使用NLTK为多斯拉基语言编写一个基本POS标签。与布朗语料库类似，我有自己的.txt文件，包含单词及其相关的词性部分。例如..。 Anha/PRP vidrik/VBP khalasares/NN anni/NN jim/NN 我想要做的是把这个语料库加载到NLTK，并且能够在单词旁边看到词性部分，类似于Brown语料库是如何做到的。所以这就是我要做的 from nltk.corpus.reader import TaggedCorpusReader corpus_root = '...' dothraki_corpus_tagged = TaggedCorp

浏览 0提问于2018-05-03得票数 1

回答已采纳