我试图在nltk.SklearnClassifier包装器中创建一个sklearn分类器,并遇到了这个问题:如果我们不立即训练分类器(所有的教程都是这样做的)并一次训练一个数据,它会删除并破坏以前对分类器所做的训练吗?我希望我说得很清楚,但如果不是这样,这里有一些代码需要解释。
from nltk.classify.scikitlearn import SklearnClassifier
from sklearn.naive_bayes import MultinomialNB
class classifier(object):
def __init__(self,c):
我正在尝试使用nltk以一种非常低保真的方式对新闻文章进行自动分类。我已经创建了一个与我的类别相关的词/标签对的自定义语料库(即,教师/教育、计算机/技术等)我一直在到处阅读,让我非常接近,但我仍然被卡住了。
根据我到目前为止的代码,我如何使用标记器来标记我的句子?
import nltk
# Loads my custom word/tag corpus
from nltk.corpus.reader import TaggedCorpusReader
reader = TaggedCorpusReader('taggers','.*')
#Sets up
我正在尝试编写一个仇恨语音检测代码,但我遇到了一个问题。我从使用pyhton 2的源码中得到了错误SklearnClassifier' object has no attribute 'fit',但我使用的是python3,也许问题就是因为这个而发生的,但我无法解决这个问题。我如何解决这个问题? training_set = nltk.classify.apply_features(extract_features, train_tweets)
classifier = nltk.NaiveBayesClassifier.train(training_set)
f
我想使用从nltk.pos_tag返回的词性部分(POS)作为学习分类器,如何将它们转换成向量并使用它?例如:
sent =“这是POS示例”
Tok=nltk.tokenize.word_tokenize(发送) pos=nltk.pos_tag(tok)打印(pos)
它返回如下(' This ','DT'),('is','VBZ'),('POS','NNP'),(‘示例’,'NN')
现在,我无法应用任何一个向量器(DictVectorizer,或FeatureHasher,C
我在做文本分类任务时遇到了一个问题。我已经使用词袋方法选择了1000个最佳特征集。现在我想使用基于词性、平均词长等的另一个功能。在我想将这些功能组合在一起之后。我正在使用Python,NLTK,Scikit包。这是我的第一个python项目,所以代码可能不是很好。
提前谢谢你,
import nltk
from nltk.corpus.reader import CategorizedPlaintextCorpusReader
from sklearn.feature_extraction.text import TfidfVectorizer
import o
我想知道一个句子在python中是否真的有意义。例如
Hello, how are you today? --> Correct
Hello, are today are how --> Incorrect
到目前为止,我已经有了这段代码,它执行以下操作:
1-从nltk.browns语料库中获取20000个句子。
2-混淆最后10000个句子的单词(用于不正确的数据)
3-使用斯坦福词性标记器标记所有句子
from nltk.corpus import brown
from nltk.tokenize import sent_tokenize, word_tokenize
fro
我对MUC数据集有问题。我想对此执行NER,但此数据集中的所有单词都是大写字母,因此当运行pos_tagger时,它会将所有错误的单词检测为名词。为了解决这个问题,整个文本最初都变成了小写。然而,这种方式带来了另一个问题;如果文本是小写字母,则NER不能正常工作,并且从字面上找不到“人、组织或位置”。因此,保留了整个文本到小写的转换,以便能够成功地pos_tag,然后执行每个单词的手动大写,以将它们提供给NER模块。但另一个问题出现了,这一次NER检测到的一切都是位置。下面是我的代码:
import nltk
from nltk.tokenize import word_tokenize, s
我是学习NLP的初学者。我读到过CFG,我想把它应用于自上而下的解析和自下而上的解析。我从自上而下的解析开始。我想用nltk和python36绘制自上而下的解析树。我写了下面的代码,但是它不能工作。出了什么问题?有没有人可以帮我增强代码?
import nltk
from nltk.tag import pos_tag
from nltk.tokenize import word_tokenize
from nltk.tree import *
from nltk.draw import tree
from nltk import Nonterminal, nonterminals, Prod
我对编程很陌生,但我一遍又一遍地看我的代码,看不到任何错误。我不知道如何继续下去,因为无论我尝试什么,这个错误都会弹出。我会把完整的代码贴在这里。
任何帮助都将不胜感激,谢谢!
import nltk
import random
from nltk.corpus import movie_reviews
import pickle
from nltk.classify.scikitlearn import SklearnClassifier
from sklearn.naive_bayes import MultinomialNB,BernoulliNB
from sklearn.linear
我买了一台新的笔记本电脑,安装了最新版本的NLTK和SciKit-Learn。我使用一个旧脚本进行情感分析,加载了我今年早些时候创建的一个旧泡菜,我收到了下面的错误。似乎来自NLTK的SciKitClassifier包装器现在具有属性_vectorizer,而它以前没有属性。
File "c:\users\yoprado\pycharmprojects\gnip_sentiment\gnip_sentiment\main.py", line 64, in mongoaddsentiment
MongoSentiment(mongo_server, mongo_por
因此,我正在尝试使用nltk,并将一切都安装到正确的环境中。当我单独运行import命令时,一切都可以工作,但是当我用ImportError运行所有代码时,就会得到这个错误ImportError。有人知道我怎么解决这个问题吗?帮帮忙,谢谢!
import nltk
import random
from nltk.classify.scikitlearn import SklearnClassifier
import pickle
from sklearn.naive_bayes import MultinomialNB, BernoulliNB
from sklearn.linear_mode
我有一个脚本,主要是为自然语言工具包工作。它的工作方式是使用NLTK对单个单词进行标记化和标记(分类)。
当我的列表包括名称和实体时,它工作得很好。
如果列表中包含诸如" the ","a","and“等词性冠词,它就会被分解。
这些单词不会从NLTK接收标签(人员、组织、地理位置等)。
我的问题是,有一种方法可以跳过元组,这会给我一个错误,因为它们不会返回标签属性?
示例数据帧:
Order Text results
0 0 John
1 1 Paul
2 2 George
3 3 Ring