NotFittedError: CountVectorizer -词汇表不适用。在执行情感分析时

文章/答案/技术大牛

发布

1回答

、、、、

当使用数据执行情感分析时- http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz 该数据集包含25K训练和测试数据(12.5条正面评论和12.5条负面评论)，我不断获得- NotFittedError: CountVectorizer - Vocabulary wasn't fitted.‘’])') def tokenize(s): r

浏览 33提问于2021-01-09得票数 0

回答已采纳

4回答

如何避免标记w/ sklearn特征提取

、、、

我试图分析一些机器日志文件，而我正在查看的列可以具有‘Part.C1.11读取状态’这样的值。我想把完整的字符串看作一个标记，我不希望它被分割成'Part‘、'C1’、'11‘和'Reading#’和'Status‘。cvo = CountVectorizer(token_pattern='^然而，最后一行抛出一个错误: ValueError:空词汇表；也许文档只包含停止词我还试图在token_pattern中明确地包括点和空格|\s"

浏览 0提问于2019-07-02得票数 1

回答已采纳

1回答

转储程序上的MemoryError

、、、

我们的数据集是巨大的(1300万个文档+词汇表中的1800万单词)，但在我看来，执行中抛出错误的点非常奇怪。y = encoder.fit_transform(categories)我拿到了这条线上的MemoryError： joblib.dump(vectorizer, modelpath.joinpath('

浏览 1提问于2018-03-26得票数 2

回答已采纳

2回答

我的朴素贝叶斯分类器适用于我的模型，但不接受应用程序的用户输入。

、、、、

我正在尝试将我的机器学习朴素贝叶斯情感分析模型部署到一个web应用程序中。其思想是，用户应该键入一些文本，应用程序对这些文本执行情感分析，然后在数据库中的另一列中存储带有指定情感的文本，以便稍后通过html调用为列表。虽然该模型和向量器在Google上运行良好，但当我将模型加载到我的应用程序并尝试通过它运行用户输入时，它将无法工作。根据我尝试过的不同的解决方案，我得到了许多错误代码。但是，当我试图修复这个问题时，我会得到其他错误消息，例如： '

浏览 13提问于2021-12-23得票数 1

回答已采纳

2回答

NLP情感分析中的TF-下手向量大小法

、、、、

我对NLP和情感分析还比较陌生，但我参加了机器学习课程，并且正在创建一个情感分析NLP，它将阅读一篇金融文章，并确定总体情绪是好还是坏。目前，我有一个大约2000篇文章的数据集。我的问题是，我如何确定这个词汇表？我发现的一种方法是实现预处理(消除停止词、噪音词、标点符号等)。然后在训练集的每一篇文章中使用所有的单词。如果是的话，是否有更好的方法来创建词汇表？

浏览 0提问于2018-04-17得票数 2

回答已采纳

1回答

基于词到标签相关性的情感分析特征选择

、、

在我对194k个带有标签(类别1-5)的评论文本的数据集进行情感分析时，我试图减少基于单词到标签相关性的特征(单词)，通过这些特征可以训练分类器。使用带有默认参数化的sklearn.feature_extraction.text.CountVectorizer，我得到了86,7k的特性。在执行fit_transform时，我得到了一个CSR稀疏矩阵，我试图使用toarray()将其放入数据帧中。遗憾的是，大小为(194339,86719)的数组会导致

浏览 26提问于2020-09-16得票数 0

回答已采纳

2回答

滑雪板中带有词包和附加情感特征的文本分类器

、、

我正在尝试构建一个分类器，除了使用单词包，还使用情感或主题等特征(LDA结果)。我有一个熊猫DataFrame的文本和标签，并希望添加一个情感值(数值在-5和5之间)和结果的LDA分析(一个字符串与主题的句子)。我有一个工作包的单词分类器，使用CountVectorizer从学习和执行MultinomialNaiveBayes的分类。编辑:在添加了@Guiem建议的行之后，提出了一个关于新特性权重的新问题。这个编辑增加了这个新问题：我的列车矩阵的形状是(2554, 5

浏览 6提问于2016-02-07得票数 3

回答已采纳

1回答

turicreate.text_analytics.count_words的使用

、、、

validation_set=test_data) 分类器？我试着阅读“ for turicreate.text_analytics.count_words”，但我想我不明白。

浏览 8提问于2021-01-31得票数 2

回答已采纳

4回答

在星火中，HashingTF和CountVectorizer有什么区别？

、、

试着在星火中进行医生分类。我不确定散列在HashingTF中的作用是什么；它是否牺牲了任何准确性？我怀疑，但我不知道。火花科医生说它使用了“哈希技巧”..。CountVectorizer还需要设置词汇表大小，但它有另一个参数，即一个阈值参数，可用于排除文本语料库中出现在某个阈值以下的单词或标记。我不明白这两台变形金刚之间的区别。例如，如果我想对生成的tfidf矩阵执行SVD，那么词汇表大小将决定SVD的矩阵大小，这会影响代码的运行时间和模型性能等。我很难在API文档和没

浏览 13提问于2016-02-04得票数 25

回答已采纳

4回答

如何改进ML模型以提高精度

、、

我正在编写一个处理情感分析的python脚本，我对文本进行了预处理，并对分类特性进行了矢量化并拆分了数据集，然后使用LogisticRegression模型，获得了准确性84%的。当我上传一个新的数据集并尝试部署创建的模型时，我获得了的准确性51，84%的 import pandas as pd importnltk.tokenize import word_tokenize from sklearn.feature_extraction.text import

浏览 6提问于2020-08-24得票数 0

1回答

intellij中的SonarQube在运行分析时不获取单元测试分支覆盖率

、、

我已经在intellij中安装了SonarQube插件，并将我的项目与声纳服务器相关联。当我提交单元测试时，服务器会告诉我每个类的分支覆盖率和更新。但是，当我运行一个本地分析时(右键单击项目-> analysis ->运行检查的名称-> SonarQube)，SonarQube告诉我所有类的X more branches need to be covered

浏览 5提问于2014-10-30得票数 5

回答已采纳

1回答

我如何能够自动建立所有术语与同一术语名称之间的术语关系？

、、

我有多个分类法术语，它们具有相同的“术语名称”(具有不同的TID)。我需要在所有术语之间建立术语关系，用相同的术语名称。 term-A (tid=2) term-B (tid=4) term-B (tid=6) 我有什么办法可以自动做到这一点吗？由于我有数千个这样的术语，

浏览 0提问于2012-04-11得票数 0

回答已采纳

1回答

训练LSTM模型

、、、、

我正在尝试训练我的lstm模型，但在准确性、精确度、召回率和f1得分方面都得了0分。我从kaggle下载了心脏病数据集。代码如下： import tensorflow as tfimport numpy as npfrom sklearn.model_selection import train_test_split from sklearn.metrics import f1_score, accuracy_score, recall_score, precision_scor

浏览 23提问于2019-02-26得票数 1

2回答

开始第二次木星笔记本，第一次中断

、、

我知道在上面显示情感是严格禁止的，这将被编辑，但是哇，木星笔记本是很酷的！在笔记本2中，我开始讨论不同的度量标准，以显示回归模型的有效性。然后我想要执行一些代码来计算这些指标..。但是回归模型的所有代码都在最后一本笔记本上，我无法访问它。有没有办法把这两本笔记本连在一起，这

浏览 2提问于2020-03-12得票数 0

回答已采纳

3回答

在TFS2010上设置代码分析时不可见的编译错误

、、

当构建中出现错误(或测试失败)时，TFS报告中唯一可用的错误是有什么想法吗？

浏览 6提问于2011-09-13得票数 2

回答已采纳

3回答

schema.org如何在自然语言处理中提供帮助

、

我基本上是在nlp上工作，从网页上收集基于兴趣的数据。我浏览了文档，从中我可以看到它添加了额外的标签属性来标识html标签内容。它说: Schema.org提供了一个共享词汇表的集合，网站管理员可以使用它们来标记他们的页面，这些方式可以被主要的搜索引擎理解:谷歌，微软，Yandex和雅虎！

浏览 1提问于2014-08-18得票数 1

1回答

是什么原因导致ruby NoMethodError回溯这么慢？

、

一开始，我想这可能是“你是指”宝石，所以我在命令行上关闭了--禁用--你的意思是什么，并且关闭了“你是指”的建议，但是没有任何东西加速了回溯。有趣的是，这只适用于NoMethodError。在经济放缓期间，没有执行任何行RUBY代码。在此之前的所有行，“在回溯”已经在一秒左右的时间内执行。然后系统挂起，介于puts和NoMethodError之间。在配置文件之间没有红宝石代码，所以任何查看用我的ruby脚本编写的代码的分析器都不会有

浏览 8提问于2022-04-22得票数 1

1回答

如何检测在CPU上执行哪些指令？

、、

有人知道我能检测到哪些CPU指令正在被执行吗？我特别感兴趣的是检测AES指令实现了最近的英特尔和AMD CPU。会不会是f.e。是否可以编写一个检测这些指令的内核模块？

浏览 0提问于2017-04-30得票数 0

回答已采纳

1回答

用ngram计算句子的情感得分

我有一个问题，涉及到每条推文的情感分析，或者任何正在使用的句子。现在我有一个单位和一个双克。字号：-3乐趣:4我的问题是，当我从句子中的单字和双字母中寻找单词时，应该优先选择哪一个？最理想的是。对吗？

浏览 3提问于2014-08-19得票数 1

1回答

在地理数据库中运行OpenFOAM并行应用程序

、、、

我正在尝试逐步介绍一个OpenFOAM应用程序(在本例中是icoFoam，但这个问题通常适用于任何OpenFOAM应用程序)。我想使用gdb单步执行并行运行的分析(比方说，两个proc)。但我在并行启动icoFoam和调试它时遇到了问题，因为我不知道如何在应用程序开始执行之前设置断点。我知道我可以做的一件事是在MPI_Initialize后面插入一段代码，它会一直等到我在gdb中更改某些变量(以及无限循环)。但我不

浏览 1提问于2013-04-11得票数 1

点击加载更多