腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(1552)
视频
沙龙
1
回答
NotFittedError
:
CountVectorizer
-
词汇表
不
适用
。
在
执行
情感
分析
时
、
、
、
、
当使用数据
执行
情感
分析
时
- http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz 该数据集包含25K训练和测试数据(12.5条正面评论和12.5条负面评论),我不断获得-
NotFittedError
:
CountVectorizer
- Vocabulary wasn't fitted.‘’])') def tokenize(s): r
浏览 33
提问于2021-01-09
得票数 0
回答已采纳
4
回答
如何避免标记w/ sklearn特征提取
、
、
、
我试图
分析
一些机器日志文件,而我正在查看的列可以具有‘Part.C1.11读取状态’这样的值。我想把完整的字符串看作一个标记,我
不
希望它被分割成'Part‘、'C1’、'11‘和'Reading#’和'Status‘。cvo =
CountVectorizer
(token_pattern='^然而,最后一行抛出一个错误: ValueError:空
词汇表
;也许文档只包含停止词我还试图
在
token_pattern中明确地包括点和空格|\s"
浏览 0
提问于2019-07-02
得票数 1
回答已采纳
1
回答
转储程序上的MemoryError
、
、
、
我们的数据集是巨大的(1300万个文档+
词汇表
中的1800万单词),但在我看来,
执行
中抛出错误的点非常奇怪。y = encoder.fit_transform(categories)我拿到了这条线上的MemoryError: joblib.dump(vectorizer, modelpath.joinpath('
浏览 1
提问于2018-03-26
得票数 2
回答已采纳
2
回答
我的朴素贝叶斯分类器
适用
于我的模型,但不接受应用程序的用户输入。
、
、
、
、
我正在尝试将我的机器学习朴素贝叶斯
情感
分析
模型部署到一个web应用程序中。其思想是,用户应该键入一些文本,应用程序对这些文本
执行
情感
分析
,然后在数据库中的另一列中存储带有指定
情感
的文本,以便稍后通过html调用为列表。虽然该模型和向量器
在
Google上运行良好,但当我将模型加载到我的应用程序并尝试通过它运行用户输入时,它将无法工作。根据我尝试过的不同的解决方案,我得到了许多错误代码。但是,当我试图修复这个问题
时
,我会得到其他错误消息,例如: '
浏览 13
提问于2021-12-23
得票数 1
回答已采纳
2
回答
NLP
情感
分析
中的TF-下手向量大小法
、
、
、
、
我对NLP和
情感
分析
还比较陌生,但我参加了机器学习课程,并且正在创建一个
情感
分析
NLP,它将阅读一篇金融文章,并确定总体情绪是好还是坏。 目前,我有一个大约2000篇文章的数据集。我的问题是,我如何确定这个
词汇表
?我发现的一种方法是实现预处理(消除停止词、噪音词、标点符号等)。然后
在
训练集的每一篇文章中使用所有的单词。如果是的话,是否有更好的方法来创建
词汇表
?
浏览 0
提问于2018-04-17
得票数 2
回答已采纳
1
回答
基于词到标签相关性的
情感
分析
特征选择
、
、
在
我对194k个带有标签(类别1-5)的评论文本的数据集进行
情感
分析
时
,我试图减少基于单词到标签相关性的特征(单词),通过这些特征可以训练分类器。使用带有默认参数化的sklearn.feature_extraction.text.
CountVectorizer
,我得到了86,7k的特性。
在
执行
fit_transform
时
,我得到了一个CSR稀疏矩阵,我试图使用toarray()将其放入数据帧中。 遗憾的是,大小为(194339,86719)的数组会导致
浏览 26
提问于2020-09-16
得票数 0
回答已采纳
2
回答
滑雪板中带有词包和附加
情感
特征的文本分类器
、
、
我正在尝试构建一个分类器,除了使用单词包,还使用
情感
或主题等特征(LDA结果)。我有一个熊猫DataFrame的文本和标签,并希望添加一个
情感
值(数值
在
-5和5之间)和结果的LDA
分析
(一个字符串与主题的句子)。我有一个工作包的单词分类器,使用
CountVectorizer
从学习和
执行
MultinomialNaiveBayes的分类。编辑:
在
添加了@Guiem建议的行之后,提出了一个关于新特性权重的新问题。这个编辑增加了这个新问题: 我的列车矩阵的形状是(2554, 5
浏览 6
提问于2016-02-07
得票数 3
回答已采纳
1
回答
turicreate.text_analytics.count_words的使用
、
、
、
validation_set=test_data) 分类器? 我试着阅读“ for turicreate.text_analytics.count_words”,但我想我不明白。
浏览 8
提问于2021-01-31
得票数 2
回答已采纳
4
回答
在
星火中,HashingTF和
CountVectorizer
有什么区别?
、
、
试着
在
星火中进行医生分类。我不确定散列
在
HashingTF中的作用是什么;它是否牺牲了任何准确性?我怀疑,但我不知道。火花科医生说它使用了“哈希技巧”..。
CountVectorizer
还需要设置
词汇表
大小,但它有另一个参数,即一个阈值参数,可用于排除文本语料库中出现在某个阈值以下的单词或标记。我不明白这两台变形金刚之间的区别。例如,如果我想对生成的tfidf矩阵
执行
SVD,那么
词汇表
大小将决定SVD的矩阵大小,这会影响代码的运行时间和模型性能等。我很难
在
API文档和没
浏览 13
提问于2016-02-04
得票数 25
回答已采纳
4
回答
如何改进ML模型以提高精度
、
、
我正在编写一个处理
情感
分析
的python脚本,我对文本进行了预处理,并对分类特性进行了矢量化并拆分了数据集,然后使用LogisticRegression模型,获得了准确性84%的。当我上传一个新的数据集并尝试部署创建的模型
时
,我获得了的准确性51,84%的 import pandas as pd importnltk.tokenize import word_tokenize from sklearn.feature_extraction.text import
浏览 6
提问于2020-08-24
得票数 0
1
回答
intellij中的SonarQube在运行
分析
时
不
获取单元测试分支覆盖率
、
、
我已经
在
intellij中安装了SonarQube插件,并将我的项目与声纳服务器相关联。当我提交单元测试
时
,服务器会告诉我每个类的分支覆盖率和更新。但是,当我运行一个本地
分析
时
(右键单击项目-> analysis ->运行检查的名称-> SonarQube),SonarQube告诉我所有类的X more branches need to be covered
浏览 5
提问于2014-10-30
得票数 5
回答已采纳
1
回答
我如何能够自动建立所有术语与同一术语名称之间的术语关系?
、
、
我有多个分类法术语,它们具有相同的“术语名称”(具有不同的TID)。我需要在所有术语之间建立术语关系,用相同的术语名称。 term-A (tid=2) term-B (tid=4) term-B (tid=6) 我有什么办法可以自动做到这一点吗?由于我有数千个这样的术语,
浏览 0
提问于2012-04-11
得票数 0
回答已采纳
1
回答
训练LSTM模型
、
、
、
、
我正在尝试训练我的lstm模型,但在准确性、精确度、召回率和f1得分方面都得了0分。我从kaggle下载了心脏病数据集。代码如下: import tensorflow as tfimport numpy as npfrom sklearn.model_selection import train_test_split from sklearn.metrics import f1_score, accuracy_score, recall_score, precision_scor
浏览 23
提问于2019-02-26
得票数 1
2
回答
开始第二次木星笔记本,第一次中断
、
、
我知道在上面显示
情感
是严格禁止的,这将被编辑,但是哇,木星笔记本是很酷的!
在
笔记本2中,我开始讨论不同的度量标准,以显示回归模型的有效性。然后我想要
执行
一些代码来计算这些指标..。但是回归模型的所有代码都在最后一本笔记本上,我无法访问它。有没有办法把这两本笔记本连在一起,这
浏览 2
提问于2020-03-12
得票数 0
回答已采纳
3
回答
在
TFS2010上设置代码
分析
时
不可见的编译错误
、
、
当构建中出现错误(或测试失败)
时
,TFS报告中唯一可用的错误是有什么想法吗?
浏览 6
提问于2011-09-13
得票数 2
回答已采纳
3
回答
schema.org如何在自然语言处理中提供帮助
、
我基本上是
在
nlp上工作,从网页上收集基于兴趣的数据。我浏览了文档,从中我可以看到它添加了额外的标签属性来标识html标签内容。它说: Schema.org提供了一个共享
词汇表
的集合,网站管理员可以使用它们来标记他们的页面,这些方式可以被主要的搜索引擎理解:谷歌,微软,Yandex和雅虎!
浏览 1
提问于2014-08-18
得票数 1
1
回答
是什么原因导致ruby NoMethodError回溯这么慢?
、
一开始,我想这可能是“你是指”宝石,所以我
在
命令行上关闭了--禁用--你的意思是什么,并且关闭了“你是指”的建议,但是没有任何东西加速了回溯。 有趣的是,这只
适用
于NoMethodError。
在
经济放缓期间,没有
执行
任何行RUBY代码。在此之前的所有行,“
在
回溯”已经
在
一秒左右的时间内
执行
。然后系统挂起,介于puts和NoMethodError之间。
在
配置文件之间没有红宝石代码,所以任何查看用我的ruby脚本编写的代码的
分析
器都不会有
浏览 8
提问于2022-04-22
得票数 1
1
回答
如何检测
在
CPU上
执行
哪些指令?
、
、
有人知道我能检测到哪些CPU指令正在被
执行
吗? 我特别感兴趣的是检测AES指令实现了最近的英特尔和AMD CPU。会不会是f.e。是否可以编写一个检测这些指令的内核模块?
浏览 0
提问于2017-04-30
得票数 0
回答已采纳
1
回答
用ngram计算句子的
情感
得分
我有一个问题,涉及到每条推文的
情感
分析
,或者任何正在使用的句子。现在我有一个单位和一个双克。字号:-3乐趣:4我的问题是,当我从句子中的单字和双字母中寻找单词
时
,应该优先选择哪一个?最理想的是。对吗?
浏览 3
提问于2014-08-19
得票数 1
1
回答
在
地理数据库中运行OpenFOAM并行应用程序
、
、
、
我正在尝试逐步介绍一个OpenFOAM应用程序(
在
本例中是icoFoam,但这个问题通常
适用
于任何OpenFOAM应用程序)。 我想使用gdb单步
执行
并行运行的
分析
(比方说,两个proc)。但我
在
并行启动icoFoam和调试它
时
遇到了问题,因为我不知道如何在应用程序开始
执行
之前设置断点。我知道我可以做的一件事是
在
MPI_Initialize后面插入一段代码,它会一直等到我
在
gdb中更改某些变量(以及无限循环)。但我
不
浏览 1
提问于2013-04-11
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券