腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
CountVectorizer
如何
处理
测试数据
中
的
新词
?
、
、
、
、
我大体上理解
CountVectorizer
的
工作原理。它接受word标记并创建文档(行)和标记计数(列)
的
稀疏计数矩阵,我们可以将其用于ML建模。然而,它
如何
处理
可能出现在
测试数据
中
的
新词
,而这些
新词
没有出现在训练数据
中
?它会忽略它们吗?此外,从建模
的
角度来看,是否应该假设如果某些单词非常罕见,以至于它们根本没有出现在训练数据
中
,并且它们与您可能执行
的</
浏览 16
提问于2021-02-16
得票数 2
1
回答
用一些没有在训练集中
的
单词来预测分类(朴素贝叶斯)
、
、
、
我被创建了一个朴素
的
Bayes模型来预测结果是“负”还是“正”。我遇到
的
问题是在一个新
的
数据集上运行模型,其中一些词不在模型
中
。我在预测新数据集时收到
的
错误是:我读到,我必须在我
的
模型中放置一个Laplace平滑器,Bernoulli()已经有一个默认
的
alpha值为1,我还能做些什么来修复我
的
错误呢?谢谢 from nltk.corpus import stopword
浏览 4
提问于2015-04-14
得票数 2
回答已采纳
1
回答
NLP -字袋分类
、
、
问题: LabeledWords.append({'word':'Church'
浏览 2
提问于2018-05-28
得票数 0
回答已采纳
4
回答
CountVectorizer
矩阵会随着新
的
测试数据
而变化,以进行分类吗?
、
、
我有一个
CountVectorizer
,它产生了一个2034行4063列(唯一
的
单词)
的
文档术语矩阵。我保存了用于新
测试数据
的
模型。我
的
新
测试数据
但问题是,我将上面的
测试数据
标记转换为特征向量,但它
的
形状不同。因为模型期望
的
向量是4063。我
浏览 0
提问于2015-05-17
得票数 2
1
回答
使用
CountVectorizer
实现python
中
的
内存错误
、
、
、
下面是我调用todense()时
的
代码和内存错误,我使用
的
是GBDT模型,并且想知道是否有人有好
的
想法
如何
处理
内存错误?谢谢。for feature_colunm_name in feature_columns_to_use: X_test[feature_colunm
浏览 0
提问于2018-09-05
得票数 1
回答已采纳
1
回答
CountVectorizer
删除只出现一次
的
功能
、
、
、
我正在使用sklearn python包,而且我很难用预先创建
的
字典创建
CountVectorizer
,其中
CountVectorizer
不会删除只出现一次或根本不出现
的
特性。train_count_vect.get_feature_names())输出89967 len(test_count_vect.get_feature_names())输出9833 在setup_data()函数
中
,我只是在初始化
CountVectorizer
。对于训练数据,我是在没有预设词汇表
的</em
浏览 0
提问于2015-02-21
得票数 2
回答已采纳
1
回答
尝试使用朴素贝叶斯进行预测时出现不匹配维度错误
、
、
、
、
import pandas as pdtfidf_testing_feature_matrix=feature_selection_vector( sentence_data, sentiments ): #creates the f
浏览 14
提问于2021-03-03
得票数 0
1
回答
文本分类测试NLTK python
、
、
、
我已经使用泡菜包将模型保存到一个文件
中
。现在,我想知道
如何
使用这个模型像一个随机文本一样测试,而不是在数据集中,而模型会判断句子是否属于哪一类?和我
的
想法一样,我有句话:“罗纳尔多在对埃及
的
比赛中进了两个球”,并将其传递给模型档案,并将其归为“体育”。
浏览 0
提问于2018-03-26
得票数 0
回答已采纳
1
回答
如何
提高支持向量机对文本分类和映射
的
准确性?
、
、
我正在
处理
一个问题,在这个问题上,我需要预测与培训数据文件
中
的
另一个文本相对应
的
文本。例如:如果我
的
值类似于我
的
一个列
中
的
软件,而另一个相应
的
列
中
包含一个值adobe,那么我
的
算法也应该能够对我
的
测试数据
进行预测。例如,如果我
的
测试数据
有Tableau,那么预测
的
类别应该是对应于它
的
软件。这里
浏览 0
提问于2019-08-10
得票数 2
2
回答
如何
用从培训集创建
的
文档项矩阵来表示
测试数据
中
的
文档?
、
、
、
我使用训练集中每个文档
的
向量表示(即文档项矩阵
中
的
一行)来构建文档分类器。现在我需要测试
测试数据
上
的
模型。但是,我
如何
用文档术语矩阵来表示一个新文档,因为有些术语可能不包含在培训数据
中
?
浏览 0
提问于2020-05-05
得票数 2
1
回答
对于相同
的
数据集,one_hot_encode和count_vectorizer之间
的
精确度有何不同?
、
、
、
onehot_enc,BernoulliNB:print("recall_score :" , recall_score) //97%
CountVectorizer
但
浏览 1
提问于2018-09-11
得票数 0
回答已采纳
1
回答
在训练和
测试数据
上拟合
CountVectorizer
,不会遗漏任何单词
、
、
、
、
我有一个训练日期集,我知道分类
的
标签,而
测试数据
集我没有标签。 vectorizer =
CountVectorizer
(encoding='str', stop_words="english", analyzer='word')
浏览 18
提问于2021-11-14
得票数 0
1
回答
PySpark:不能对CountVectorizerModel - TypeError:不能序列化套接字对象(但是为什么要使用套接字库?)
、
、
、
、
我注意到,与Sci-kit学习
中
不同
的
是,
CountVectorizer
的
CountVectorizer
实现使用套接字库,因此我无法对其进行筛选。我试着查看
CountVectorizer
源代码,但看不到套接字库
的
任何明显用途。"
浏览 2
提问于2022-03-24
得票数 0
回答已采纳
2
回答
如何
使用保存
的
文本分类模型对新
的
文本数据集进行预测
、
、
、
/output/model.h5')谢谢
浏览 0
提问于2020-10-11
得票数 0
3
回答
如何
用scikit学习评估基于文本
的
模型?
、
、
我有以下带有数据
的
数据:1079 COMPUTER long text.... 3from sklearn.feature_extraction.text import TfidfTransformer from sklearn.naive_bayesX_test, y_train, y_test
浏览 0
提问于2018-11-25
得票数 1
回答已采纳
1
回答
python -使用nltk和scikit从文本
中
为标记云选择最相关
的
单词--学习
、
、
、
、
为了准备一个标签云,我想从文本
中
获取最相关
的
单词。我使用了来自scikit-learn包
的
CountVectoriser: stop_wordscounts = cv.fit_transform([text]).toarray().ravel()我可以过滤掉不常出现
的
词我
的</e
浏览 4
提问于2013-02-07
得票数 3
1
回答
测试和训练数据集具有不同数量
的
要素
、
、
、
、
我正在尝试用一些训练和
测试数据
训练支持向量机模型。因此,测试集自然比trainset.so具有更多
的
特征数,其给定值误差。preprocess(): testData=load_file() count_vectorizer
浏览 0
提问于2016-11-22
得票数 3
1
回答
当您将模型应用于实际数据时,
如何
检查ML
中
的
模型是否对数据集有好处?
、
、
、
、
我有一个python脚本,它将文本分为正
的
或负
的
。我有一个数据集,在对我得到
的
文本进行预
处理
之后,我将它分割成训练和
测试数据
。对训练数据
的
准确率为91%
测试数据
的
准确性为87%
测试数据
浏览 6
提问于2020-07-22
得票数 0
1
回答
获取doc2vec
中
未见段落
的
段落表示形式
、
、
然而,doc2vec
的
gensim实现似乎需要在训练模型之前查看所有文档(训练和测试)来构建词汇表。否则,如果要获取构建词汇表时不存在
的
文档
的
文档向量,则会得到keyerror。我想知道我
的
理解是否正确!在实践
中
,人们无法在训练时访问
测试数据
。 有没有办法在测试时更
新词
汇表,以便能够获得测试文档
的
文档表示?
浏览 1
提问于2016-05-01
得票数 2
1
回答
如何
使用管道获取
CountVectorizer
词汇表
、
、
、
通常,当我只使用
CountVectorizer
时,我可以将词汇表用作
CountVectorizer
的
新对象
的
参数,以便在预测之前
处理
新数据 cv =
CountVectorizer
()cv_dict = cv.vocabulary_test_X= test_cv.fit_transform(te
浏览 29
提问于2019-05-29
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
软件测试中,如何构造测试数据?
自动化测试中,测试数据如何管理?
网站中的死链如何处理?
如何快速处理闲置的中欣卡
如何处理闲置的中欣卡
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券