腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
对
聚合
数据
使用
CountVectorizer
?
、
、
、
、
数据
集如下所示:我想
使用
此信息来构建标签的词袋表示,其中对于每个标签,我都有一个列,其中包含该标签在给定书籍中出现的次数。提前感谢!
浏览 27
提问于2019-08-12
得票数 0
回答已采纳
1
回答
NLP -字袋分类
、
、
问题: 我很困惑,为什么我们转换我们的测试
数据
使用
CountVectorizer
安装在我们的火车
数据
,以袋词分类。为什么我们不创建一个新的
CountVectorizer
,并将测试
数据
与此相匹配,并让分类器在测试
CountVectorizer
上进行预测?并将其与培训
数据
相匹配。然后将分类器匹配到这个
CountVectorizer
中。然后,用户
使用
适合于列车
数据
的
CountVectorizer<
浏览 2
提问于2018-05-28
得票数 0
回答已采纳
1
回答
String:基于数组(字符串)长度或
CountVectorizer
计数的DF筛选器
、
、
、
、
我将URL
数据
聚合
到一个字符串数组中。这份表格。xyz.com,abc.com,efg.com我希望筛选并且只
使用
包含一定数量条目的行。因此,如果我说只
使用
有4个示例的行,我希望删除上面的行。在我的
数据
中,我有数千万行,只是不知道
如何
有效地做到这一点。同样,我不介意在
Coun
浏览 0
提问于2018-04-06
得票数 3
回答已采纳
2
回答
滑雪板中的
CountVectorizer
,只有单词超过一定数量的事件
、
、
、
通过
使用
CountVectorizer
将
数据
标记为bigram,我正在
使用
sklearn
对
一些文本
数据
进行逻辑回归。我
使用
了如下代码行:然而,我想限制自己只包括在我的结果稀疏矩阵中出现超过某些阈值次数(例如,50次)在我的所有
数据
。
浏览 3
提问于2015-02-24
得票数 2
回答已采纳
1
回答
提高ValueError的CountVector
、
、
、
、
尝试以figure_1中所示的格式
对
MultinomialNB
数据
的
数据
集执行train_test_split: 因为有些特性是字符串,所以我需要
使用
X = df_train.iloc[:,0:5] ValueError: Found input variables
浏览 1
提问于2021-05-18
得票数 0
1
回答
如何
使用
管道获取
CountVectorizer
词汇表
、
、
、
通常,当我只
使用
CountVectorizer
时,我可以将词汇表用作
CountVectorizer
的新对象的参数,以便在预测之前处理新
数据
cv =
CountVectorizer
()cv_dict = cv.vocabulary_test_X= test_cv.fit_transform(test_corpus
浏览 29
提问于2019-05-29
得票数 1
2
回答
如何
将新
数据
转换为培训
数据
的PCA组件?
、
、
、
假设我有一些文本句子,我想
使用
kmeans进行聚类。or links",] X = vectorizer.fit_transformGot 10000 featu
浏览 4
提问于2014-10-03
得票数 11
回答已采纳
1
回答
矢量化时保留文本
数据
的排序
、
、
、
我试图用scikit-learn编写一种机器学习算法,该算法分析文本并根据训练
数据
对
其进行分类。
使用
文本
数据
的示例直接取自scikit-learn文档,该示例
使用
一个
CountVectorizer
为每个单词出现多少次生成一个稀疏数组。>>> from sklearn.feature_extraction.text import
CountVectorizer
>>> count_vect =
CountVectorizer</
浏览 1
提问于2016-07-30
得票数 5
回答已采纳
4
回答
CountVectorizer
矩阵会随着新的测试
数据
而变化,以进行分类吗?
、
、
我已经
使用
python创建了一个文本分类模型。我有一个
CountVectorizer
,它产生了一个2034行4063列(唯一的单词)的文档术语矩阵。我保存了用于新测试
数据
的模型。我的新测试
数据
但问题是,我将上面的测试
数据
标记转换为特征向量,但它的形状不同。我知道
如何
通过获取
CountVectorizer<
浏览 0
提问于2015-05-17
得票数 2
1
回答
python -
使用
nltk和scikit从文本中为标记云选择最相关的单词--学习
、
、
、
、
我
使用
了来自scikit-learn包的CountVectoriser: stop_words我的问题是: 我不想
浏览 4
提问于2013-02-07
得票数 3
2
回答
如何
将
CountVectorizer
应用于
数据
集的列?
、
我已经能够在单个文本字符串中
使用
CountVectorizer
,但我有一个长度为80.000的
数据
集。
如何
将
CountVectorizer
应用于一列中的所有内容?我尝试了以下几点:cv = count_vect.fit_transform(df['Tokenized_Review
浏览 3
提问于2021-01-05
得票数 0
回答已采纳
1
回答
在Scikit学习分类器中找出最常见的术语
、
、
、
、
我遵循的是在某些
数据
集上
使用
的
CountVectorizer
。 问题:count_vect.vocabulary_.viewitems()列出了所有术语及其频率。你
如何
根据发生的次数
对
它们进行分类?
浏览 5
提问于2013-04-29
得票数 4
1
回答
PySpark:不能对CountVectorizerModel - TypeError:不能序列化套接字对象(但是为什么要
使用
套接字库?)
、
、
、
、
我注意到,与Sci-kit学习中不同的是,
CountVectorizer
的
CountVectorizer
实现
使用
套接字库,因此我无法
对
其进行筛选。我试着查看
CountVectorizer
源代码,但看不到套接字库的任何明显用途。(vectorized_model, output_file) 结果:TypeE
浏览 2
提问于2022-03-24
得票数 0
回答已采纳
1
回答
CountVectorizer
()不处理单个字母单词
、
、
、
考虑到我必须
对
以下
数据
应用
CountVectorizer
(): 'A am is', 'the am is',]from sklearn.feature_extraction.text import
CountVectorizer
vectorizer =
CountVectorizer
是不是
浏览 4
提问于2020-08-10
得票数 2
回答已采纳
2
回答
从两列
数据
中运行单列系列的
CountVectorizer
?
、
、
、
、
如何
将包含多列的熊猫
数据
栏中的单个列转换为
CountVectorizer
?系列 from sklearn.feature_extraction.text import
CountVectorizer
vectorizer =
CountVectorizer
浏览 6
提问于2019-10-25
得票数 0
回答已采纳
2
回答
如何
在python中
使用
朴素贝叶斯算法实现增量学习?
、
、
、
我已经
使用
朴素贝叶斯算法实现了ML模型,其中我想实现增量学习。我面临的问题是,当我训练我的模型时,它在预处理时生成1500个特征,然后在一个月后
使用
反馈机制,如果我想用可能包含一些新特征的新
数据
训练我的模型,可能小于或大于1500 (即,我以前的
数据
集)如果我
使用
我一直在
使用
部分拟合,但部分拟合的问题是您需要与以前模型相同数量的功能。我
如何
让它增量地学习?cv =
CountVectorizer
() X = cv.fit_transform(corp
浏览 6
提问于2018-12-26
得票数 0
2
回答
如何
在scikit-learn (文本特征提取)中
使用
自己的算法进行特征提取
、
、
我想
使用
自己的算法从训练
数据
中提取特征,然后在scikit-learn中
使用
CountVectorize进行拟合和转换。目前我正在做的是:cvect_obj =
CountVectorizer
()fit_transform(traning_data)会自动提取特征并
对
其进行转换
浏览 1
提问于2015-08-31
得票数 2
1
回答
“
CountVectorizer
”对象不可订阅吗?
、
、
import GridSearchCVpipe = Pipeline([('count_vec',
CountVectorizer
pd.df(gs_fit.cv_results).sort_values('mean_test_score',ascending=False).head() TypeError: '
CountVectorizer
浏览 0
提问于2019-08-21
得票数 0
3
回答
CountVectorizer
+TfidfTransformer和TfidfVectorizer有什么区别?
、
、
、
要将ML算法应用于文本,必须
对
其进行数值表示。
使用
sklearn进行此操作的一些方法如下: TfidfVectorizer
CountVectorizer
+TfidfTransformer和TfidfVectorizer有什么区别?
浏览 9
提问于2020-10-27
得票数 1
回答已采纳
1
回答
使用
CountVectorizer
为LDA主题模型准备
数据
集
、
、
、
、
我想
使用
CountVectorizer
从Scikit创建一个矩阵,以供LDA模型
使用
。但是,我的
数据
集是一系列编码术语,例如以以下形式表示: (1-2252, 5-5588, 10-5478, 2-9632 ....)我
如何
告诉
CountVectorizer
将每对
数据
,即1-2252作为一个单词来考虑
浏览 0
提问于2018-04-08
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用聚合数据开发新闻头条
使用python对数据进行高效处理,包你玩转分组聚合
数据库内核杂谈(五):如何实现排序和聚合
如何对大数据进行抓取
如何使用通配符查找数据
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券