腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
更快
的
sklearn
tf-idf
向
量器
、
、
、
、
我试着在一个项目中使用
sklearn
的
TfidfVectorizer,但Tfidf Vectorizer似乎占用了很多时间…… import spacy from
sklearn
.feature_extraction.textmatrix = vectorizer.fit_transform(corpus) 模型'ja_core_news_lg'来自here,语料库文件大小为2.7 GB,stop_words是长度小于100
的
数组矢
量器
已经运行了超过48小时,所以我想知道是否有更有效<
浏览 14
提问于2021-01-04
得票数 1
1
回答
NLP:为什么在
sklearn
管道中使用两个向
量器
(单词袋/TF下手)?
、
、
、
我试图用SVC在
sklearn
上解决一个文本分类问题。我还想检查哪一个向
量器
最适合我
的
数据:单词包CountVectorizer()或
TF-IDF
TfidfVectorizer()features_train_cv = count_vectorizer.fit_transform(features_train) from
sklearn</e
浏览 0
提问于2019-08-05
得票数 2
回答已采纳
3
回答
使用
sklearn
查找文档中特定单词
的
tf-idf
分数
、
、
我有在文档集合上运行基本
TF-IDF
向
量器
的
代码,返回一个D×F
的
稀疏矩阵,其中D是文档数,F是词数。没问题。 但是如何在文档中找到特定术语
的
TF-IDF
分数呢?也就是说,在术语(在它们
的
文本表示中)和它们在结果稀疏矩阵中
的
位置之间是否存在某种字典?
浏览 0
提问于2015-06-22
得票数 7
回答已采纳
1
回答
为什么一个文档
的
文件不为零?
、
最近我想做一些小小
的
nlp任务,面临着一些奇怪
的
事情。也就是说,我已经运行了以下代码 (0, 2) 0.5773502691896258 (0, 1) 0.5773502691896258 一份文件
的
文件不应该是零吗
浏览 0
提问于2021-12-15
得票数 2
回答已采纳
1
回答
使用带有scikit learn
的
TfidfVectorizer
的
NLTK停止字时出现Unicode警告
、
、
、
、
我正在尝试使用scikit-learn中
的
Tf-idf
向
量器
,使用来自NLTK
的
西班牙语停用词:问题是我得到以下警告: /home/---/.virtualenvs/thesis/local/lib/python2.7/site-package
浏览 9
提问于2014-08-22
得票数 3
1
回答
TF IDF加权了测试数据中
的
频率分数,使用SVC训练模型
、
、
、
我正在训练一个关于文本描述和对应于它们
的
标签
的
预测模型。我正在使用SVC来训练具有tf idf加权词频
的
语料库。我想知道是否有一组新
的
数据(测试,而不是这里使用
的
训练测试分割)是我想要分类
的
,是否应该使用tf idf向量化。如果是,应该单独对测试数据进行测试,还是与训练数据一起进行?
浏览 2
提问于2019-06-26
得票数 0
1
回答
将计数向
量器
转换为
tf-idf
、
、
所以我有下面的表格,每一行都是一个文档,每一列都是单词,没有单词
的
出现。|doc|apple|banana|cat| |1|2|0|0| |3|0|2|0| 有没有办法把这些计数向量表转换成
tf-idf
向量化器编辑:我
的
解决方案。如果这是正确
的
,请告诉我。
浏览 0
提问于2019-09-28
得票数 0
2
回答
使用tfidf作为功能
、
、
、
、
一种方法是使用tfidf提取每个文档
的
重要单词,然后生成如下所示
的
csv文件: document, ngram1, ngram2, ngram3, ..., label 1, 0.0, 0.0, 0.0但由于文档数量
的
限制,文件将变得庞大而稀疏。另一种方法是合并每个组中
的
所有文档并提取ngram。在此之后,我可以计算每个ngram在每个文档中
的
出现次数,但我不确定这是最好
的
方法。请提供您建议
的
解决方案。
浏览 30
提问于2021-02-08
得票数 0
1
回答
如何在scikit学习中保存TFIDF向
量器
?
、
、
、
这是我
的
矢量化代码 analyzer='word', strip_accentsvectorizer.transform(data['text']) pickle.dump(tfidf, open('tfidf.pickle', 'wb'))当我打开矢
量器</e
浏览 2
提问于2019-10-24
得票数 3
1
回答
使用TfIdfVectorizer生成测试数据
、
、
我已经将我
的
数据分成了训练部分和测试部分。我
的
数据表有一个'text‘列。考虑一下,我还有另外十列表示数字特征。collect numerical features df_combined_train = pd.concat([df1_tfidf_train, df2_train], axis=1) 为了计算测试部分
的
tf-idf
相关帖子: 1:仅讨论创建训练数据集部分 2:讨论了测试数据部分,但不清楚如何生成同时包含术语和数字特征
的
测试数据框架。
浏览 29
提问于2020-04-10
得票数 0
1
回答
向量化器Python中
的
单词组合
、
、
、
、
我有一个包含医学文本数据
的
数据集,我对它们应用
tf-idf
向
量器
,并计算单词
的
tf idf得分,如下所示:from
sklearn
.feature_extraction.textl=vect.get_feature_names() 所以基本上我
的
问题是这样
的
-当我应用TfidfVectorizer时
浏览 15
提问于2017-08-15
得票数 4
回答已采纳
4
回答
tfidf向
量器
和tfidf转换器
的
区别是什么?
、
、
、
、
我知道tfidf vectorizer
的
公式是 Count of word/Total count * log(Number of documents / no.of documents where word我找不到任何有用
的
东西。
浏览 0
提问于2019-02-18
得票数 6
回答已采纳
1
回答
为什么在
sklearn
中,whoosh搜索
的
性能比tfidfvectorizer差?
、
我实现了一个基于
TF-IDF
向
量器
(
sklearn
)
的
基本(几乎所有默认选项)搜索程序,用于根据用户查询搜索一些文档。 我也尝试在python中使用Whoosh来实现相同
的
功能。with myindex.searcher(weighting=scoring.TF_IDF()) as s: 这样,我假设它应该会给出与
TF-IDF
向
量器
的
sklearn
实现有点类似的结果,但只返回一个命中我如何得到类似的结果,也就是说,使用类似于sklea
浏览 34
提问于2019-08-26
得票数 0
1
回答
TF-IDF
向
量器
搜索查询Python
、
、
、
、
我已经转换了一些文档来创建
TF-IDF
向
量器
。现在我想按
TF-IDF
值
的
降序处理搜索查询并返回页面列表。我能够得到查询词在‘词汇表’中
的
位置。但是,由于它是一个稀疏矩阵,我无法读取该索引处
的
tf-idf
值。任何帮助都将不胜感激。问候
浏览 1
提问于2017-02-03
得票数 0
1
回答
需要创建IDF值
的
字典,将单词与其IDF值相关联
我了解如何使用向
量器
获取IDF值和词汇表。对于词汇,单词
的
频率是值,单词是字典
的
关键字,但是,我希望值是idf值。# list of text documents for word in total_dict.keys
浏览 0
提问于2019-07-27
得票数 0
1
回答
如何将文本传递给
sklearn
.feature_extraction.text.TfidfVectorizer
、
dataset = { 1: 'blabla lablab', 3: 'zyxzyxz'转到
sklearn
.feature_extraction.text.TfidfVectorizer
浏览 9
提问于2016-08-11
得票数 1
回答已采纳
2
回答
Sklearn
TFIDF矢
量器
将作为并行作业运行
、
如何运行
sklearn
TFIDF向
量器
(和计数向
量器
)来作为并行作业运行?类似于其他
sklearn
模型中
的
n_job=-1参数。
浏览 0
提问于2015-02-09
得票数 15
1
回答
从
tf-idf
稀疏矩阵中获取最重要
的
单词(最高
tf-idf
值)
、
、
、
我想获取
tf-idf
值最高
的
单词。我创建了一个
tf-idf
矩阵:sentences =
sklearn
_tfidf.get_feature_names() dense_tfidf =tfidf_matrix.todens
浏览 2
提问于2017-10-12
得票数 3
1
回答
如何模拟tf-国防军火花
、
、
我正在尝试重写编写
的
代码(它是用Python编写
的
),但现在正在发火。
浏览 10
提问于2022-08-29
得票数 1
回答已采纳
1
回答
拟合前数据准备
的
误差
、
ValueError:将1D数据传递给需要2D数据
的
转换器。 数据是2D
的
! preproc = ColumnTransformer([('bow &
tf-id
浏览 0
提问于2020-03-03
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
共享童车,2023年花粉共享童车将以更快的速度向全国扩展!
机器学习聚类分析——k-means文本聚类分析
通过Python进行文本数据分析和自然语言处理
复旦中文文本分类过程附语料库
Python数据分析及可视化实例之抽取文本主题
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券