腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
scikit
linear_kernel
进行
TF-IDF
计算
时
结果
太大
、
、
、
、
我正在读取一个大约60,000行的csv文件,并
使用
TfidfVectorizer.fit_transform,它生成一个矩阵大小(63098,9081),然后应用
linear_kernel
,然后崩溃并返回错误, 3), min_df=100, stop_words='english')result =
linear_kernel
(tfidf_matrix, tfidf_matrix) 日志显示假设
浏览 44
提问于2020-03-06
得票数 2
1
回答
聚类-如何根据选定的电影推荐电影?
、
、
、
、
正如我的问题所述,我正在
使用
聚类算法。我一直在从IMDB集群电影,我有15个集群,每个集群包含一个类型组合。现在我在为推荐一部电影而挣扎,我该怎么做呢?目前,我只是以一种非常便宜的方式,只是预选一个集群的
结果
。
浏览 2
提问于2022-06-26
得票数 0
1
回答
当
使用
linear_kernel
或cosine_similarity for TfIdfVectorizer
时
,我会得到“内核死亡,重新启动”的错误。
、
、
当
使用
linear_kernel
或cosine_similarity用于TfIdfVectorizer
时
,我会得到“内核死亡,重新启动”的错误。我正在对一些文本数据(如下面的示例)运行TfID方法向量器和fit_transform的
scikit
学习函数,但是当我想
计算
距离矩阵
时
,我得到了“内核死亡,重新启动”的错误。无论我
使用
的是cosine_similarity函数还是
linear_kernel
函数: tf = TfidfVectorizer(ana
浏览 0
提问于2018-03-10
得票数 6
2
回答
应用
scikit
学习和手工
计算
的tf-下手矩阵值的差异
、
、
、
我正在
使用
scikit
-learn来查找
tf-idf
值。D1 = "The sky is blue." D3 0.0000000
tf-idf
tf-idf
tf-idf
importTfidfVectorizer
浏览 0
提问于2014-06-04
得票数 8
2
回答
Python sklearn TfidfVectorizer:在查询之前向量化文档以
进行
语义搜索
、
、
我想
使用
TF-IDF
运行语义搜索。这段代码可以工作,但在大型文档语料库上
使用
时速度非常慢: search_terms = "my query" vectorizer我想知道如何才能提前完成向量化语料库的大量工作,并将
结果
保存在“索引文件”中。因此,当我运行查询
时
,剩下的唯一要做的事情就是向量化查询中的几个单词,然后
计算</
浏览 39
提问于2021-06-16
得票数 1
2
回答
Sklearn和gensim的
TF-IDF
实现
、
、
我一直在尝试确定一组文档之间的相似度,我正在
使用
的方法之一是与
TF-IDF
结果
的余弦相似度。Sklearn和gensim
使用
原始计数作为TF,并对
结果
向量应用L2范数。它们最终是否会提供更好的
结果
,用于集群或其他目的? 编辑(这样问题就更清楚了):规范化最终
结果
与规
浏览 1
提问于2017-05-22
得票数 1
1
回答
如何
计算
TF-IDF
、
我想
使用
TF-IDF
的余弦相似度方法来得到两个单词的语义相似度。首先,我想从wikipedia或word- text中提取这些单词的含义,然后对文本
进行
预处理并找到
TF-IDF
。当我在谷歌上搜索这个问题
时
,我发现为了找到
TF-IDF
,我们应该有一个训练集和测试集。在我的例子中,哪个是训练集,哪个是测试集?如何
使用
计算
结果
计算
余弦相似度?
浏览 3
提问于2012-10-06
得票数 1
回答已采纳
1
回答
如何在Apache Mahout中
进行
在线分类?
、
、
、
我有一个大数据集,我
使用
Apache Mahout来训练一个简单的分类器。我
使用
分类器对一堆文档
进行
分类(就像我的测试集一样)。我对文档
进行
分类的方法如下: 我找到了测试文档的规范化
tf-idf
向量。但是,在对测试文档
进行
分类之后,我将收到更多要分类的文档,并且我需要首先
计算
新文档的
tf-idf
。一种解决方案是重新
计算
所有测试文档(旧文档和新文档)的
tf-idf
,然后对它们
进行
重新分类。在这种情况下
浏览 2
提问于2015-07-03
得票数 0
1
回答
使用
python中的余弦相似度返回与查询文档相比最相似的文档
、
、
、
、
我有一组文件和一个查询doc.My,目的是通过与查询文档
进行
比较来返回最相似的文档,对于每个document.To
使用
余弦相似度,首先我要将文档字符串映射到vectors.Also,我已经创建了一个
tf-idf
函数来
计算
每个文档。vector1, vector2) / (math.sqrt(numpy.dot(vector1, vector1)) * math.sqrt(numpy.dot(vector2, vector2)))def tfidf(self, term, ke
浏览 1
提问于2012-02-28
得票数 4
1
回答
使用
scikit
学习的项目描述之间的余弦相似性
、
、
、
我正在
使用
python2.7和
scikit
-学习找到项目描述之间的余弦相似性。df,例如:2hhj abc r 我做了以下程序:1ffg 1.0 0.8 0.1 2hhj 0.8
浏览 0
提问于2016-02-18
得票数 1
回答已采纳
1
回答
我是否在k折cross_validation中
使用
相同的Tfidf词汇表?
、
、
、
我正在做基于
TF-IDF
向量空间模型的文本分类,我只有不超过3000 samples.For的公平评估,我正在
使用
5折交叉验证对分类器
进行
评估,但令我困惑的是,是否有必要在每次折叠交叉验证中重建
TF-IDF
也就是说,在每个折叠交叉验证中,我是否需要重新构建词汇表并重新
计算
词汇表中的IDF值? 目前,我正在基于
scikit
-learn工具包
进行
TF-IDF
变换,并
使用
SVM训练我的分类器。IDF值我正在对此
TF-IDF
浏览 1
提问于2017-09-02
得票数 12
1
回答
使用
Gensim更新
TF-IDF
、
、
、
您好,我正在
使用
Gensim来查找文档之间的相似度,因此我对文档
进行
TF-IDF
并
计算
余弦相似度。当我有新文档
时
,我可以
使用
index[tfidfvec]
计算
这个文档与以前文档的相似度,但是这样
TF-IDF
不会更新,并且在相似度
计算
中不考虑新词。有没有什么解决方案可以快速更新
TF-IDF
而无需重新
计算
整个矩阵,或者对我的问题有什么最好的解决方案?
浏览 2
提问于2018-12-26
得票数 2
1
回答
在
tf-idf
中,哪种方式是正确的?拟合所有,然后转换训练集和测试集,或者拟合训练集,然后转换测试集
、
、
、
、
1.匹配训练集,然后转换测试集vectorizer = TfidfVectorizer(sublinear_tf=True, max_df=0.5, stop_words='english')X_test = vectorizer.transform(data_test.data)import nu
浏览 12
提问于2021-04-02
得票数 0
1
回答
特征向量:
计算
训练集与测试集的权重
、
、
我正在
使用
支持向量机
进行
文本分类,但基本上我对测试集的特征向量的
计算
感到困惑。例如:在特定单词"apple“的训练集中,文档频率是5。对于测试集,我应该
使用
值5来表示"apple”
浏览 2
提问于2013-04-21
得票数 2
回答已采纳
2
回答
在K-Means聚类中
使用
词干提取
、
、
这是我所做的:我应该在哪里
使用
词干部分?我是不是应该先
计算
词干,然后
计算
词干的
tf-idf
?
使用
词干提取不会降低
结果
吗?
浏览 2
提问于2013-07-18
得票数 1
4
回答
在python中
使用
朴素贝叶斯
进行
文档分类
、
、
我正在做一个
使用
python中的朴素贝叶斯分类器
进行
文档分类的项目。我已经
使用
了nltk python模块来做同样的事情。这些文档来自路透社数据集。我执行了词干提取和停用字消除等预处理步骤,并继续
计算
索引项的
tf-idf
。我
使用
这些值来训练分类器,但准确率非常低(53%)。我应该做些什么来提高准确率?
浏览 2
提问于2012-05-09
得票数 2
回答已采纳
2
回答
使用
tfidf作为功能
、
、
、
、
我想
使用
n-gram对两组文档
进行
分类。一种方法是
使用
tfidf提取每个文档的重要单词,然后生成如下所示的csv文件: document, ngram1, ngram2, ngram3, ..., label 1, 0.0, 0.0, 0.0在此之后,我可以
计算
每个ngram在每个文档中的出现次数,但我不确定这是最好的方法。请提供您建议的解决方案。
浏览 30
提问于2021-02-08
得票数 0
0
回答
TF-IDF
和余弦相似度的替代方法(比较不同格式的文档)
、
、
、
目前,代码的工作方式如下:2)对于每个职业(例如“数据分析师”),将该职业的职务列表的处理文本合并到一个文档中 3)
计算
职业文档内各技能的
TF-IDF
在此之后,我不确定我应该
使用
哪种方法来根据用户的技能列表对职业
进行
排名。我见过的最流行的方法是将用户的技能也视为文档,然后
计算
技能文档的
TF-IDF
,并
使用
余弦相似度之类的东西来
计算
技能文档和每个职业文档之间的相似度。对我来说,这似乎不是理想的解决方案
浏览 8
提问于2017-01-03
得票数 3
回答已采纳
1
回答
比较SparkMlib和
Scikit
-收集数据帧后学习
、
我对SparkMlib的
使用
感到困惑,因为在大多数情况下,数据结构仍然是“局部”密集/稀疏的向量/矩阵。
浏览 0
提问于2016-03-02
得票数 0
5
回答
scikit
learn中的TFIDFVectorizer是如何工作的?
、
、
我正在尝试
使用
scikit
learn中的TfIDFVectorizer类来获取某些文档中有特色的单词。它创建了一个tfidf矩阵,其中包含所有文档中的所有单词及其分数,但它似乎也
计算
了常见单词。the 0.316648in 0.186404his 0.140998 我可能不能完全理解它,但据我所知,
tf-idf
当我半手工
计算
tf/idfs
时
,
使用
NLTK并<em
浏览 2
提问于2016-04-23
得票数 31
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何使用 Scikit Learn 为机器学习准备文本数据
干货 Kaggle Grandmaster的NLP 方法
教你用python做文本分类
Text2Image:一种新的NLP思路
Python在文本自动化处理中的应用
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券