腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从
字典
中
创建
一个
矩阵
,
用于
计算
文档
之间
的
相似
度
matrix
、
nlp
、
similarity
、
tf-idf
、
word-embedding
我
的
问题是: 我有
一个
这样
的
数据帧: id tfidf_weights 2 {word4列'id‘表示
文档
的
id,'tfidf_weights’表示每个
文档
的
每个单词
的
tfidf权重。从这个数据帧
中
,我可以获得
一个
结构如下
的
字典
: mydict =
浏览 19
提问于2019-07-03
得票数 0
回答已采纳
2
回答
Gensim - LDA
创建
文档
-主题
矩阵
python
、
lda
、
gensim
、
topic-modeling
我正在处理
一个
项目,其中我需要将主题建模应
用于
一组
文档
,并且我需要
创建
一个
矩阵
:我刚接触gensim,到目前为止,我已经
创建
了
一个
文档
列表。2.对
文档
进
浏览 0
提问于2016-03-24
得票数 0
1
回答
使用Gensim更新TF-IDF
python
、
gensim
、
similarity
、
tf-idf
您好,我正在使用Gensim来查找
文档
之间
的
相似
度
,因此我对
文档
进行TF-IDF并
计算
余弦
相似
度
。当我有新
文档
时,我可以使用index[tfidfvec]
计算
这个
文档
与以前
文档
的
相似
度
,但是这样TF-IDF不会更新,并且在
相似
度
计算
中
不考虑
浏览 2
提问于2018-12-26
得票数 2
1
回答
为什么用gensim
计算
相似
度
需要
字典
的
大小?
python
、
nlp
、
gensim
为了使用gensim.similarities.docsim.Similarity类
计算
单词
之间
的
相似
度
,需要提供语料库和
字典
的
大小。 在我
的
例子
中
,语料库是使用word2vec模型
计算
的
词向量。我想知道为什么gensim需要这么大
的
字典
?另外,如果这里需要
用于
创建
word2vec模型
的
字典
<
浏览 0
提问于2020-06-23
得票数 0
1
回答
给出新
文档
的
相似
矩阵
再
计算
python
、
scikit-learn
、
cosine-similarity
、
tfidfvectorizer
我正在运行
一个
包括文本
文档
的
实验,我需要这些
文档
来
计算
它们
之间
的
(余弦)
相似
度
矩阵
(
用于
另一次
计算
)。vect.fit_transform(corpus)pairwise_similarity_matrix = similarities.A 问题是,在每次实验
的
迭代
中
,我都会发现需要
浏览 3
提问于2020-10-20
得票数 0
回答已采纳
1
回答
data.frame
中
字符串行
之间
的
相似
性
r
我有
一个
这样
的
数据帧: pta_content
的
每一行都是优惠贸易协定
的
内容。我试图
计算
每一行
之间
的
相似
度
,并获得
一个
名称为pta
的
相似
度
矩阵
。我尝试过stringdist,似乎stringdist
用于
两个数据帧。如何
计算
数据帧
中
每一行
之间
的
成对
相似
浏览 1
提问于2018-03-29
得票数 0
2
回答
如何使用LSA
计算
句子
之间
的
相似
度
?
lsa
我已经理解了当
计算
单词
之间
的
相似
度
时LSA是如何工作
的
。我正在使用lsa.colorado.edu网站上
的
LSA,但我找不到
一个
来源,即句子或多个单词
之间
的
相似
度
是如何
计算
的
。这仅仅是通过平均所有成对
的
相似
性来完成
的
吗?
浏览 1
提问于2012-12-17
得票数 1
2
回答
我可以获得Word2Vec和Doc2Vec
矩阵
来
计算
余弦
相似
度
吗?
python
、
gensim
、
word2vec
、
doc2vec
我正在处理文本数据,目前我已经将我
的
数据放入术语
文档
矩阵
中
,并
计算
出TF,术语频率和TF-IDF,术语频率与
文档
频率相反。从这里看,我
的
矩阵
如下所示:行名=单词 填充了他们
的
TF和TF-IDF分数。在我目前
的
大部分分析
中
,我一直在使用R
中
的
tm包,但为了更进一步,我已经开始使用Python语言中
的
gensim库。
浏览 3
提问于2019-07-11
得票数 0
1
回答
在mahout谱聚类
中
,亲和力
矩阵
中
的
对角元素值应该是多少
java
、
hadoop
、
mapreduce
、
data-mining
、
mahout
正如标题所述,下面是指向频谱聚类
的
链接 它
的
第一步是提取数据点
的
相似
度
矩阵
。当提到
相似
度
矩阵
时,我假设相同实体(用户、
文档
等)
之间
的
相似
度
应该是1(与距离
矩阵
相反,距离
矩阵
的
相似
度
是0)。但在他们
的
示例
中
,他们为相同<em
浏览 0
提问于2014-09-06
得票数 0
2
回答
在对段落/doc2vec向量进行聚类时,合适
的
距离度量是什么?
python
、
cluster-analysis
、
distance
、
doc2vec
、
hdbscan
我
的
目的是使用HDBSCAN对来自doc2vec
的
文档
向量进行聚类。我想找到有语义和文本重复
的
小集群。但是,要对
文档
进行聚类,HDBSCAN需要
浏览 0
提问于2018-10-09
得票数 4
回答已采纳
2
回答
在numpy python
中
从
稀疏
矩阵
生成密集
矩阵
python
、
arrays
、
numpy
、
scipy
、
sparse-matrix
我有
一个
Sqlite数据库,其中包含以下类型
的
模式:此表包含
文档
中
的
术语及其各自
的
计数。(docn,term1 , 10) 这个
矩阵
可以被认为是稀疏
矩阵
,因为每个
文档
包含
的
项非常少,它们将具有非零值。我如何使用numpy从这个稀疏
矩阵
创建
一个
密集
矩阵
,因为我必须使用余弦
相
浏览 1
提问于2013-05-12
得票数 49
回答已采纳
1
回答
在scikit-learn中使用
相似
矩阵
代替相异
矩阵
进行MDS
python
、
numpy
、
matrix
、
scikit-learn
、
multi-dimensional-scaling
我想要可视化文本
文档
的
相似
性,我正在使用scikit learn
的
TfidfVectorizer作为tfidf = TfidfVectorizer(decode_error='ignore', max_df=3).fit_transform(data)这给出了
相似
性,但sklearn.manifold.MDS需要
浏览 6
提问于2014-12-07
得票数 2
2
回答
如何
从
Gensim TFIDF值执行kmean聚类
numpy
、
k-means
、
gensim
、
tf-idf
、
corpus
在从Gensim
创建
字典
和语料库之后,我使用以下行
计算
了(词汇频率*反向
文档
频率)TFIDFcorpus_tfidf = Term_IDF[corpus] tfidfmtx.append(tfidf) 现在我想使用k-means聚类,所以我想执行tfidf
矩
浏览 0
提问于2018-06-20
得票数 5
2
回答
熊猫框架柱组合间距
的
有效
计算
方法
python
、
performance
、
pandas
、
numpy
、
nlp
我需要
计算
一个
新
的
doc1-doc
相似
度
矩阵
,其中: 循环这些,并
创建
<e
浏览 12
提问于2016-11-16
得票数 6
回答已采纳
1
回答
lucene是如何构建VSM
的
?
lucene
、
indexing
、
data-mining
、
similarity
、
tf-idf
我理解了VSM,TFIDF和余弦
相似
的概念,但是,在阅读lucene网站之后,我仍然对lucene如何构建VSM和
计算
每个查询
的
相似
度
感到困惑。据我所知,VSM是
一个
矩阵
,每个术语
的
TFIDF值都被填充。当我尝试从一组
文档
构建VSM时,使用这个工具花了很长时间--这实际上与编码无关,因为直观地构建
一个
包含大量数据
的
VSM
矩阵
很费时,但对于lucene来说似乎并非如此。另外,使用预先
浏览 7
提问于2014-02-14
得票数 1
回答已采纳
1
回答
基于Okapi模式
的
文档
相似
度
计算
java
、
lucene
、
similarity
我从这里
的
和本文
的
中发现Okapi
相似
性度量可以
用于
计算
文档
相似
度
例如,我有10个
文档
(
文档
#A、#B、#C、#D等)在我
的
浏览 2
提问于2012-06-13
得票数 1
回答已采纳
3
回答
如何用已经
计算
出
的
TFIDF分数
计算
余弦
相似
度
python
、
numpy
、
scikit-learn
、
nlp
、
data-mining
我需要
计算
已经
计算
出TFIDF分数
的
文档
之间
的
余弦
相似
度
。2
浏览 2
提问于2018-05-16
得票数 0
2
回答
当在Scikit
的
光谱聚类中使用预先
计算
的
亲和力
矩阵
时,KNN?
python
、
machine-learning
、
scikit-learn
、
cluster-analysis
、
unsupervised-learning
我有
一个
相似
度
矩阵
,我
计算
了大量对象
之间
的
相似
度
,每个对象可以与任何其他对象具有非零
的
相似
度
。我为另
一个
任务生成了这个
矩阵
,现在想对其进行聚类以进行新
的
分析。看起来方法可能是
一个
很好
的
选择,因为我可以传入
一个
预先
计算
的
亲和
度</em
浏览 1
提问于2016-10-20
得票数 0
2
回答
从
相似
矩阵
执行聚类
python
、
clustering
、
k-means
我有
一个
歌曲列表,我为每个歌曲提取了
一个
特征向量。我
计算
了每个向量
之间
的
相似
度
分数,并将其存储在
一个
相似
矩阵
中
。我想根据这个
相似
矩阵
对歌曲进行聚类,以尝试识别集群或某种类型
的
歌曲。我使用networkx包
从
相似
矩阵
中
创建
了
一个
力有向图,使用
浏览 0
提问于2021-04-15
得票数 1
1
回答
NLP -如何在问题列表上获得常见问题
的
列表
python
、
machine-learning
、
deep-learning
、
nlp
、
data-science
所有问题都在标题中,所以基本上我有
一个
列有几个问题作为字符串
的
列表,想法是在第
一个
问题列表
中
获得另
一个
常见问题列表。 我不知道这是否有意义,但我会尝试解释一下我尝试过
的
方法。该方法包括
计算
列表
中
的
每个元素与其他元素
的
余弦
相似
性,但不包括正在处理
的
元素,以防止使用相同
的
元素执行
计算
。也就是说,将
创建
一个
字
浏览 2
提问于2022-06-17
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
基于MRDI的关键词语义扩展密文检索技术研究
Python 谱聚类算法从零开始
机器学习基础:相似度和距离度量究竟是什么
NLP 开源形近字算法之相似字列表(番外篇)
纯C#实现基于BP神经网络的中文手写识别算法
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券