腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(829)
视频
沙龙
3
回答
TF-IDF
和
余弦
相似
度
模糊
匹配
不够
精确
、
、
、
、
我想在一长串字符串中找到
相似
之处。也就是说,对于列表中的每个字符串,我需要同一列表中的所有
相似
字符串。后来,我尝试了
tf-idf
和
余弦
相似
度
,使用受此blog启发的string-grouper库,它提供了一些奇妙的时间改进。仔细研究结果,字符串分组方法错过了像“DARTH VADER”
和
“VADER”这样的
匹配
,而这些
匹配
被fuzzywuzzy
和
rapidfuzz捕获。这是可以理解的,因为
T
浏览 74
提问于2020-11-11
得票数 1
1
回答
如何计算
TF-IDF
、
我想使用
TF-IDF
的
余弦
相似
度
方法来得到两个单词的语义
相似
度
。首先,我想从wikipedia或word- text中提取这些单词的含义,然后对文本进行预处理并找到
TF-IDF
。当我在谷歌上搜索这个问题时,我发现为了找到
TF-IDF
,我们应该有一个训练集
和
测试集。在我的例子中,哪个是训练集,哪个是测试集?如何使用计算结果计算
余弦
相似
度
?
浏览 3
提问于2012-10-06
得票数 1
回答已采纳
1
回答
如何计算多类型数据的
余弦
相似
度
?
、
、
我有一个使用
余弦
相似
度
的约束。如果变量(属性、列)的类型不同,并以以下形式出现:如何进行矢量化以应用
余弦
相似
度
?对于字符串,我可以使用简单的
tf-idf
。但是对于数字
和
布尔值呢?如何将这些结合起来呢?我的想法是向量应该是1+1+1+20长度。但是,仅仅将记录的数字转换为矢量中的系数,并将它们与字符串的
tf-idf
连接以计算
余弦</em
浏览 5
提问于2013-03-20
得票数 1
2
回答
我可以获得Word2Vec
和
Doc2Vec矩阵来计算
余弦
相似
度
吗?
、
、
、
我正在处理文本数据,目前我已经将我的数据放入术语文档矩阵中,并计算出TF,术语频率
和
TF-IDF
,术语频率与文档频率相反。从这里看,我的矩阵如下所示:行名=单词 填充了他们的TF
和
TF-IDF
分数。我不清楚我是否有像TF
和
TF-IDF
中那样的词嵌入。我希望使用Word2Vec/Doc2Vec,并获得一个类似于我目前拥有的矩阵,然后计算文档之间的
余弦
相似
度
。这是模型的输出之一吗?我基本上有大约6000个文档,我
浏览 3
提问于2019-07-11
得票数 0
2
回答
Lucene
相似
类的高级解释?
、
、
、
我想理解它,而不必破译搜索
和
索引所涉及的所有数学
和
术语。
浏览 0
提问于2009-03-17
得票数 7
回答已采纳
2
回答
在K-Means聚类中使用词干提取
、
、
这是我所做的:我应该在哪里使用词干部分?我是不是应该先计算词干,然后计算词干的
tf-idf
?使用词干提取不会降低结果吗?
浏览 2
提问于2013-07-18
得票数 1
1
回答
tf-idf
向量空间中的ntc形式到底是什么?
、
、
我被要求在
tf-idf
向量空间
和
ntc形式中显示每个文档,然后在python中训练一个基于文档向量的svm模型。ntc在这里到底是什么意思?我发现它与
tf-idf
权重相同,只需一步归一化即所谓的“
余弦
归一化”。但是我找不到关于这件事的信息。我发现“
余弦
相似
度
”与“
余弦
归一化”不同。它们是一样的吗?我如何在python中创建这个向量呢?
浏览 2
提问于2021-01-07
得票数 0
1
回答
java -如何利用文档的tf*idf分数实现
余弦
相似
度
?
、
、
、
我已经计算了关键字
和
所有文档的
tf-IDF
值。假设我将所有文档的
tf-IDF
值存储在一个数组中,如何使用它来计算
余弦
相似
度
?感谢您对代码的任何帮助!
浏览 1
提问于2012-04-23
得票数 0
回答已采纳
1
回答
Lucene中查询和文档的
余弦
相似
度
、
、
、
我想要获得一个长查询
和
一个集合中的文档之间的
余弦
相似
度
。我使用Lucence为集合建立索引,并提交查询以检索文档。有人能证实这一点吗?
浏览 0
提问于2011-08-29
得票数 1
回答已采纳
1
回答
用于多文本文档的mllib
和
pyspark词袋模型
、
、
、
、
我有150个文本文档(训练集),我想用pyspark
和
mllib包"feature“对它们进行”词袋“表示。然后,我有另外150个文本文档(测试集),我还想将每个文档转换为一个词袋,目的是将此测试集的每个元素映射到具有最高
余弦
相似
度
的训练集文档。为了做到这一点,我将为权重实现
TF-IDF
:这需要中每个文档的词频和我想要
匹配
的组合训练集。text file, split into words and (attempt) to make hash table docume
浏览 2
提问于2015-08-11
得票数 1
5
回答
N-Gram、
tf-idf
和
Cosine
相似
度
在Python中的简单实现
、
、
、
、
我需要比较存储在DB中的文档,并得出0到1之间的
相似
度
分数。 我需要使用的方法必须非常简单。实现n-gram的普通版本(其中可以定义使用多少个gram),以及
tf-idf
和
余弦
相似
度
的简单实现。
浏览 3
提问于2010-03-04
得票数 55
回答已采纳
1
回答
两个语料的
Tf-Idf
计算
、
、
、
我有两个语料库(语料库1
和
语料库2),语料库1中的文档包含从语料库2中抄袭的句子。我正在使用
Tf-Idf
方法来衡量语料库1中的文档与语料库2中的文档之间的
相似
度
。已经为语料库2中的术语建立了倒排索引,如下所示: 简而言之,对于每两个句子的比较,我建立了两个
Tf-Idf
向量,然后使用
余弦
相似
度
来度量
相似
度
。由于语料库1中的一些术语在语料库2中不可用,
Tf-idf
函数将为这些术语返回0!或者我必须
浏览 10
提问于2017-01-16
得票数 0
回答已采纳
1
回答
基于关键字数量的文档与其他文档相关的概率
、
我有2个文档X
和
Y。如果用户搜索单词"Computer“,并且我想显示基于关键字"Computer”的最相关的文档。我的算法根据关键词在文档中出现的次数来选择最相关的文档。
浏览 8
提问于2016-01-09
得票数 0
1
回答
如何在文本域的弹性搜索查询中进行基于
余弦
相似
度
的语义搜索?
、
、
、
、
我正在一个文本字段(技能)上进行
匹配
。我不想要
精确
的
匹配
,相反,我想要基于领域的
余弦
相似
性搜索。Designation" }, } }} 上面的查询是完全
匹配
的如何包含某种语义搜索(基于技能字段的查询中的
余弦
相似
度
)。技能字段是一个自由的文本字段,所以我也希望
浏览 3
提问于2022-10-06
得票数 0
1
回答
用词向量表示句子的
余弦
相似
度
现在可以衡量词序吗?
、
我知道,原始的
余弦
相似
度
,当应用于通过特定单词的频率来表示两个文档时,并不衡量词序。我现在看到一大堆论文将
余弦
相似
度
应用于由单词向量组成的句子对的表示。因此,“我爱你”
和
“你爱我”(归一化为"I")在这种应用
余弦
相似
性的新方法中不会产生1,而旧方法会产生1。我说的对吗?谢谢你的任何启发性的回答。
浏览 2
提问于2016-06-21
得票数 1
1
回答
如何在Lucene中实现
tf-idf
和
余弦
相似
度
?
、
、
、
如何在Lucene中实现
tf-idf
和
余弦
相似
度
?我使用的是Lucene 4.2。我创建的程序没有使用
tf-idf
和
余弦
相似
度
,它只使用TopScoreDocCollector。t" + d.get("TEXT_INDO") + "\t" + d.get("TEXT_ARAB")); reader.close();
浏览 0
提问于2013-04-25
得票数 4
回答已采纳
1
回答
通过
余弦
相似
度
Python制定查询
和
答案排名
、
、
我标记了多个文本文件,并从中创建了一个
tf-idf
矩阵:Doc 1 0.00.. 0.0002 0.0003那么我如何使用
余弦
相似
度
对它们进行排名呢?
浏览 1
提问于2016-08-11
得票数 0
5
回答
使用k-means进行文档聚类,聚类应该基于
余弦
相似
度
还是基于术语向量?
、
、
、
、
我正在写一篇硕士论文,在这篇论文中,我提出了一种新的
TF-IDF
术语权重方法,专门针对我的领域。归一化为固定长度的向量第7步:向量空间模型-
余弦
相似
度
我正在努力理解k-means的输入向量是否应该包含集合中每个文档相对于其他文档的<e
浏览 4
提问于2015-05-11
得票数 5
1
回答
使用python中的
余弦
相似
度
返回与查询文档相比最
相似
的文档
、
、
、
、
我有一组文件
和
一个查询doc.My,目的是通过与查询文档进行比较来返回最
相似
的文档,对于每个document.To使用
余弦
相似
度
,首先我要将文档字符串映射到vectors.Also,我已经创建了一个
tf-idf
offset+=1 return vectorIndex,vocabularylist #(keyword:position),vocabularylist 对于
余弦
相似
度
vecto
浏览 1
提问于2012-02-28
得票数 4
2
回答
比较文档-文档
相似
度
、
、
、
、
使用
TF-IDF
,为查询(给定文档)
和
集合中的所有其他文档计算
tf-idf
,然后将这些值作为具有
余弦
相似
度
的向量进行比较。这能让我们对它们的
相似
性有一些了解吗?或者,由于大查询(文档),这是否不合理?有没有其他
相似
性度量可以更好地发挥作用? 谢谢你的帮助
浏览 2
提问于2015-04-24
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
全方位解读Uber的人工智能客服—COTA
从数据预处理到排序算法,全方位解读 Uber 人工智能客服 COTA
Uber推出人工智能客服
数据挖掘干货总结(一)-NLP基础
COTA:通过自然语言处理和机器学习改进Uber客户服务
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券