在PySpark 1.6中有没有更有效的方式来实现余弦相似度？ - 腾讯云开发者社区

、、、

我有一个PySpark DataFrame，df1，它看起来像： CustomerID CustomerValue CustomerValue2 12 .17 .08 我有第二个PySpark DataFrame，df2 CustomerID CustomerValue CustomerValue 15 .17 .14 16 .40 .43 18 .86 .09 我想要取两个数据帧的余弦相似度。并拥有这样的东西 Customer

浏览 2提问于2018-09-28得票数 1

1回答

项目间的余弦相似性(购买数据)与标准化

、、、

我使用表示产品用户购买行为的IndexedRowMatrix，为了构建产品推荐，我使用余弦相似度来计算产品之间的相似性。PySpark提供了一个名为columnSimilarities()的函数。我的问题是，在使用columnSimilarities()之前，是否需要规范每个产品的向量？我读过关于归一化和余弦相似的文章，并且理解余弦相似已经对向量进行了归一化，就好像我们把向量规范化了一样，余弦相似性就是这两个向量的点乘积。参考文献另外，余弦相似度与点积的距离度量问题中的一个答案表明，Sometimes it is desirable to ignore the magnitude, hen

浏览 0提问于2018-11-19得票数 3

1回答

基于关键字数量的文档与其他文档相关的概率

、

我有2个文档X和Y。如果用户搜索单词"Computer“，并且我想显示基于关键字"Computer”的最相关的文档。我的算法根据关键词在文档中出现的次数来选择最相关的文档。唯一的问题是文档X有10个单词，"Computer“出现两次，而文档Y有1000个单词，"Computer”出现100次。从文档中的字数来看，说文档Y比文档X更相关是不正确的。如何对此进行规范化，以获得最准确的相关文档。

浏览 8提问于2016-01-09得票数 0

1回答

关于word2vec most_similar()函数

、、

我使用如下的most_similar()方法来获取与给定单词相似的所有单词： word,score= model.most_similar('apple',topn=sizeofdict) AFAIK，它的作用是计算给定单词和字典中所有其他单词之间的余弦相似度。当我检查单词和分数时，我可以看到列表中有负分数的单词。这是什么意思？它们是与给定单词具有相反含义的单词吗？另外，如果它使用余弦相似度，它是如何得到负值的？对于两个文档，余弦相似度在0-1之间变化。

浏览 2提问于2016-01-19得票数 5

2回答

如何在Python中对dict的值进行聚类？

、、、

基本上，我在Python中有一个dict，它使用字符串键和int数组作为值。 dict = {"Option1Results" : [4, 1, 5, 2, 4], "Option2Results" : [11, 44, 2, 1, 5], .... } 我想在这个字典上实现基于值的交集的层次聚类。例如，假设Option1Results和Option4Results共享大约70%的相同整数，然后将它们聚集在一起。除了遍历字典并逐个比较值之外，还有什么方法可以做到这一点吗？

浏览 10提问于2017-07-25得票数 1

4回答

在Apache Spark/PySpark中有没有实现带余弦距离的Kmeans？

、、、

在Apache Spark中，有没有将余弦距离的KMeans应用于Tf-IDF处理的数据帧的工作实现？ Spark，当然在ml库中有欧几里得距离实现，但对于任何其他距离度量都不是这样。

浏览 0提问于2017-06-26得票数 1

1回答

word2vec的余弦相似性大于1

、、

浏览 0提问于2016-12-29得票数 6

1回答

用于多文本文档的mllib和pyspark词袋模型

、、、、

我有150个文本文档(训练集)，我想用pyspark和mllib包"feature“对它们进行”词袋“表示。然后，我有另外150个文本文档(测试集)，我还想将每个文档转换为一个词袋，目的是将此测试集的每个元素映射到具有最高余弦相似度的训练集文档。为了做到这一点，我将为权重实现TF-IDF :这需要中每个文档的词频和我想要匹配的组合训练集。我正在使用这个指南：注意，它有一个注释"# Load documents (one per line)“。但是，为了简洁起见，我从相同的目录中循环上传每个文本文件，如下所示： import os from pyspark import S

浏览 2提问于2015-08-11得票数 1

1回答

基于多词相似度的聚类

、、、

我正在尝试实现对银行事务数据的群集。数据集包含关于Vendor和MCC的列，它们是string。这些列中有太多不同的值，我想根据一些指标(如cosine similarity for Vendor or MCC )进行集群。(例如，'Hotel A'和'Hotel B'可以在同一个集群中。)我认为Levenshtein distance是不够的。我考虑为MCC找到一个语料库，并建立一个模型来查找单词之间的相似性。这个方法对这个问题有好处吗？如果没有，我如何处理这些列？如果是，是否有这样的语料库？数据源：

浏览 4提问于2020-08-08得票数 0

1回答

两个文档之间的不同特征

、、、

我试图找出这两份文件之间的不同之处。我正在使用gensim，到目前为止已经获得了相似度分数。有没有办法知道两个文档之间的相异分数和相异特征？如何评估它？

浏览 1提问于2018-07-03得票数 0

1回答

当我使用余弦相似度时，为什么我得到的邓恩指数是负值？

、、、

我使用k-means对归一化数据进行聚类。我使用了不同的相似度矩阵，如欧几里得、曼哈顿和余弦，当我使用余弦相似度时，Dunn指数为负值。我读到过邓恩指数的取值范围从0到无穷大。使用余弦相似度计算Dunn指数是正确的吗？我用过this implementation of Dunn Index。

浏览 94提问于2019-06-12得票数 1

回答已采纳

1回答

归一化基于tf-idf计算的余弦相似度值

、、、

我计算基于余弦相似度的tf-idf矩阵： tfidf_vectorizer_desc = TfidfVectorizer(min_df=5, max_df=0.8, use_idf=True, smooth_idf=True, sublinear_tf=False, tokenizer=tokenize_and_stem) %time tfidf_matrix_desc = tfidf_vectorizer_desc.fit_transform(descriptions) #fit the vectorizer to text sim_desc = cosine_similarity(tfid

浏览 4提问于2016-06-14得票数 0

1回答

在没有方向的情况下，如何利用文档特征向量上的余弦相似度公式？

、

在数学中，向量具有大小和方向。在数据科学中，为了识别文档的相似性，我们将文档转换为特征向量。然后应用源文档与目标文档特征向量之间的余弦角公式。然而，余弦公式仅适用于向量。一个矢量应该有两个震级和方向。对于表示为向量的文档，方向在哪里？

浏览 0提问于2020-05-17得票数 1

3回答

欧几里德距离vs皮尔逊相关性vs余弦相似度？

、、

他们的目标都是一样的:找到相似的向量。在哪种情况下你会使用哪一种？(有什么实际的例子吗？)

浏览 12提问于2009-12-03得票数 48

回答已采纳

3回答

度量文档集之间的相似度

、、

为了说明起见，我们假设这是一个论坛服务。我需要计算每个用户的帖子之间的“相似度”，这样结果将如下所示： among posts by user A, similarity 60% among posts by user B, similarity 20% ... 我正在处理多字节字符串，所以我想我被搜索引擎卡住了。我们已经使用了Solr，已经实现了moreLikeThis，但是我不太确定如何构造查询。感谢任何人的帮助！

浏览 0提问于2011-05-20得票数 7

1回答

同义词的余弦相似度

、、、

我有一些单词是我想要考虑的与原始单词相似的同义词。例如，在本例中，单词restaurant和bar被视为同义词。为了在这种情况下应用余弦相似度，我决定在两个向量中保留相同的单词，但是如果一个单词被认为是同义词，那么我会在计数器中减去一个“惩罚”。在这个场景中，我必须将原始的v1='cafe‘与v2='restaurant’进行比较。然后，我有以下内容： v1=Counter({'cafe': 1}) v2=Counter({'cafe': 0.65}) #0.65 because word restaurant is synonym 然而，如果

浏览 0提问于2020-07-10得票数 1

1回答

使用tensorflow获取负余弦距离

、、

我正在使用tf.losses.cosine_distance(Y, outputs, axis=2, reduction=tf.losses.Reduction.MEAN)来衡量我的标签和预测之间的差异。张量形状为[batch_size, sequence_length, embedding]。在我的例子中，预测的形状是[16311, 20, 100]。我的结果如下。 ----------------------epoch1---------------------- train 1 loss 1.1429076 ----------------------epoch2----------

浏览 0提问于2019-05-29得票数 1

1回答

使用nlp在大型语料库中回答自定义问题

假设我在一家公司的年报中有一个语料库，显示了他们4个行业的收入数据:汽车、半导体、绿色能源和医疗保健。对于人类来说，找到一个特定行业的收入数据并不难。如果我使用NLP将其自动化，这样我就不必阅读它，那么NLP是否可能将正确的收入数据与一个特定的行业相匹配？我使用NLP进行情感分析、主题建模和文本生成。但这些似乎都与上面的应用程序无关。有什么想法吗？我可以在哪个库中使用什么函数？

浏览 1提问于2020-04-10得票数 0

1回答

理解两个TF-IDF向量相似的原因

、、

我想要一些关于理解TF-IDF向量结果的方法的反馈，以及可能的替代方法。现在，我有两个文本语料库。目标是找到每个语料库中的哪些文档最相似。当我找到一个有趣的匹配项时，我想知道为什么，所以我实现了一个名为why_match()的简单函数，但我想帮助了解它是否是一种有效的方法。它是这样工作的： def why_match(doc_vector_a, doc_vector_b, sklearn_tfidfvectorizer): distance = abs(doc_vector_a - doc_vector_b) nearest_words = np.array((dista

浏览 2提问于2018-10-27得票数 0

1回答

尝试计算搜索词之间的相似度

、、

我想为在google上搜索的搜索查询计算某种相似度分数。这意味着，在其他事情中，单词的顺序并不一定重要。例如： “阿迪达斯蓝色鞋子”和“蓝色鞋子阿迪达斯” 应该被认为是完全相同的序列，而我认为在许多传统的距离算法中并非如此。我猜上面的例子可以用余弦相似度解决，但如果我有： “蓝色阿迪达斯鞋” 我想算法产生一个非常相似的距离，原来的“”阿迪达斯鞋蓝色“ 这样的算法存在吗？

浏览 0提问于2017-07-03得票数 0

2回答

求和余弦相似矩阵是确定整体相似性的好方法吗？

、

我正在尝试类似的研究摘要，所以我使用word嵌入将单词转换为1x768向量，所以总体上将抽象转化为带有形状的嵌入(#ofword，768)。两个抽象之间的余弦相似性返回一个矩阵(#ofwords1 1，#ofwords1 2)，然后我对其进行总结，以得到一个总体得分。我想知道的是，在一个余弦相似矩阵中对所有值的总结是否真的是确定两个不同文本之间的整体相似性的好方法呢？有没有一种更好，或者更便宜的计算方法来做到这一点？

浏览 0提问于2020-08-26得票数 2

3回答

如何度量两个文本文档之间的相似性？

、、、、

假设我有100个文本文档，我想对这些文档进行集群。第一步是构造文档的成对相似矩阵100X100。我的问题是：衡量两个文档之间相似性的通用方法是什么？谢谢,

浏览 0提问于2019-04-14得票数 4

回答已采纳

1回答

pySpark toRowMatrix混淆

、、

我正在尝试通过pyspark使用columnSimiliraties import pyspark pyspark.__version__ #'2.2.0' from pyspark.mllib.linalg.distributed import RowMatrix, IndexedRowMatrix test = np.array[[1,2,3,4,5,6,7,8,9,10],[1,2,3,4,5,6,7,8,9,10], [1,2,3,4,5,6,7,8,9,10], [1,2,3,4,5,6,7,8,9,10]] # so I can compare rows wi

浏览 1提问于2017-08-24得票数 0

1回答

gensim similar_by_word函数的相似度是多少？

基因similar_by_word函数的相似性是多少？我在这里读到了基因similar_by_word函数： similar_by_word函数返回一个序列(word，相似性)。这里的相似性定义是什么?它是如何计算的？

浏览 0提问于2019-02-11得票数 0

回答已采纳

2回答

如何计算两种不同鱼群间的余弦相似度？

、、、、

我试图估计语料库A中的每个文档A和语料库B中的所有文档之间的余弦相似性。知道我怎么能高效地做这件事吗？我正在处理相当大的数据集。本质上，我希望在语料库B中获得文档，这对于A中的每个文档来说都是非常相似的。

浏览 8提问于2020-04-09得票数 1

1回答

mahout推荐自定义项目相似度

、、

我想根据用户的技能向他们推荐工作，使用mahout.So是否有任何方法可以定义工作相似性逻辑。我找到了ItemSimilarity接口，但在自定义实现后无法使用它。

浏览 0提问于2014-07-30得票数 2

1回答

潜在语义分析如何处理语义

、

我已经通过了LSA方法。有人说，LSA可以用于语义分析。但我不明白它在LSA是如何运作的。有人能告诉我LSA是如何处理语义的吗。

浏览 5提问于2014-08-15得票数 1

回答已采纳

1回答

( model.docvecs.similarity_unseen_docs(document_1，document_2获得负分数)

、、、

我试图找出两个文档，即'document_1‘和'document_2’之间的相似性。我正在使用Doc2Vec Gensim的来寻找相似性评分。 score = model.docvecs.similarity_unseen_docs(trainedModel, document_1, document_2) print(score) 分数为负值的地方。这里，document_1和document_2是NLTK的word_tokenize()的结果。当我们试图找出两个"tokenized“文档之间的相似性时，负分数意味着什么？ P.S:对模型进行了10个文档(每个2

浏览 2提问于2019-11-15得票数 0

2回答

scikit cosine_similarity vs pairwise_distances

、、

Scikit-learn的sklearn.metrics.pairwise.cosine_similarity和sklearn.metrics.pairwise.pairwise_distances(..的区别是什么Metric=“余弦”)？ from sklearn.feature_extraction.text import TfidfVectorizer documents = ( "Macbook Pro 15' Silver Gray with Nvidia GPU", "Macbook GPU" ) tfidf_v

浏览 2提问于2016-02-09得票数 7

回答已采纳

1回答

在比较不同文档对之间的余弦相似度时，是否需要调整长度？

、、

假设我有两个文档，A和B，每个文档有两个版本，1和2。我计算(A1，A2)和(B1，B2)的余弦相似度。设Sa =余弦(A1，A2)，Sb =余弦(B1，B2)。如果Sa < Sb，我可以说文档A比文档B有更大的变化或更新吗？一篇论文指出：“一对文档越长，两个文档中包含一个单词的可能性就越大，导致文档不同的可能性较低(有关分析证据，请参阅附录B)。”论文可以在上找到。这是真的吗？由于词汇表的大小有限，这一说法对于Jaccard相似性可能是正确的。但是，余弦相似性是一个角度，从直觉上讲，文档的长度并不重要。如果这是真的，那么调整长度的相似性分数的最佳方法是什么，以便我可以在不同的文档

浏览 0提问于2019-05-05得票数 0

1回答

用于稀疏矩阵计算的枕木还是熊猫？

、、、

我必须计算稀疏矩阵中向量之间的大量相似计算。当前用于此任务的最佳工具scipy-sparse或pandas是什么？

浏览 5提问于2013-10-04得票数 2

1回答

如何使用python使用StanfordNER对命名实体进行聚类

、、、、

Stanford提供了NERs来检测POS标签和NERs。但是当我试图分析的时候，我正面临一个问题。这句话如下： Joseph E. Seagram & Sons, INC said on Thursday that it is merging its two United States based wine companies 下面是我的代码 st = StanfordNERTagger('./stanford- ner/classifiers/english.all.3class.distsim.crf.ser.gz',

浏览 3提问于2018-06-07得票数 1

回答已采纳

1回答

DL4J:如何利用GoogleNews向量计算两个新句子之间的语义相似度

、、

我只是在学习DL4J的基础教程。我打算比较两个看不见的句子的相似之处。我使用一个简单的例子来比较W2V使用GoogleNews-vectors-negative300.bin.gz完成后的两个单词。当我尝试使用GoogleNews矢量 File gModel = new File("GoogleNews-vectors-negative300.bin.gz"); Word2Vec vecGoogle = WordVectorSerializer.readWord2VecModel(gModel); ParagraphVectors vecGoogleForSentences

浏览 0提问于2018-01-31得票数 1

1回答

如何比较Python中两个文档的主题分布之间的主题相似性？

、、

我用Gensim在语料库上训练了一个LDA模型。现在我已经有了每个文档的主题分布，如何比较两个文档在主题中的相似程度？我想要一个简要的措施。例如，以下是两个文档的主题分布。总共有75个主题。为了简洁起见，我只展示了概率最大的前10个主题(因此主题不太合适)。(40，0.5523168)表示主题#40对于DOC #1的概率为0.5523168。我应该计算两个向量之间的欧几里德距离还是余弦距离？使用这个概括度量，我是否可以说，例如，DOC 1比DOC2更类似于DOC3，或者DOC1和DOC 2在局部上比DOC 3和DOC 4更相似？谢谢! DOC #1: [(40, 0.5523168), (60

浏览 2提问于2019-03-22得票数 4

回答已采纳

1回答

在python中使用Tf-Idf的搜索引擎

、

以下是我的代码 from sklearn.feature_extraction.text import TfidfVectorizer corpus = [ "this is first document ","this is second document","this is third","which document is first", ] vectorizer = TfidfVectorizer() X = vectorizer.fit_transform(corpus) X.toarray() 这

浏览 0提问于2019-12-11得票数 2

5回答

使用k-means进行文档聚类，聚类应该基于余弦相似度还是基于术语向量？

、、、、

抱歉，如果答案是显而易见的，请友好，这是我第一次在这里:-) 如果有人能给我一个关于k-means的适当输入数据结构的指导，我将不胜感激。我正在写一篇硕士论文，在这篇论文中，我提出了一种新的TF-IDF术语权重方法，专门针对我的领域。我想使用k-means对结果进行聚类，然后应用一些内部和外部评估标准，看看我的新术语加权方法是否有任何优点。到目前为止，我的步骤(用PHP实现)，所有的工作都是步骤1:读入文档集合步骤2:干净的文档集合、特征提取、特征选择步骤3:词频( TF )步骤4:反文档频率( IDF )步骤5: TF*IDF步骤6:将TF-IDF归一化为固定长度的向量我努力的地方是

浏览 4提问于2015-05-11得票数 5

1回答

基于内容的推荐可能吗？

、、、

我在探索基于内容的算法，所以我了解到基于内容的算法是用来计算项目和用户之间的相似度的，就像"pandora“一样。所以我的要求是我有100的比例，例如用户可以喜欢40%的蔬菜和60%的非蔬菜，有喜欢/不喜欢的比例，项目也会有蔬菜，非蔬菜属性。是否可以计算用户偏好比例和项目的相似度，或者是否有符合我需求的算法或帮助我的文档？提前感谢

浏览 2提问于2015-07-23得票数 0

2回答

两个矩阵之间的余弦相似度计算

、、

我有一个计算两个矩阵之间余弦相似度的代码： def cos_cdist_1(matrix, vector): v = vector.reshape(1, -1) return sp.distance.cdist(matrix, v, 'cosine').reshape(-1) def cos_cdist_2(matrix1, matrix2): return sp.distance.cdist(matrix1, matrix2, 'cosine').reshape(-1) list1 = [[1,1,1],[1,2,1]] list

浏览 1提问于2015-05-10得票数 5

1回答

为什么我得到的余弦相似度结果与库结果不同？

、、、

我尝试使用余弦距离()来计算两个单词的相似度。代码如下： def word2vec(word): from collections import Counter from math import sqrt # count the characters in word cw = Counter(word) # precomputes a set of the different characters sw = set(cw) # precomputes the "length" of the word vector

浏览 13提问于2020-05-14得票数 0

2回答

如何在spark mllib中进行基于项目的推荐？

、、、

在Mahout中，支持使用API方法进行基于项目的推荐： ItemBasedRecommender.mostSimilarItems(int productid, int maxResults, Rescorer rescorer) 但是在Spark Mllib中，看起来ALS内部的API可以获取推荐的产品，但userid必须通过以下方式提供： MatrixFactorizationModel.recommendProducts(int user, int num) 有没有一种方法可以根据类似的产品获得推荐产品，而不需要提供用户id信息，就像mahout执行基于项目的推荐一样。

浏览 1提问于2014-12-18得票数 8

2回答

使用相同源的余弦相似和完全不同的结果

、、、、

我正在学习单词嵌入和余弦相似性。我的数据是由两组相同的词组成的，但用的是两种不同的语言。我做了两次测试：我用单词向量的平均值来度量余弦相似度(我认为它应该被称为软余弦相似度)。我用单词向量测量了余弦的相似性。我是否应该期望获得同样的结果？我注意到有时我有两个相反的结果。因为我是新来的，所以我想弄清楚我是否做错了什么，或者背后是否有解释。根据我所读到的，软余弦相似度应该比通常的余弦相似度更准确。现在，是时候给你展示一些数据了。不幸的是，我不能发布我的一部分数据(文字本身)，但我会尽我最大的努力给你的信息，我可以给你。在此之前的一些其他细节：我使用FastText

浏览 3提问于2019-07-24得票数 0

回答已采纳

1回答

当Word2Vec使用点积相似性进行训练时，为什么还要使用余弦相似性

、、、、

根据我在stackoverflow上找到的几篇文章(例如这个Why does word2Vec use cosine similarity?)，在我们训练了一个word2vec ( CBOW或Skip-gram)模型之后，计算两个词向量之间的余弦相似度是一种常见的做法。然而，这对我来说似乎有点奇怪，因为该模型实际上是用点积作为相似度分数进行训练的。这一点的一个证据是，我们在训练后得到的词向量的范数实际上是有意义的。那么，为什么人们在计算两个单词之间的相似度时仍然使用余弦相似度而不是点积呢？

浏览 132提问于2019-01-29得票数 7

1回答

Jaccard距离的选择

、、、

为了计算两组单词之间的距离，我使用jaccard距离： JaccardDistance(A, B) = 1 - JaccardIndex(A, B) = 1 - (|A ∩ B| / |A ∪ B|) 现在我想知道，还有其他类似的距离度量，返回0，1之间的值吗？ 0表示这两个集合包含完全相同的元素，而一个完全不同的元素。这两组可能有不同的大小，单词的顺序并不重要。

浏览 0提问于2021-05-01得票数 0

回答已采纳

1回答

如何获得与自动编码器的相似性？

、、

我已经建立了一个自动编码器从一个非常高的维度(200维)空间提取一个更小但重要的表示(16个维度)。现在我有了这些“编码”向量，我想要计算某种相似的分数，或者聚类。我不知道在这一点上适用哪一种距离概念。考虑到我使用了自动编码器，我有什么想法可以得到相似/聚类吗？

浏览 0提问于2019-07-08得票数 1

回答已采纳

1回答

句子转换器如何预测新实例

、、、、

我正在探索句子转换器，并偶然发现了这个。它展示了如何对我们的自定义数据进行培训。但我不知道该怎么预测。如果有两个新句子，如1)这是第三个例子，2)这是第三个例子。我怎么能预测到这些句子有多相似呢？ from sentence_transformers import SentenceTransformer, InputExample, losses from torch.utils.data import DataLoader #Define the model. Either from scratch of by loading a pre-trained model model = Sen

浏览 1提问于2022-01-04得票数 2

5回答

余弦相似性与Levenshtein距离

、、、

我想知道他们之间的区别是什么，在什么情况下他们工作得最好？根据我的理解：余弦相似是度量内积空间中两个非零向量之间相似性的度量，它度量了它们之间夹角的余弦。0°的余弦为1，对于(0，π)半径的任意角度都小于1。列文希廷距离是一个用于测量两个序列之间差异的字符串度量。非正式地说，两个单词之间的Levenshtein距离是单字编辑的最小数量。我的问题是什么时候才能在Levenshtein距离上使用余弦相似性？ 1：https://en.wikipedia.org/wiki/Cosine_similarity#:~:targetText=Cosine%20similarity%20is%20

浏览 0提问于2019-11-18得票数 5

回答已采纳

1回答

在余弦相似度中对数字比字符串应用更多的权重

、、

我有一个程序，可以从互联网上提取地址，并将其与数据库进行核对。它很有用，但我现在正在尝试引入一个相似性函数，将互联网上的地址与我数据库中的地址进行比较。我使用下面的脚本来检查余弦相似度如何比较地址： import string from sklearn.metrics.pairwise import cosine_similarity from sklearn.feature_extraction.text import CountVectorizer addresses = [ '705 Sherlock House, 221B Baker Street, London NW

浏览 3提问于2020-05-24得票数 0

1回答

查找两个文档之间的相似度

、

lucene中有没有内置的算法来查找两个文档之间的相似度？当我通过默认的相似性类时，它会在比较查询和文档后给出分数作为结果。我已经为我的文档建立了索引，使用了snowball分析器，下一步将是找到两个文档之间的相似性。有人能给出一个解决方案吗？

浏览 2提问于2012-01-13得票数 1

2回答

在求余弦相似性时，非额定场的值应该是多少？

、、

我正在研究一个非常基本的图书推荐系统。我想知道在找到余弦相似性时，用户没有给它们打分的字段该如何处理，我们应该忽略它们，只用赋值字段计算，或者标记它们为0。我所遵循的书说，排除字段，因为它会给出错误的解释，在欧几里德和皮尔逊相关的情况下，但在余弦相似的情况下，它使所有的非额定场为0。有人能解释为什么只对于余弦而不是其他人需要将未分级的字段设置为0，或者有不同的方法来做到这一点。(我知道欧几里德和皮尔逊中的字段0对输出的影响，但不确定余弦)

浏览 0提问于2016-06-12得票数 8

2回答