Python -如何通过计算数组来加快余弦相似度_如何在Python中获取两个字典值来查找余弦相似度？_我想知道如何在Python中计算两种numpy数组类型的相似度(数值精度 - 腾讯云开发者社区

、、、

我很好奇公司通常是如何快速计算整个语料库之间的余弦相似度的。例如，如果有人搜索术语“有趣的猫”，并且有100,000个文档至少包含这些术语中的一个，则动态计算查询向量和这100,000个文档向量之间的余弦相似度可能需要很长时间。是否有缓存或加速此搜索的一般策略？

浏览 2提问于2015-07-17得票数 0

1回答

如何高效地解码PyTorch中的嵌入？

、、、

我是Pytorch和RNN的新手。我正在学习如何使用RNN预测数字，作为视频中的教程：在他的代码中，他使用python 3并进行如下解码： out_unembedded = out.view(-1, hidden_size) @ embedding.weight.transpose(0,1) 我正在使用Python 2，并尝试以下代码： out_unembedded = out.view(-1, hidden_size).dot( embedding.weight.transpose(0,1)) 但它似乎不正确，然后我尝试这样解码： import torch import torch.nn

浏览 0提问于2018-01-02得票数 1

1回答

基于关键字数量的文档与其他文档相关的概率

、

我有2个文档X和Y。如果用户搜索单词"Computer“，并且我想显示基于关键字"Computer”的最相关的文档。我的算法根据关键词在文档中出现的次数来选择最相关的文档。唯一的问题是文档X有10个单词，"Computer“出现两次，而文档Y有1000个单词，"Computer”出现100次。从文档中的字数来看，说文档Y比文档X更相关是不正确的。如何对此进行规范化，以获得最准确的相关文档。

浏览 8提问于2016-01-09得票数 0

3回答

Python cosine_similarity不适用于NaNs的矩阵

、、、、

需要找到python函数，其工作方式类似于R func： proxy::simil(method = "cosine", by_rows = FALSE) 即，通过逐对计算数据行之间的余弦距离来寻找相似矩阵。如果NaNs存在，则应该在这2行中删除带有NaNs的确切列。 upd.我还尝试从中删除循环中每对行中的，使用余弦 func。它给出了与R相同的结果，但工作时间:(

浏览 0提问于2019-01-17得票数 1

回答已采纳

2回答

协同过滤中分类变量相似度的计算

、、

我正在尝试构建一个使用协作过滤的推荐系统。我有用户项数据集.我无法找到相似的用户之间的相似性，因为我不能使用欧几里德/余弦距离将无法在这里工作。，如果我将分类变量转换为0，1，则无法计算距离。请您在python中提出处理分类数据的推荐算法，好吗？

浏览 7提问于2019-10-14得票数 0

2回答

在求余弦相似性时，非额定场的值应该是多少？

、、

我正在研究一个非常基本的图书推荐系统。我想知道在找到余弦相似性时，用户没有给它们打分的字段该如何处理，我们应该忽略它们，只用赋值字段计算，或者标记它们为0。我所遵循的书说，排除字段，因为它会给出错误的解释，在欧几里德和皮尔逊相关的情况下，但在余弦相似的情况下，它使所有的非额定场为0。有人能解释为什么只对于余弦而不是其他人需要将未分级的字段设置为0，或者有不同的方法来做到这一点。(我知道欧几里德和皮尔逊中的字段0对输出的影响，但不确定余弦)

浏览 0提问于2016-06-12得票数 8

1回答

潜在语义分析如何处理语义

、

我已经通过了LSA方法。有人说，LSA可以用于语义分析。但我不明白它在LSA是如何运作的。有人能告诉我LSA是如何处理语义的吗。

浏览 5提问于2014-08-15得票数 1

回答已采纳

1回答

同义词的余弦相似度

、、、

我有一些单词是我想要考虑的与原始单词相似的同义词。例如，在本例中，单词restaurant和bar被视为同义词。为了在这种情况下应用余弦相似度，我决定在两个向量中保留相同的单词，但是如果一个单词被认为是同义词，那么我会在计数器中减去一个“惩罚”。在这个场景中，我必须将原始的v1='cafe‘与v2='restaurant’进行比较。然后，我有以下内容： v1=Counter({'cafe': 1}) v2=Counter({'cafe': 0.65}) #0.65 because word restaurant is synonym 然而，如果

浏览 0提问于2020-07-10得票数 1

2回答

如何使用LSA计算句子之间的相似度？

我已经理解了当计算单词之间的相似度时LSA是如何工作的。我正在使用lsa.colorado.edu网站上的LSA，但我找不到一个来源，即句子或多个单词之间的相似度是如何计算的。这仅仅是通过平均所有成对的相似性来完成的吗？

浏览 1提问于2012-12-17得票数 1

2回答

两个矩阵之间的余弦相似度计算

、、

我有一个计算两个矩阵之间余弦相似度的代码： def cos_cdist_1(matrix, vector): v = vector.reshape(1, -1) return sp.distance.cdist(matrix, v, 'cosine').reshape(-1) def cos_cdist_2(matrix1, matrix2): return sp.distance.cdist(matrix1, matrix2, 'cosine').reshape(-1) list1 = [[1,1,1],[1,2,1]] list

浏览 1提问于2015-05-10得票数 5

2回答

了解word2vec文本表示

、

我想在我的程序中实现word2vec的distance部分。不幸的是，它不是用C/C++或Python编写的，但首先我不理解非二进制表示法。这就是我获取文件./word2vec -train text8-phrase -output vectorsphrase.txt -cbow 0 -size 300 -window 10 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 0的方法当我检查法国的vectorsphrase.txt文件时，得到的结果是： france -0.062591 0.264201 0.236335 -0.07260

浏览 3提问于2014-04-16得票数 3

1回答

基于多词相似度的聚类

、、、

我正在尝试实现对银行事务数据的群集。数据集包含关于Vendor和MCC的列，它们是string。这些列中有太多不同的值，我想根据一些指标(如cosine similarity for Vendor or MCC )进行集群。(例如，'Hotel A'和'Hotel B'可以在同一个集群中。)我认为Levenshtein distance是不够的。我考虑为MCC找到一个语料库，并建立一个模型来查找单词之间的相似性。这个方法对这个问题有好处吗？如果没有，我如何处理这些列？如果是，是否有这样的语料库？数据源：

浏览 4提问于2020-08-08得票数 0

2回答

如何在有新向量的预计算矩阵中求余弦相似度？

、、、、

我有一个包含5000项(行)和2048个特性(列)的dataframe。我的数据形状是(5000,2048)，当我用滑雪板中的成对距离计算余弦矩阵时，得到了(5000,5000)矩阵。在这里我可以互相比较。但是现在，如果我有一个新的(1,2048)的向量形状，如何利用我已经计算过的(5000,5000)余弦矩阵，找到这个项目与我所拥有的早期数据的余弦相似性？编辑 PS:，我可以将这个新向量附加到我的数据中，然后再计算余弦相似度。但对于大量的数据，它变得缓慢。或者还有其他快速和准确的距离度量吗？

浏览 7提问于2019-11-26得票数 0

1回答

将字典项加载到spaCy NLP中

、

我正在努力寻找一种有效的方法来将python字典中的所有条目加载到spaCy NLP中。我的目标是创建一个相似性函数，它可以从dict1中获取一个元素，并从dict2中返回最相似的元素。因为我是同时使用python和spacy的新手，所以我只想到循环遍历dict1中的每一项，然后对dict2的每个元素执行dict1_item = nlp(item)，然后执行dict2_item = nlp(item2)，最后执行similarity(dict1_item[dict2_item]) 我还没有完全实现这种方法，因为大量的循环给了我一个暗示，它将是令人难以置信的缓慢。在数据方面，我比较了大约30

浏览 2提问于2019-04-23得票数 0

1回答

关于word2vec most_similar()函数

、、

我使用如下的most_similar()方法来获取与给定单词相似的所有单词： word,score= model.most_similar('apple',topn=sizeofdict) AFAIK，它的作用是计算给定单词和字典中所有其他单词之间的余弦相似度。当我检查单词和分数时，我可以看到列表中有负分数的单词。这是什么意思？它们是与给定单词具有相反含义的单词吗？另外，如果它使用余弦相似度，它是如何得到负值的？对于两个文档，余弦相似度在0-1之间变化。

浏览 2提问于2016-01-19得票数 5

1回答

如何比较Python中两个文档的主题分布之间的主题相似性？

、、

我用Gensim在语料库上训练了一个LDA模型。现在我已经有了每个文档的主题分布，如何比较两个文档在主题中的相似程度？我想要一个简要的措施。例如，以下是两个文档的主题分布。总共有75个主题。为了简洁起见，我只展示了概率最大的前10个主题(因此主题不太合适)。(40，0.5523168)表示主题#40对于DOC #1的概率为0.5523168。我应该计算两个向量之间的欧几里德距离还是余弦距离？使用这个概括度量，我是否可以说，例如，DOC 1比DOC2更类似于DOC3，或者DOC1和DOC 2在局部上比DOC 3和DOC 4更相似？谢谢! DOC #1: [(40, 0.5523168), (60

浏览 2提问于2019-03-22得票数 4

回答已采纳

1回答

如何通过LightFM python包生成用户对用户推荐？

、、、、

我正在通过以下代码创建一个数据集： from lightfm.data import Dataset from lightfm import LightFM dataset = Dataset() dataset.fit((row['id'] for row in user_queryset.values()), (row['id'] for row in item_queryset.values())) num_users, num_items = dataset.interactions_shape() (intera

浏览 37提问于2019-02-17得票数 2

回答已采纳

1回答

两个文档之间的不同特征

、、、

我试图找出这两份文件之间的不同之处。我正在使用gensim，到目前为止已经获得了相似度分数。有没有办法知道两个文档之间的相异分数和相异特征？如何评估它？

浏览 1提问于2018-07-03得票数 0

1回答

当我使用余弦相似度时，为什么我得到的邓恩指数是负值？

、、、

我使用k-means对归一化数据进行聚类。我使用了不同的相似度矩阵，如欧几里得、曼哈顿和余弦，当我使用余弦相似度时，Dunn指数为负值。我读到过邓恩指数的取值范围从0到无穷大。使用余弦相似度计算Dunn指数是正确的吗？我用过this implementation of Dunn Index。

浏览 94提问于2019-06-12得票数 1

回答已采纳

3回答

如何度量两个文本文档之间的相似性？

、、、、

假设我有100个文本文档，我想对这些文档进行集群。第一步是构造文档的成对相似矩阵100X100。我的问题是：衡量两个文档之间相似性的通用方法是什么？谢谢,

浏览 0提问于2019-04-14得票数 4

回答已采纳

1回答

使用tensorflow获取负余弦距离

、、

我正在使用tf.losses.cosine_distance(Y, outputs, axis=2, reduction=tf.losses.Reduction.MEAN)来衡量我的标签和预测之间的差异。张量形状为[batch_size, sequence_length, embedding]。在我的例子中，预测的形状是[16311, 20, 100]。我的结果如下。 ----------------------epoch1---------------------- train 1 loss 1.1429076 ----------------------epoch2----------

浏览 0提问于2019-05-29得票数 1

2回答

可以仅使用非空值在行之间使用余弦相似性吗？

、、

我想要找到一个查询行和另外10个行之间的余弦相似度(或者欧几里得距离，如果更容易)。这些行都是nan值，因此如果列是nan，则忽略它们。例如，查询： A B C D E F 3 2 NaN 5 NaN 4 df = A B C D E F 2 1 3 NaN 4 5 1 NaN 2 4 NaN 3 . . . . . . . . . . . . 因此，我只想得到查询的每个非空列与df列中的行之间的余弦相似性。因此，对于df中的第0行，B和F在查询和df中都是非空的。然后，

浏览 0提问于2019-02-11得票数 5

回答已采纳

1回答

对问答系统NLP的几点建议

、、、

我正在尝试建立一个问题回答系统，其中我有一组预定义的问题和他们的答案。对于来自用户的任何给定问题，我必须查找类似的问题是否已经存在于预定义的问题中，并发送答案。如果它不存在，它必须回复一个通用响应。任何关于如何使用NLP实现这一点的想法都会非常有帮助。提前感谢！！

浏览 2提问于2020-03-15得票数 0

1回答

Python中的自然语言处理

如何使用python中的自然语言处理，根据过去训练过的问题(包括问题的摘要和描述)，为新的未见问题找到类似类型的问题

浏览 1提问于2018-08-14得票数 0

2回答

如何对两个句子进行双重编码以表示相似度

、、、、

我一直在试图理解谷歌的语义体验的概念。通过使用它，我计划实现一个语义查询工具。使用通用句子编码器，我可以先对所有句子进行预编码，然后把它们放到数据库中.当用户想要执行查询时，输入也将转换为512维向量，我们将通过比较余弦相似度(选择最高相似度向量)对整个数据库执行顺序搜索。但这太慢了..。幸运的是，在他们的语义体验页面上，他们写了以下内容：通用语句编码器模型非常类似于我们在对图书和Semantris的对话中使用的方法，尽管这些应用程序使用的是双编码器方法，它最大限度地提高了响应相关性，而通用语句编码器是一个为输入返回嵌入的编码器，而不是输入对上的分数。将句子转换为嵌入向量的一种更简单的

浏览 0提问于2018-11-26得票数 1

1回答

句子转换器如何预测新实例

、、、、

我正在探索句子转换器，并偶然发现了这个。它展示了如何对我们的自定义数据进行培训。但我不知道该怎么预测。如果有两个新句子，如1)这是第三个例子，2)这是第三个例子。我怎么能预测到这些句子有多相似呢？ from sentence_transformers import SentenceTransformer, InputExample, losses from torch.utils.data import DataLoader #Define the model. Either from scratch of by loading a pre-trained model model = Sen

浏览 1提问于2022-01-04得票数 2

1回答

项目间的余弦相似性(购买数据)与标准化

、、、

我使用表示产品用户购买行为的IndexedRowMatrix，为了构建产品推荐，我使用余弦相似度来计算产品之间的相似性。PySpark提供了一个名为columnSimilarities()的函数。我的问题是，在使用columnSimilarities()之前，是否需要规范每个产品的向量？我读过关于归一化和余弦相似的文章，并且理解余弦相似已经对向量进行了归一化，就好像我们把向量规范化了一样，余弦相似性就是这两个向量的点乘积。参考文献另外，余弦相似度与点积的距离度量问题中的一个答案表明，Sometimes it is desirable to ignore the magnitude, hen

浏览 0提问于2018-11-19得票数 3

1回答

NLP如何获取两个文档之间的差异

、、、、

我有2个文档A-B (或2系列文档)，我想要一个新的文档来显示这两个文档之间的差异: A-B 根据不同，有几种定义，一种是:单词列表/“概念”包括在A中但不包括在B中。我正在考虑对A和B的每个句子使用TF IDF，例如： from sklearn.feature_extraction.text import TfidfVectorizer d1 = [open(f1) for f1 in text_files] tfidf = TfidfVectorizer().fit_transform(d1) pairwise_similarity = tfidf * tfidf.T 我不确定这是否与生

浏览 0提问于2016-06-08得票数 0

1回答

余弦相似度很慢

、、、

我有一组句子，它们是使用句子编码器编码成向量的，我想找出与输入查询最相似的句子。搜索功能如下所示： def semantic_search(cleaned_query, data, vectors): query_vec = get_features(cleaned_query)[0].ravel() res = [] for i, d in enumerate(data): qvec = vectors[i].ravel() sim = cosine_similarity(query_vec, qvec) if si

浏览 54提问于2019-09-29得票数 2

1回答

基于Mahout内容的推荐引擎

、、、、

我正在研究一个推荐问题(基于内容的推荐)。我的数据集是mongodb格式的json格式。问题陈述有些项目有自己的属性，用户对每个属性有一定的偏好。现在，我想根据项目的属性，并比较用户对项目x所具有的相同属性的首选项，来预测用户对项目x的喜爱程度。我想建立一个推荐系统，根据用户的喜好向用户推荐项目。我正在考虑使用Mahout和CBAYES分类算法来预测，“用户A会喜欢多少x项”。但我还没有找到用mahout实现CBAYES的任何示例和数据集。如果您有任何其他建议使用任何其他分类器算法，那么请推荐。

浏览 4提问于2015-06-05得票数 2

1回答

用Python计算余弦相似度

、、、

我编写了以下代码来计算一些预处理文档之间的余弦相似性(停止字删除、词干词干和术语频率-逆文档频率)。 print(X.shape) similarity = [] for each in X: similarity.append(cosine_similarity(X[i:1], X)) print(cosine_similarity(X[i:1], X)) i = i+1 但是，当我运行它时，我会收到以下消息： (2235, 7791) [[ 1. 0.01490594 0.11752643 ..., 0.00941571 0.03652551

浏览 1提问于2017-02-01得票数 0

2回答

计算大型矩阵的余弦相似度时进程被终止

、、、、

# A: 14287 * 768 array, B: 863394 * 768 array def cosine_similarity(A,B): A = torch.tensor(A).to('cpu') ; B = torch.tensor(B).to('cpu') num = torch.mm(A, B.T) p1 = torch.sqrt(torch.sum(A**2, axis=1))[:, None] p2 = torch.sqrt(torch.sum(B**2, axis=1))[None, :] retu

浏览 51提问于2021-04-05得票数 1

回答已采纳

2回答

使用Pandas Dataframe时，Scipy Cosine相似性非常慢

、、、、

几天前，我开始通过做一个项目来学习Python。我从我的数据中准备了两个数据帧，分别是User和Item Dataframe。用户DF有17k个不同的用户，项目DF有1500张专辑。我正在使用协同过滤来获取两个数据帧之间的余弦相似度，如下所示 from scipy.spatial.distance import cosine for i in range(0,len(user_normalized.index)-1): for j in range(0,len(item_matrix.index)-1): item_matrix_cpy.at[j, 'cosine'] =

浏览 2提问于2018-05-23得票数 0

1回答

在没有方向的情况下，如何利用文档特征向量上的余弦相似度公式？

、

在数学中，向量具有大小和方向。在数据科学中，为了识别文档的相似性，我们将文档转换为特征向量。然后应用源文档与目标文档特征向量之间的余弦角公式。然而，余弦公式仅适用于向量。一个矢量应该有两个震级和方向。对于表示为向量的文档，方向在哪里？

浏览 0提问于2020-05-17得票数 1

1回答

lucene是如何构建VSM的？

、、、、

我理解了VSM，TFIDF和余弦相似的概念，但是，在阅读lucene网站之后，我仍然对lucene如何构建VSM和计算每个查询的相似度感到困惑。据我所知，VSM是一个矩阵，每个术语的TFIDF值都被填充。当我尝试从一组文档构建VSM时，使用这个工具花了很长时间--这实际上与编码无关，因为直观地构建一个包含大量数据的VSM矩阵很费时，但对于lucene来说似乎并非如此。另外，使用预先构建的VSM，查找最相似的文档(基本上是计算两个文档或查询与文档之间的相似性)通常很耗时(假设有数百万个文档，因为必须计算每个人的相似度)，但是lucene似乎真的很快。我想这也与它如何在内部构建VSM有关。如果

浏览 7提问于2014-02-14得票数 1

回答已采纳

2回答

在使用余弦相似之前，有什么理由(不是)L2-对向量进行规范化吗？

、、、

我读了Levy等人的论文“”，在讨论他们的超参数时，他们说：向量归一化()如第二节所述，所有向量(即W行)都归一化为单位长度(L2归一化)，使点积运算等价于余弦相似。然后，我回顾了R- sim2包中text2vec向量相似函数的默认值是L2-范数向量，首先： sim2(x, y = NULL, method = c("cosine", "jaccard"), norm = c("l2", "none")) 因此，我想知道，这其中的动机是什么，规范化和余弦(无论是在text2vec还是一般情况下)。我试着阅读L2范数，但

浏览 4提问于2018-07-11得票数 6

回答已采纳

2回答

求和余弦相似矩阵是确定整体相似性的好方法吗？

、

我正在尝试类似的研究摘要，所以我使用word嵌入将单词转换为1x768向量，所以总体上将抽象转化为带有形状的嵌入(#ofword，768)。两个抽象之间的余弦相似性返回一个矩阵(#ofwords1 1，#ofwords1 2)，然后我对其进行总结，以得到一个总体得分。我想知道的是，在一个余弦相似矩阵中对所有值的总结是否真的是确定两个不同文本之间的整体相似性的好方法呢？有没有一种更好，或者更便宜的计算方法来做到这一点？

浏览 0提问于2020-08-26得票数 2

1回答

三重损失暹罗神经网络模型评价(model.evaluate) -- tensorflow

、、、、

我训练了一个使用三重态损失的暹罗神经网络。这很痛苦，但我想我成功了。然而，我很难理解如何用这个模型来进行评估。 SNN： def triplet_loss(y_true, y_pred): margin = K.constant(1) return K.mean(K.maximum(K.constant(0), K.square(y_pred[:,0]) - 0.5*(K.square(y_pred[:,1])+K.square(y_pred[:,2])) + margin)) def euclidean_distance(vects): x, y = vects

浏览 12提问于2022-04-22得票数 6

回答已采纳

1回答

如何聚类关键字或获得关键字相似度时，我有他们的向量

、、、、

我使用Pickle方法(通过Bert- as -Service和Google的预训练模型)将python字典存储为Vector文件，如下所示： (关键)短语：(值)Phrase_Vector_from_Bert=女装: 1.3237 -2.6354 1.7458 .... 但我不知道如何像Gensim Word2Vec那样从Bert- as -Service模型中获得短语与向量文件的相似度，因为后者配备了.similarity方法。你能给我一个建议来获取短语/关键字的相似度，或者将它们与我的python-Pickle-dictionary向量文件进行聚类吗？或者用Bert-as-Servi

浏览 0提问于2019-09-26得票数 0

4回答

在语义相似性方面，是否有比较字符串的好的NLP？

、、、、

我想要创建一个聊天机器人，它告诉用户在街道上的交通情况，但暂时不是实时的。我用MySQL创建了一个小型数据库，其中存储了一些有关流量的数据，并根据用户与聊天机器人的交互情况，在适当的时候使用PHP脚本获取这些数据。我想知道当用户询问同一个问题的变化时，如何处理这个问题，因此可以用相同的答案来回答。例如：为什么大街上有车辆？高街交通的原因是什么？我为什么在高街遇到交通堵塞？我在大街上堵车了。为什么会这样呢？显然，我可以从删除停止词(例如did)、命名实体(例如，公路->大街)、定义同义词和应用文本相似性度量(例如Levenshtein距离等)开始。然而，如果我这样做的话，我想

浏览 0提问于2018-04-19得票数 4

1回答

如何获得与自动编码器的相似性？

、、

我已经建立了一个自动编码器从一个非常高的维度(200维)空间提取一个更小但重要的表示(16个维度)。现在我有了这些“编码”向量，我想要计算某种相似的分数，或者聚类。我不知道在这一点上适用哪一种距离概念。考虑到我使用了自动编码器，我有什么想法可以得到相似/聚类吗？

浏览 0提问于2019-07-08得票数 1

回答已采纳

1回答

word2vec的余弦相似性大于1

、、

浏览 0提问于2016-12-29得票数 6

1回答

mahout推荐自定义项目相似度

、、

我想根据用户的技能向他们推荐工作，使用mahout.So是否有任何方法可以定义工作相似性逻辑。我找到了ItemSimilarity接口，但在自定义实现后无法使用它。

浏览 0提问于2014-07-30得票数 2

1回答

用java程序计算余弦相似度

、、

我有一个问题，要计算一个相似性度量，为我的最终项目开发一个搜索引擎。在java中，我必须使用tf，以色列国防军+余弦相似度，我不知道如何计算它。我有自己的数据库，里面有811份文件。

浏览 3提问于2011-03-28得票数 0

1回答

用python中的lambda替换嵌套的'for loop‘

、、

我正在处理一项任务，需要检查两个dataframe列之间的余弦相似性。我使用两个for循环分别迭代data1和data2的两列。 for i in range(0,len(input_df)): for j in range(0,len(data1)): ##check similarity ratio similarity_score= cosine_sim(input_df['Summary'].iloc[i],data1['Summary'].iloc[j]) print(similarity_s

浏览 21提问于2021-08-03得票数 0

1回答

理解两个TF-IDF向量相似的原因

、、

我想要一些关于理解TF-IDF向量结果的方法的反馈，以及可能的替代方法。现在，我有两个文本语料库。目标是找到每个语料库中的哪些文档最相似。当我找到一个有趣的匹配项时，我想知道为什么，所以我实现了一个名为why_match()的简单函数，但我想帮助了解它是否是一种有效的方法。它是这样工作的： def why_match(doc_vector_a, doc_vector_b, sklearn_tfidfvectorizer): distance = abs(doc_vector_a - doc_vector_b) nearest_words = np.array((dista

浏览 2提问于2018-10-27得票数 0

2回答

如何在Python中对dict的值进行聚类？

、、、

基本上，我在Python中有一个dict，它使用字符串键和int数组作为值。 dict = {"Option1Results" : [4, 1, 5, 2, 4], "Option2Results" : [11, 44, 2, 1, 5], .... } 我想在这个字典上实现基于值的交集的层次聚类。例如，假设Option1Results和Option4Results共享大约70%的相同整数，然后将它们聚集在一起。除了遍历字典并逐个比较值之外，还有什么方法可以做到这一点吗？

浏览 10提问于2017-07-25得票数 1

2回答

如何在spark mllib中进行基于项目的推荐？

、、、

在Mahout中，支持使用API方法进行基于项目的推荐： ItemBasedRecommender.mostSimilarItems(int productid, int maxResults, Rescorer rescorer) 但是在Spark Mllib中，看起来ALS内部的API可以获取推荐的产品，但userid必须通过以下方式提供： MatrixFactorizationModel.recommendProducts(int user, int num) 有没有一种方法可以根据类似的产品获得推荐产品，而不需要提供用户id信息，就像mahout执行基于项目的推荐一样。

浏览 1提问于2014-12-18得票数 8

1回答

基于内容的推荐可能吗？

、、、

我在探索基于内容的算法，所以我了解到基于内容的算法是用来计算项目和用户之间的相似度的，就像"pandora“一样。所以我的要求是我有100的比例，例如用户可以喜欢40%的蔬菜和60%的非蔬菜，有喜欢/不喜欢的比例，项目也会有蔬菜，非蔬菜属性。是否可以计算用户偏好比例和项目的相似度，或者是否有符合我需求的算法或帮助我的文档？提前感谢

浏览 2提问于2015-07-23得票数 0

1回答

有没有办法在具有不同值的句子嵌入之间创建余弦相似度矩阵？

、、、、

我想创建一个大小为7x7的余弦相似度矩阵，其中矩阵的每个元素都是两个大小为1024的数组的余弦相似度。 [[ 0.1463873 0.6160218 -0.8804966 ... 1.520877 0.09114664 0.14081596]] [[ 0.54208326 0.7649026 -1.4366877 ... 1.6818116 -0.20427406 0.3631045 ]] [[ 0.32065052 0.67767006 -1.2465438 ... 0.6658634 -0.17746 0.39568862]] [[ 0.

浏览 1提问于2020-09-15得票数 0