余弦相似度很慢_js 余弦相似度_余弦相似度影响 - 腾讯云开发者社区

matlab、cluster-analysis、distance、cosine-similarity

我使用k-means对归一化数据进行聚类。我使用了不同的相似度矩阵，如欧几里得、曼哈顿和余弦，当我使用余弦相似度时，Dunn指数为负值。我读到过邓恩指数的取值范围从0到无穷大。使用余弦相似度计算Dunn指数是正确的吗？我用过this implementation of Dunn Index。

浏览 94提问于2019-06-12得票数 1

回答已采纳

1回答

归一化基于tf-idf计算的余弦相似度值

python、normalization、tf-idf、cosine-similarity

我计算基于余弦相似度的tf-idf矩阵： tfidf_vectorizer_desc = TfidfVectorizer(min_df=5, max_df=0.8, use_idf=True, smooth_idf=True, sublinear_tf=False, tokenizer=tokenize_and_stem) %time tfidf_matrix_desc = tfidf_vectorizer_desc.fit_transform(descriptions) #fit the vectorizer to text sim_desc = cosine_similarity(tfid

浏览 4提问于2016-06-14得票数 0

1回答

在没有方向的情况下，如何利用文档特征向量上的余弦相似度公式？

classification、vector-space-models

在数学中，向量具有大小和方向。在数据科学中，为了识别文档的相似性，我们将文档转换为特征向量。然后应用源文档与目标文档特征向量之间的余弦角公式。然而，余弦公式仅适用于向量。一个矢量应该有两个震级和方向。对于表示为向量的文档，方向在哪里？

浏览 0提问于2020-05-17得票数 1

1回答

关于word2vec most_similar()函数

text-mining、gensim、word2vec

我使用如下的most_similar()方法来获取与给定单词相似的所有单词： word,score= model.most_similar('apple',topn=sizeofdict) AFAIK，它的作用是计算给定单词和字典中所有其他单词之间的余弦相似度。当我检查单词和分数时，我可以看到列表中有负分数的单词。这是什么意思？它们是与给定单词具有相反含义的单词吗？另外，如果它使用余弦相似度，它是如何得到负值的？对于两个文档，余弦相似度在0-1之间变化。

浏览 2提问于2016-01-19得票数 5

1回答

使用tensorflow获取负余弦距离

python、tensorflow、cosine-similarity

我正在使用tf.losses.cosine_distance(Y, outputs, axis=2, reduction=tf.losses.Reduction.MEAN)来衡量我的标签和预测之间的差异。张量形状为[batch_size, sequence_length, embedding]。在我的例子中，预测的形状是[16311, 20, 100]。我的结果如下。 ----------------------epoch1---------------------- train 1 loss 1.1429076 ----------------------epoch2----------

浏览 0提问于2019-05-29得票数 1

1回答

尝试计算搜索词之间的相似度

algorithm、text、machine-learning

我想为在google上搜索的搜索查询计算某种相似度分数。这意味着，在其他事情中，单词的顺序并不一定重要。例如： “阿迪达斯蓝色鞋子”和“蓝色鞋子阿迪达斯” 应该被认为是完全相同的序列，而我认为在许多传统的距离算法中并非如此。我猜上面的例子可以用余弦相似度解决，但如果我有： “蓝色阿迪达斯鞋” 我想算法产生一个非常相似的距离，原来的“”阿迪达斯鞋蓝色“ 这样的算法存在吗？

浏览 0提问于2017-07-03得票数 0

1回答

word2vec的余弦相似性大于1

python、apache-spark、pyspark

浏览 0提问于2016-12-29得票数 6

1回答

gensim similar_by_word函数的相似度是多少？

gensim

基因similar_by_word函数的相似性是多少？我在这里读到了基因similar_by_word函数： similar_by_word函数返回一个序列(word，相似性)。这里的相似性定义是什么?它是如何计算的？

浏览 0提问于2019-02-11得票数 0

回答已采纳

1回答

两个文档之间的不同特征

nlp、nltk、gensim、cosine-similarity

我试图找出这两份文件之间的不同之处。我正在使用gensim，到目前为止已经获得了相似度分数。有没有办法知道两个文档之间的相异分数和相异特征？如何评估它？

浏览 1提问于2018-07-03得票数 0

1回答

基于关键字数量的文档与其他文档相关的概率

statistics、probability

我有2个文档X和Y。如果用户搜索单词"Computer“，并且我想显示基于关键字"Computer”的最相关的文档。我的算法根据关键词在文档中出现的次数来选择最相关的文档。唯一的问题是文档X有10个单词，"Computer“出现两次，而文档Y有1000个单词，"Computer”出现100次。从文档中的字数来看，说文档Y比文档X更相关是不正确的。如何对此进行规范化，以获得最准确的相关文档。

浏览 8提问于2016-01-09得票数 0

1回答

潜在语义分析如何处理语义

nlp、latent-semantic-analysis

我已经通过了LSA方法。有人说，LSA可以用于语义分析。但我不明白它在LSA是如何运作的。有人能告诉我LSA是如何处理语义的吗。

浏览 5提问于2014-08-15得票数 1

回答已采纳

1回答

( model.docvecs.similarity_unseen_docs(document_1，document_2获得负分数)

python、nlp、nltk、gensim

我试图找出两个文档，即'document_1‘和'document_2’之间的相似性。我正在使用Doc2Vec Gensim的来寻找相似性评分。 score = model.docvecs.similarity_unseen_docs(trainedModel, document_1, document_2) print(score) 分数为负值的地方。这里，document_1和document_2是NLTK的word_tokenize()的结果。当我们试图找出两个"tokenized“文档之间的相似性时，负分数意味着什么？ P.S:对模型进行了10个文档(每个2

浏览 2提问于2019-11-15得票数 0

2回答

scikit cosine_similarity vs pairwise_distances

python、nlp、scikit-learn

Scikit-learn的sklearn.metrics.pairwise.cosine_similarity和sklearn.metrics.pairwise.pairwise_distances(..的区别是什么Metric=“余弦”)？ from sklearn.feature_extraction.text import TfidfVectorizer documents = ( "Macbook Pro 15' Silver Gray with Nvidia GPU", "Macbook GPU" ) tfidf_v

浏览 2提问于2016-02-09得票数 7

回答已采纳

1回答

在比较不同文档对之间的余弦相似度时，是否需要调整长度？

machine-learning、nlp、cosine-similarity

假设我有两个文档，A和B，每个文档有两个版本，1和2。我计算(A1，A2)和(B1，B2)的余弦相似度。设Sa =余弦(A1，A2)，Sb =余弦(B1，B2)。如果Sa < Sb，我可以说文档A比文档B有更大的变化或更新吗？一篇论文指出：“一对文档越长，两个文档中包含一个单词的可能性就越大，导致文档不同的可能性较低(有关分析证据，请参阅附录B)。”论文可以在上找到。这是真的吗？由于词汇表的大小有限，这一说法对于Jaccard相似性可能是正确的。但是，余弦相似性是一个角度，从直觉上讲，文档的长度并不重要。如果这是真的，那么调整长度的相似性分数的最佳方法是什么，以便我可以在不同的文档

浏览 0提问于2019-05-05得票数 0

1回答

如何使用python使用StanfordNER对命名实体进行聚类

python、nlp、nltk、stanford-nlp、named-entity-recognition

Stanford提供了NERs来检测POS标签和NERs。但是当我试图分析的时候，我正面临一个问题。这句话如下： Joseph E. Seagram & Sons, INC said on Thursday that it is merging its two United States based wine companies 下面是我的代码 st = StanfordNERTagger('./stanford- ner/classifiers/english.all.3class.distsim.crf.ser.gz',

浏览 3提问于2018-06-07得票数 1

回答已采纳

1回答

如何比较Python中两个文档的主题分布之间的主题相似性？

python、gensim、lda

我用Gensim在语料库上训练了一个LDA模型。现在我已经有了每个文档的主题分布，如何比较两个文档在主题中的相似程度？我想要一个简要的措施。例如，以下是两个文档的主题分布。总共有75个主题。为了简洁起见，我只展示了概率最大的前10个主题(因此主题不太合适)。(40，0.5523168)表示主题#40对于DOC #1的概率为0.5523168。我应该计算两个向量之间的欧几里德距离还是余弦距离？使用这个概括度量，我是否可以说，例如，DOC 1比DOC2更类似于DOC3，或者DOC1和DOC 2在局部上比DOC 3和DOC 4更相似？谢谢! DOC #1: [(40, 0.5523168), (60

浏览 2提问于2019-03-22得票数 4

回答已采纳

1回答

基于内容的推荐可能吗？

algorithm、mahout、recommendation-engine、cosine-similarity

我在探索基于内容的算法，所以我了解到基于内容的算法是用来计算项目和用户之间的相似度的，就像"pandora“一样。所以我的要求是我有100的比例，例如用户可以喜欢40%的蔬菜和60%的非蔬菜，有喜欢/不喜欢的比例，项目也会有蔬菜，非蔬菜属性。是否可以计算用户偏好比例和项目的相似度，或者是否有符合我需求的算法或帮助我的文档？提前感谢

浏览 2提问于2015-07-23得票数 0

2回答

两个矩阵之间的余弦相似度计算

python、matrix、cosine-similarity

我有一个计算两个矩阵之间余弦相似度的代码： def cos_cdist_1(matrix, vector): v = vector.reshape(1, -1) return sp.distance.cdist(matrix, v, 'cosine').reshape(-1) def cos_cdist_2(matrix1, matrix2): return sp.distance.cdist(matrix1, matrix2, 'cosine').reshape(-1) list1 = [[1,1,1],[1,2,1]] list

浏览 1提问于2015-05-10得票数 5

2回答

使用相同源的余弦相似和完全不同的结果

python、machine-learning、cosine-similarity、word-embedding、machine-translation

我正在学习单词嵌入和余弦相似性。我的数据是由两组相同的词组成的，但用的是两种不同的语言。我做了两次测试：我用单词向量的平均值来度量余弦相似度(我认为它应该被称为软余弦相似度)。我用单词向量测量了余弦的相似性。我是否应该期望获得同样的结果？我注意到有时我有两个相反的结果。因为我是新来的，所以我想弄清楚我是否做错了什么，或者背后是否有解释。根据我所读到的，软余弦相似度应该比通常的余弦相似度更准确。现在，是时候给你展示一些数据了。不幸的是，我不能发布我的一部分数据(文字本身)，但我会尽我最大的努力给你的信息，我可以给你。在此之前的一些其他细节：我使用FastText

浏览 3提问于2019-07-24得票数 0

回答已采纳

2回答

在ElasticSearch中有没有一种算法可以给出向量之间的相似度？

mongodb、elasticsearch、machine-learning、deep-learning、elastic-stack

在我开始之前，我真的不知道Elastic是什么以及它是如何工作的。我是ML工程师，最近被分配了Image - Image similarity的任务。我开发了一个模型，它将为每个图像提供一个向量，然后我必须比较该模型(如Manhattan, Euclidean, cosine etc )提供的向量之间的距离。我可以很容易地做到这一点，但问题是，我有大约200M图像的巨大数据，我不能将所有的向量存储在内存中，即使我这样做了，我也几乎不可能与每个单元进行比较，因为这将是O(12M)比较。所以我想知道，有没有向量搜索的算法，像Okapi BM25这样的文本搜索算法。我的向量看起来像：[0.2,

浏览 27提问于2020-12-30得票数 0

1回答

当Word2Vec使用点积相似性进行训练时，为什么还要使用余弦相似性

nlp、word2vec、cosine-similarity、word-embedding、dot-product

根据我在stackoverflow上找到的几篇文章(例如这个Why does word2Vec use cosine similarity?)，在我们训练了一个word2vec ( CBOW或Skip-gram)模型之后，计算两个词向量之间的余弦相似度是一种常见的做法。然而，这对我来说似乎有点奇怪，因为该模型实际上是用点积作为相似度分数进行训练的。这一点的一个证据是，我们在训练后得到的词向量的范数实际上是有意义的。那么，为什么人们在计算两个单词之间的相似度时仍然使用余弦相似度而不是点积呢？

浏览 132提问于2019-01-29得票数 7

1回答

如何获得与自动编码器的相似性？

deep-learning、similarity、autoencoder

我已经建立了一个自动编码器从一个非常高的维度(200维)空间提取一个更小但重要的表示(16个维度)。现在我有了这些“编码”向量，我想要计算某种相似的分数，或者聚类。我不知道在这一点上适用哪一种距离概念。考虑到我使用了自动编码器，我有什么想法可以得到相似/聚类吗？

浏览 0提问于2019-07-08得票数 1

回答已采纳

1回答

句子转换器如何预测新实例

python、nlp、huggingface-transformers、sentence、sentence-similarity

我正在探索句子转换器，并偶然发现了这个。它展示了如何对我们的自定义数据进行培训。但我不知道该怎么预测。如果有两个新句子，如1)这是第三个例子，2)这是第三个例子。我怎么能预测到这些句子有多相似呢？ from sentence_transformers import SentenceTransformer, InputExample, losses from torch.utils.data import DataLoader #Define the model. Either from scratch of by loading a pre-trained model model = Sen

浏览 1提问于2022-01-04得票数 2

1回答

在余弦相似度中对数字比字符串应用更多的权重

python、scikit-learn、cosine-similarity

我有一个程序，可以从互联网上提取地址，并将其与数据库进行核对。它很有用，但我现在正在尝试引入一个相似性函数，将互联网上的地址与我数据库中的地址进行比较。我使用下面的脚本来检查余弦相似度如何比较地址： import string from sklearn.metrics.pairwise import cosine_similarity from sklearn.feature_extraction.text import CountVectorizer addresses = [ '705 Sherlock House, 221B Baker Street, London NW

浏览 3提问于2020-05-24得票数 0

1回答

理解并解释建议

r、recommendation-engine

我正在尝试使用推荐实验室来构建一个UBCF并生成推荐。这个过程是可以的，预测似乎是有意义的。我需要的是向我的同行(商业和营销)解释为什么我要向那些用户推荐这些项目。我的代码是： library(recommenderlab) data(Jester5k) r <- sample(Jester5k, 1000) rec_ub <- Recommender(r[1:100],method="UBCF", param=list(normalize = "Z-score",method="Cosine", nn=3,minRatin

浏览 2提问于2015-02-18得票数 0

1回答

如何通过LightFM python包生成用户对用户推荐？

python、python-3.x、matrix、recommendation-engine、recommender-systems

我正在通过以下代码创建一个数据集： from lightfm.data import Dataset from lightfm import LightFM dataset = Dataset() dataset.fit((row['id'] for row in user_queryset.values()), (row['id'] for row in item_queryset.values())) num_users, num_items = dataset.interactions_shape() (intera

浏览 37提问于2019-02-17得票数 2

回答已采纳

1回答

项目间的余弦相似性(购买数据)与标准化

recommender-system、apache-spark、pyspark、cosine-distance

我使用表示产品用户购买行为的IndexedRowMatrix，为了构建产品推荐，我使用余弦相似度来计算产品之间的相似性。PySpark提供了一个名为columnSimilarities()的函数。我的问题是，在使用columnSimilarities()之前，是否需要规范每个产品的向量？我读过关于归一化和余弦相似的文章，并且理解余弦相似已经对向量进行了归一化，就好像我们把向量规范化了一样，余弦相似性就是这两个向量的点乘积。参考文献另外，余弦相似度与点积的距离度量问题中的一个答案表明，Sometimes it is desirable to ignore the magnitude, hen

浏览 0提问于2018-11-19得票数 3

1回答

基于多词相似度的聚类

machine-learning、nlp、cluster-analysis、word-embedding

我正在尝试实现对银行事务数据的群集。数据集包含关于Vendor和MCC的列，它们是string。这些列中有太多不同的值，我想根据一些指标(如cosine similarity for Vendor or MCC )进行集群。(例如，'Hotel A'和'Hotel B'可以在同一个集群中。)我认为Levenshtein distance是不够的。我考虑为MCC找到一个语料库，并建立一个模型来查找单词之间的相似性。这个方法对这个问题有好处吗？如果没有，我如何处理这些列？如果是，是否有这样的语料库？数据源：

浏览 4提问于2020-08-08得票数 0

2回答

可以仅使用非空值在行之间使用余弦相似性吗？

python、pandas、trigonometry

我想要找到一个查询行和另外10个行之间的余弦相似度(或者欧几里得距离，如果更容易)。这些行都是nan值，因此如果列是nan，则忽略它们。例如，查询： A B C D E F 3 2 NaN 5 NaN 4 df = A B C D E F 2 1 3 NaN 4 5 1 NaN 2 4 NaN 3 . . . . . . . . . . . . 因此，我只想得到查询的每个非空列与df列中的行之间的余弦相似性。因此，对于df中的第0行，B和F在查询和df中都是非空的。然后，

浏览 0提问于2019-02-11得票数 5

回答已采纳

1回答

潜在语义索引

svd、latent-semantic-indexing

我正在尝试找出如何在LSI中实现SVD后产生的矩阵的乘法。我需要这个来做研究。我想要进行文档聚类。

浏览 3提问于2010-07-29得票数 0

2回答

协同过滤中分类变量相似度的计算

python、recommendation-engine、collaborative-filtering

我正在尝试构建一个使用协作过滤的推荐系统。我有用户项数据集.我无法找到相似的用户之间的相似性，因为我不能使用欧几里德/余弦距离将无法在这里工作。，如果我将分类变量转换为0，1，则无法计算距离。请您在python中提出处理分类数据的推荐算法，好吗？

浏览 7提问于2019-10-14得票数 0

1回答

单词/句子相似度。最好的方法是什么？

python、nlp

我需要为产品主数据构建一个算法，我不确定最好的NLP方法。场景是：-我有产品黄金记录；-我有许多其他需要协调的产品目录；例如：-产品黄金记录:可口可乐和可口可乐零；-需要进行哈密化的产品描述:可口可乐300ml，可口可乐300毫升，可口可乐零。我需要一个通过相似度来协调的算法，因为我必须考虑打字错误，有时还需要考虑句子中的产品片段。示例: Coke zero JS MKT (JS和MKT是垃圾，但句子更类似于Coke Zero)。我一直在测试一些NLP的句子相似度，比如Bag of words，以及阅读其他一些方法，比如Cosine相似度和Levenshtein距离。然而，我不知道对我的情

浏览 14提问于2019-07-31得票数 0

回答已采纳

1回答

Perl中的N-Gram、tf-idf和余弦相似度

perl、similarity、tf-idf、n-gram

我正在尝试在每一行的多个单词中做一些模式‘挖掘’。我已经使用perl中的Text::Ngrams模块进行了N元语法分析，它给出了每个单词的频率。然而，我对这篇文章中的发现模式感到相当困惑。我猜tf-idf也能找到频率，但这与我做的Ngram分析有什么不同，相似性度量也有什么帮助。有没有什么perl模块或代码片段可以让我理解其中的一些概念。请我是一个物理背景，但必须做一些模式识别，所以我是一个新的一些，在这个主题上的一个很好的参考将不胜感激。

浏览 0提问于2011-06-27得票数 0

回答已采纳

1回答

如何匹配来自不同eCommerce来源的产品？提取产品属性

machine-learning、classification、e-commerce、text-extraction、mallet

这是我的第二个问题，所以，如果有任何错误，请道歉。我的主要目标是从不同的电子商务网站收集数据，然后比较它们之间的数据。要做到这一点，我需要匹配相同的产品从不同的网站。由于不同的站点编写标题的方式不同，我需要从标题中提取产品的属性才能正确匹配。我使用收集数据，但无法与来自不同站点的同一产品相匹配。我的尝试：首先，我收集品牌，模型等，然后以传统的方式与标题相匹配。但是它不能工作，因为它不能收集所有的模型名称进行比较。而且，不同类别的产品属性是不同的，而不是相似的。我正在努力寻找解决方案，这将适用于各种产品。可以学习和识别品牌、型号、属性(RAM、英寸、ROM、照相机等) 我也尝试应用机器学习

浏览 0提问于2018-06-05得票数 1

回答已采纳

4回答

在语义相似性方面，是否有比较字符串的好的NLP？

machine-learning、python、nlp、similarity、software-recommendation

我想要创建一个聊天机器人，它告诉用户在街道上的交通情况，但暂时不是实时的。我用MySQL创建了一个小型数据库，其中存储了一些有关流量的数据，并根据用户与聊天机器人的交互情况，在适当的时候使用PHP脚本获取这些数据。我想知道当用户询问同一个问题的变化时，如何处理这个问题，因此可以用相同的答案来回答。例如：为什么大街上有车辆？高街交通的原因是什么？我为什么在高街遇到交通堵塞？我在大街上堵车了。为什么会这样呢？显然，我可以从删除停止词(例如did)、命名实体(例如，公路->大街)、定义同义词和应用文本相似性度量(例如Levenshtein距离等)开始。然而，如果我这样做的话，我想

浏览 0提问于2018-04-19得票数 4

2回答

如何在有新向量的预计算矩阵中求余弦相似度？

python、pandas、machine-learning、scikit-learn、computer-vision

我有一个包含5000项(行)和2048个特性(列)的dataframe。我的数据形状是(5000,2048)，当我用滑雪板中的成对距离计算余弦矩阵时，得到了(5000,5000)矩阵。在这里我可以互相比较。但是现在，如果我有一个新的(1,2048)的向量形状，如何利用我已经计算过的(5000,5000)余弦矩阵，找到这个项目与我所拥有的早期数据的余弦相似性？编辑 PS:，我可以将这个新向量附加到我的数据中，然后再计算余弦相似度。但对于大量的数据，它变得缓慢。或者还有其他快速和准确的距离度量吗？

浏览 7提问于2019-11-26得票数 0

3回答

欧几里德距离vs皮尔逊相关性vs余弦相似度？

algorithm、computer-science、vector

他们的目标都是一样的:找到相似的向量。在哪种情况下你会使用哪一种？(有什么实际的例子吗？)

浏览 12提问于2009-12-03得票数 48

回答已采纳

1回答

在多个维度(类别)上测量两个对象之间的相似性

r、matrix、similarity、lda

这个问题可能更适合于像cross-validated这样的板，但我在这里请求一些输入。我正在尝试构建一个粗略的度量标准，以衡量多个维度(或类别)上任何一对对象之间的相似性(例如，它们可以是经济部门GDP的百分比或学生在多个科目中的成绩)。我脑海中的一些潜在候选者是来自LDA (潜在狄利克雷分配)的潜在主题方法，该方法在K个集群的列表中为每个单元分配(非零)概率，以及word2vec，该方法基于文本的矢量化分数来衡量任意两个语料库之间的相似性。但考虑到我要处理的对象通常具有固定数量的类别(例如，学术科目、经济部门)和有界分布(例如，在0到100之间)。我想知道，对于这项任务，什么是更合适的

浏览 30提问于2021-03-18得票数 0

1回答

有没有办法在具有不同值的句子嵌入之间创建余弦相似度矩阵？

python、arrays、matrix、nlp、cosine-similarity

我想创建一个大小为7x7的余弦相似度矩阵，其中矩阵的每个元素都是两个大小为1024的数组的余弦相似度。 [[ 0.1463873 0.6160218 -0.8804966 ... 1.520877 0.09114664 0.14081596]] [[ 0.54208326 0.7649026 -1.4366877 ... 1.6818116 -0.20427406 0.3631045 ]] [[ 0.32065052 0.67767006 -1.2465438 ... 0.6658634 -0.17746 0.39568862]] [[ 0.

浏览 1提问于2020-09-15得票数 0

1回答

向现有余弦相似度矩阵添加新元素

python、cosine-similarity、trigonometry

我用sklearn.metrics.pairwise中的cosine_similarity计算了一个余弦相似度矩阵。 Matrix: 2414514 413915 419480 473104 534621 609406 654913 654914 \ 2414514 1.000000 0.0 0.0 0.0 0.0 0.0 0.755929 0.755929 413915 0.000000 1.0 0.0 0.0 0.0 1.0 0.000000 0.00000

浏览 9提问于2019-04-02得票数 0

1回答

理解两个TF-IDF向量相似的原因

text、scikit-learn、nlp

我想要一些关于理解TF-IDF向量结果的方法的反馈，以及可能的替代方法。现在，我有两个文本语料库。目标是找到每个语料库中的哪些文档最相似。当我找到一个有趣的匹配项时，我想知道为什么，所以我实现了一个名为why_match()的简单函数，但我想帮助了解它是否是一种有效的方法。它是这样工作的： def why_match(doc_vector_a, doc_vector_b, sklearn_tfidfvectorizer): distance = abs(doc_vector_a - doc_vector_b) nearest_words = np.array((dista

浏览 2提问于2018-10-27得票数 0

2回答

如何在Python中对dict的值进行聚类？

python、python-2.7、dictionary、hierarchical-clustering

基本上，我在Python中有一个dict，它使用字符串键和int数组作为值。 dict = {"Option1Results" : [4, 1, 5, 2, 4], "Option2Results" : [11, 44, 2, 1, 5], .... } 我想在这个字典上实现基于值的交集的层次聚类。例如，假设Option1Results和Option4Results共享大约70%的相同整数，然后将它们聚集在一起。除了遍历字典并逐个比较值之外，还有什么方法可以做到这一点吗？

浏览 10提问于2017-07-25得票数 1

1回答

在自然语言处理(NLP)中，如何进行有效的降维？

text、machine-learning、nlp、dimensionality-reduction、dimension-reduction

在NLP中，通常情况下，特征的维度非常大。例如，对于手头的一个项目，特征的维度几乎是20,000 (p = 20,000)，并且每个特征都是一个0-1整数，以显示论文中是否存在特定的单词或二元语法(一篇论文是R^{p}$中的数据点$x \)。我知道特征之间的冗余度很大，所以降维是必要的。我有三个问题： 1)我有10,000个数据点(n = 10,000)，每个数据点有10,000个特征(p = 10,000)。进行降维的有效方法是什么？R^{n \x p}$中的矩阵奇异值分解( $X )是如此之大，以至于主成分分析(或奇异值分解，截断奇异值分解)都可以，但我不认为奇异值分解是降低二进制特征维

浏览 13提问于2014-11-21得票数 6

2回答

如何使用LSA计算句子之间的相似度？

lsa

我已经理解了当计算单词之间的相似度时LSA是如何工作的。我正在使用lsa.colorado.edu网站上的LSA，但我找不到一个来源，即句子或多个单词之间的相似度是如何计算的。这仅仅是通过平均所有成对的相似性来完成的吗？

浏览 1提问于2012-12-17得票数 1

1回答

用词向量表示句子的余弦相似度现在可以衡量词序吗？

nlp、deep-learning

我知道，原始的余弦相似度，当应用于通过特定单词的频率来表示两个文档时，并不衡量词序。我现在看到一大堆论文将余弦相似度应用于由单词向量组成的句子对的表示。我假设他们把每个句子的token# x嵌入长度矩阵展平成一个长向量，它的长度是原始句子的token# x嵌入长度。因此，“我爱你”和“你爱我”(归一化为"I")在这种应用余弦相似性的新方法中不会产生1，而旧方法会产生1。我说的对吗?谢谢你的任何启发性的回答。

浏览 2提问于2016-06-21得票数 1

3回答

Jaccard相似与余弦相似的应用与区别

similarity

Jaccard相似度和余弦相似度是比较项目相似性时常用的两种度量方法。然而，在哪种情况下哪一种比另一种更可取，我并不十分清楚。有人能帮助澄清这两种测量方法的差异(概念或原理的差异，而不是定义或计算)及其更好的应用吗？

浏览 0提问于2015-02-12得票数 39

回答已采纳

1回答

如何度量回答相同问题的用户之间的相似性？

machine-learning、recommendation-engine、collaborative-filtering

我正在做一个向用户推荐内容的项目。我想从每个用户创建一个配置文件，这样我就可以对它们进行聚类并提供共同的建议，但在我必须能够度量这些用户之间的相似性之前。我想过一份可以用模糊标签填写的问卷。我的问题是如何度量回答此类问题的两个用户U1和U2的相关性(相似性)？ Q1.我认为东京是个好城市。U1:完全同意U2:部分同意，Q2，，我读过唐吉诃德。U1:完全不同意U2:完全同意 ..。 Qn.我认为塔伦蒂诺是个好电影导演。U1:部分同意U2:部分同意我曾想过将答案转换成数值，然后尝试计算Pearson相关系数。但我不知道是否有更优雅的方法来做到这一点。

浏览 3提问于2012-11-05得票数 0

1回答

NLP如何获取两个文档之间的差异

nlp、scikit-learn、stanford-nlp、gensim、spacy

我有2个文档A-B (或2系列文档)，我想要一个新的文档来显示这两个文档之间的差异: A-B 根据不同，有几种定义，一种是:单词列表/“概念”包括在A中但不包括在B中。我正在考虑对A和B的每个句子使用TF IDF，例如： from sklearn.feature_extraction.text import TfidfVectorizer d1 = [open(f1) for f1 in text_files] tfidf = TfidfVectorizer().fit_transform(d1) pairwise_similarity = tfidf * tfidf.T 我不确定这是否与生

浏览 0提问于2016-06-08得票数 0

1回答

基于浮点数组余弦相似度的Elasticsearch排序

elasticsearch

是否可以基于两个不同浮点数组的余弦相似度进行排序？类似于您可以通过传递坐标进行排序来按地理距离排序吗？

浏览 0提问于2017-10-31得票数 2

1回答

三重损失暹罗神经网络模型评价(model.evaluate) -- tensorflow

tensorflow、keras、deep-learning、siamese-network、triplet

我训练了一个使用三重态损失的暹罗神经网络。这很痛苦，但我想我成功了。然而，我很难理解如何用这个模型来进行评估。 SNN： def triplet_loss(y_true, y_pred): margin = K.constant(1) return K.mean(K.maximum(K.constant(0), K.square(y_pred[:,0]) - 0.5*(K.square(y_pred[:,1])+K.square(y_pred[:,2])) + margin)) def euclidean_distance(vects): x, y = vects

浏览 12提问于2022-04-22得票数 6

回答已采纳