余弦相似度c语言_余弦相似度很慢_js 余弦相似度 - 腾讯云开发者社区

matlab、cluster-analysis、distance、cosine-similarity

我使用k-means对归一化数据进行聚类。我使用了不同的相似度矩阵，如欧几里得、曼哈顿和余弦，当我使用余弦相似度时，Dunn指数为负值。我读到过邓恩指数的取值范围从0到无穷大。使用余弦相似度计算Dunn指数是正确的吗？我用过this implementation of Dunn Index。

浏览 94提问于2019-06-12得票数 1

回答已采纳

1回答

归一化基于tf-idf计算的余弦相似度值

python、normalization、tf-idf、cosine-similarity

我计算基于余弦相似度的tf-idf矩阵： tfidf_vectorizer_desc = TfidfVectorizer(min_df=5, max_df=0.8, use_idf=True, smooth_idf=True, sublinear_tf=False, tokenizer=tokenize_and_stem) %time tfidf_matrix_desc = tfidf_vectorizer_desc.fit_transform(descriptions) #fit the vectorizer to text sim_desc = cosine_similarity(tfid

浏览 4提问于2016-06-14得票数 0

1回答

在没有方向的情况下，如何利用文档特征向量上的余弦相似度公式？

classification、vector-space-models

在数学中，向量具有大小和方向。在数据科学中，为了识别文档的相似性，我们将文档转换为特征向量。然后应用源文档与目标文档特征向量之间的余弦角公式。然而，余弦公式仅适用于向量。一个矢量应该有两个震级和方向。对于表示为向量的文档，方向在哪里？

浏览 0提问于2020-05-17得票数 1

1回答

关于word2vec most_similar()函数

text-mining、gensim、word2vec

我使用如下的most_similar()方法来获取与给定单词相似的所有单词： word,score= model.most_similar('apple',topn=sizeofdict) AFAIK，它的作用是计算给定单词和字典中所有其他单词之间的余弦相似度。当我检查单词和分数时，我可以看到列表中有负分数的单词。这是什么意思？它们是与给定单词具有相反含义的单词吗？另外，如果它使用余弦相似度，它是如何得到负值的？对于两个文档，余弦相似度在0-1之间变化。

浏览 2提问于2016-01-19得票数 5

2回答

可以仅使用非空值在行之间使用余弦相似性吗？

python、pandas、trigonometry

我想要找到一个查询行和另外10个行之间的余弦相似度(或者欧几里得距离，如果更容易)。这些行都是nan值，因此如果列是nan，则忽略它们。例如，查询： A B C D E F 3 2 NaN 5 NaN 4 df = A B C D E F 2 1 3 NaN 4 5 1 NaN 2 4 NaN 3 . . . . . . . . . . . . 因此，我只想得到查询的每个非空列与df列中的行之间的余弦相似性。因此，对于df中的第0行，B和F在查询和df中都是非空的。然后，

浏览 0提问于2019-02-11得票数 5

回答已采纳

1回答

使用tensorflow获取负余弦距离

python、tensorflow、cosine-similarity

我正在使用tf.losses.cosine_distance(Y, outputs, axis=2, reduction=tf.losses.Reduction.MEAN)来衡量我的标签和预测之间的差异。张量形状为[batch_size, sequence_length, embedding]。在我的例子中，预测的形状是[16311, 20, 100]。我的结果如下。 ----------------------epoch1---------------------- train 1 loss 1.1429076 ----------------------epoch2----------

浏览 0提问于2019-05-29得票数 1

1回答

理解并解释建议

r、recommendation-engine

我正在尝试使用推荐实验室来构建一个UBCF并生成推荐。这个过程是可以的，预测似乎是有意义的。我需要的是向我的同行(商业和营销)解释为什么我要向那些用户推荐这些项目。我的代码是： library(recommenderlab) data(Jester5k) r <- sample(Jester5k, 1000) rec_ub <- Recommender(r[1:100],method="UBCF", param=list(normalize = "Z-score",method="Cosine", nn=3,minRatin

浏览 2提问于2015-02-18得票数 0

1回答

尝试计算搜索词之间的相似度

algorithm、text、machine-learning

我想为在google上搜索的搜索查询计算某种相似度分数。这意味着，在其他事情中，单词的顺序并不一定重要。例如： “阿迪达斯蓝色鞋子”和“蓝色鞋子阿迪达斯” 应该被认为是完全相同的序列，而我认为在许多传统的距离算法中并非如此。我猜上面的例子可以用余弦相似度解决，但如果我有： “蓝色阿迪达斯鞋” 我想算法产生一个非常相似的距离，原来的“”阿迪达斯鞋蓝色“ 这样的算法存在吗？

浏览 0提问于2017-07-03得票数 0

1回答

在多个维度(类别)上测量两个对象之间的相似性

r、matrix、similarity、lda

这个问题可能更适合于像cross-validated这样的板，但我在这里请求一些输入。我正在尝试构建一个粗略的度量标准，以衡量多个维度(或类别)上任何一对对象之间的相似性(例如，它们可以是经济部门GDP的百分比或学生在多个科目中的成绩)。我脑海中的一些潜在候选者是来自LDA (潜在狄利克雷分配)的潜在主题方法，该方法在K个集群的列表中为每个单元分配(非零)概率，以及word2vec，该方法基于文本的矢量化分数来衡量任意两个语料库之间的相似性。但考虑到我要处理的对象通常具有固定数量的类别(例如，学术科目、经济部门)和有界分布(例如，在0到100之间)。我想知道，对于这项任务，什么是更合适的

浏览 30提问于2021-03-18得票数 0

1回答

word2vec的余弦相似性大于1

python、apache-spark、pyspark

浏览 0提问于2016-12-29得票数 6

2回答

当一个单词出现的顺序或次数不重要时，两个字符串之间的最佳匹配？

c#、algorithm、string、word、pattern-matching

当一个单词出现的顺序或次数不重要时，在C#中匹配或计算两个字符串之间的距离的最佳算法是什么？最佳手段： matchElegantEfficientScalable，主要同意人工字符串，这样输入字符串就可以与其他字符串的潜在大集合相匹配。相关问题：一些注意事项：由于顺序和发生的独立性，输入可以被认为是一组独特的单词，而不是charactersNot数组意义上的字符串，专门寻找数据库解决方案，尽管interestingI'm太老了，不可能成为家庭作业问题;)。

浏览 2提问于2009-05-12得票数 2

1回答

gensim similar_by_word函数的相似度是多少？

gensim

基因similar_by_word函数的相似性是多少？我在这里读到了基因similar_by_word函数： similar_by_word函数返回一个序列(word，相似性)。这里的相似性定义是什么?它是如何计算的？

浏览 0提问于2019-02-11得票数 0

回答已采纳

1回答

NLP如何获取两个文档之间的差异

nlp、scikit-learn、stanford-nlp、gensim、spacy

我有2个文档A-B (或2系列文档)，我想要一个新的文档来显示这两个文档之间的差异: A-B 根据不同，有几种定义，一种是:单词列表/“概念”包括在A中但不包括在B中。我正在考虑对A和B的每个句子使用TF IDF，例如： from sklearn.feature_extraction.text import TfidfVectorizer d1 = [open(f1) for f1 in text_files] tfidf = TfidfVectorizer().fit_transform(d1) pairwise_similarity = tfidf * tfidf.T 我不确定这是否与生

浏览 0提问于2016-06-08得票数 0

1回答

两个文档之间的不同特征

nlp、nltk、gensim、cosine-similarity

我试图找出这两份文件之间的不同之处。我正在使用gensim，到目前为止已经获得了相似度分数。有没有办法知道两个文档之间的相异分数和相异特征？如何评估它？

浏览 1提问于2018-07-03得票数 0

1回答

基于关键字数量的文档与其他文档相关的概率

statistics、probability

我有2个文档X和Y。如果用户搜索单词"Computer“，并且我想显示基于关键字"Computer”的最相关的文档。我的算法根据关键词在文档中出现的次数来选择最相关的文档。唯一的问题是文档X有10个单词，"Computer“出现两次，而文档Y有1000个单词，"Computer”出现100次。从文档中的字数来看，说文档Y比文档X更相关是不正确的。如何对此进行规范化，以获得最准确的相关文档。

浏览 8提问于2016-01-09得票数 0

2回答

使用python对值列表进行余弦距离计算

python、arrays、numpy、distance、trigonometry

我的目标是通过从列表中取一个值来计算f列表(f=[[3492.6], [13756.2], [22442.1], [22361.9], [26896.4]])中每个值的余弦相似度，并计算列表中其他值与之的余弦距离有多近。因此，结果应该是五个不同的相似性分数。然而，由于某些原因，即使当我在其他数据集上测试代码时，我也一直将1.0作为余弦相似度。显然，与[13756.2]相比，[22361.9]更类似于[22442.1] (相对于距离)。参见下面的代码； import numpy.linalg as LA import numpy as np import sys f=[[3492.6], [1

浏览 0提问于2013-07-29得票数 3

1回答

潜在语义分析如何处理语义

nlp、latent-semantic-analysis

我已经通过了LSA方法。有人说，LSA可以用于语义分析。但我不明白它在LSA是如何运作的。有人能告诉我LSA是如何处理语义的吗。

浏览 5提问于2014-08-15得票数 1

回答已采纳

1回答

在比较不同文档对之间的余弦相似度时，是否需要调整长度？

machine-learning、nlp、cosine-similarity

假设我有两个文档，A和B，每个文档有两个版本，1和2。我计算(A1，A2)和(B1，B2)的余弦相似度。设Sa =余弦(A1，A2)，Sb =余弦(B1，B2)。如果Sa < Sb，我可以说文档A比文档B有更大的变化或更新吗？一篇论文指出：“一对文档越长，两个文档中包含一个单词的可能性就越大，导致文档不同的可能性较低(有关分析证据，请参阅附录B)。”论文可以在上找到。这是真的吗？由于词汇表的大小有限，这一说法对于Jaccard相似性可能是正确的。但是，余弦相似性是一个角度，从直觉上讲，文档的长度并不重要。如果这是真的，那么调整长度的相似性分数的最佳方法是什么，以便我可以在不同的文档

浏览 0提问于2019-05-05得票数 0

1回答

( model.docvecs.similarity_unseen_docs(document_1，document_2获得负分数)

python、nlp、nltk、gensim

我试图找出两个文档，即'document_1‘和'document_2’之间的相似性。我正在使用Doc2Vec Gensim的来寻找相似性评分。 score = model.docvecs.similarity_unseen_docs(trainedModel, document_1, document_2) print(score) 分数为负值的地方。这里，document_1和document_2是NLTK的word_tokenize()的结果。当我们试图找出两个"tokenized“文档之间的相似性时，负分数意味着什么？ P.S:对模型进行了10个文档(每个2

浏览 2提问于2019-11-15得票数 0

2回答

scikit cosine_similarity vs pairwise_distances

python、nlp、scikit-learn

Scikit-learn的sklearn.metrics.pairwise.cosine_similarity和sklearn.metrics.pairwise.pairwise_distances(..的区别是什么Metric=“余弦”)？ from sklearn.feature_extraction.text import TfidfVectorizer documents = ( "Macbook Pro 15' Silver Gray with Nvidia GPU", "Macbook GPU" ) tfidf_v

浏览 2提问于2016-02-09得票数 7

回答已采纳

2回答

在使用余弦相似之前，有什么理由(不是)L2-对向量进行规范化吗？

normalization、cosine-similarity、text2vec、vector-space

我读了Levy等人的论文“”，在讨论他们的超参数时，他们说：向量归一化()如第二节所述，所有向量(即W行)都归一化为单位长度(L2归一化)，使点积运算等价于余弦相似。然后，我回顾了R- sim2包中text2vec向量相似函数的默认值是L2-范数向量，首先： sim2(x, y = NULL, method = c("cosine", "jaccard"), norm = c("l2", "none")) 因此，我想知道，这其中的动机是什么，规范化和余弦(无论是在text2vec还是一般情况下)。我试着阅读L2范数，但

浏览 4提问于2018-07-11得票数 6

回答已采纳

1回答

如何使用python使用StanfordNER对命名实体进行聚类

python、nlp、nltk、stanford-nlp、named-entity-recognition

Stanford提供了NERs来检测POS标签和NERs。但是当我试图分析的时候，我正面临一个问题。这句话如下： Joseph E. Seagram & Sons, INC said on Thursday that it is merging its two United States based wine companies 下面是我的代码 st = StanfordNERTagger('./stanford- ner/classifiers/english.all.3class.distsim.crf.ser.gz',

浏览 3提问于2018-06-07得票数 1

回答已采纳

1回答

如何比较Python中两个文档的主题分布之间的主题相似性？

python、gensim、lda

我用Gensim在语料库上训练了一个LDA模型。现在我已经有了每个文档的主题分布，如何比较两个文档在主题中的相似程度？我想要一个简要的措施。例如，以下是两个文档的主题分布。总共有75个主题。为了简洁起见，我只展示了概率最大的前10个主题(因此主题不太合适)。(40，0.5523168)表示主题#40对于DOC #1的概率为0.5523168。我应该计算两个向量之间的欧几里德距离还是余弦距离？使用这个概括度量，我是否可以说，例如，DOC 1比DOC2更类似于DOC3，或者DOC1和DOC 2在局部上比DOC 3和DOC 4更相似？谢谢! DOC #1: [(40, 0.5523168), (60

浏览 2提问于2019-03-22得票数 4

回答已采纳

1回答

基于内容的推荐可能吗？

algorithm、mahout、recommendation-engine、cosine-similarity

我在探索基于内容的算法，所以我了解到基于内容的算法是用来计算项目和用户之间的相似度的，就像"pandora“一样。所以我的要求是我有100的比例，例如用户可以喜欢40%的蔬菜和60%的非蔬菜，有喜欢/不喜欢的比例，项目也会有蔬菜，非蔬菜属性。是否可以计算用户偏好比例和项目的相似度，或者是否有符合我需求的算法或帮助我的文档？提前感谢

浏览 2提问于2015-07-23得票数 0

1回答

为什么我得到的余弦相似度结果与库结果不同？

python、nlp、cosine-similarity、edit-distance

我尝试使用余弦距离()来计算两个单词的相似度。代码如下： def word2vec(word): from collections import Counter from math import sqrt # count the characters in word cw = Counter(word) # precomputes a set of the different characters sw = set(cw) # precomputes the "length" of the word vector

浏览 13提问于2020-05-14得票数 0

1回答

这是计算PyTroch中余弦相似性的正确方法吗？

python、pytorch、torch

cos = torch.nn.CosineSimilarity(dim=-1, eps=1e-6) c = torch.FloatTensor([1, 2, 4]) b = torch.FloatTensor([1, 2, 3]) simi = cos(b,c) tensor(0.9915) 我在这个函数中使用了dim=-1，这是否意味着它是一个一维浮点列表？这是正确的吗？

浏览 5提问于2022-01-20得票数 1

回答已采纳

2回答

使用相同源的余弦相似和完全不同的结果

python、machine-learning、cosine-similarity、word-embedding、machine-translation

我正在学习单词嵌入和余弦相似性。我的数据是由两组相同的词组成的，但用的是两种不同的语言。我做了两次测试：我用单词向量的平均值来度量余弦相似度(我认为它应该被称为软余弦相似度)。我用单词向量测量了余弦的相似性。我是否应该期望获得同样的结果？我注意到有时我有两个相反的结果。因为我是新来的，所以我想弄清楚我是否做错了什么，或者背后是否有解释。根据我所读到的，软余弦相似度应该比通常的余弦相似度更准确。现在，是时候给你展示一些数据了。不幸的是，我不能发布我的一部分数据(文字本身)，但我会尽我最大的努力给你的信息，我可以给你。在此之前的一些其他细节：我使用FastText

浏览 3提问于2019-07-24得票数 0

回答已采纳

1回答

当Word2Vec使用点积相似性进行训练时，为什么还要使用余弦相似性

nlp、word2vec、cosine-similarity、word-embedding、dot-product

根据我在stackoverflow上找到的几篇文章(例如这个Why does word2Vec use cosine similarity?)，在我们训练了一个word2vec ( CBOW或Skip-gram)模型之后，计算两个词向量之间的余弦相似度是一种常见的做法。然而，这对我来说似乎有点奇怪，因为该模型实际上是用点积作为相似度分数进行训练的。这一点的一个证据是，我们在训练后得到的词向量的范数实际上是有意义的。那么，为什么人们在计算两个单词之间的相似度时仍然使用余弦相似度而不是点积呢？

浏览 132提问于2019-01-29得票数 7

2回答

两个矩阵之间的余弦相似度计算

python、matrix、cosine-similarity

我有一个计算两个矩阵之间余弦相似度的代码： def cos_cdist_1(matrix, vector): v = vector.reshape(1, -1) return sp.distance.cdist(matrix, v, 'cosine').reshape(-1) def cos_cdist_2(matrix1, matrix2): return sp.distance.cdist(matrix1, matrix2, 'cosine').reshape(-1) list1 = [[1,1,1],[1,2,1]] list

浏览 1提问于2015-05-10得票数 5

1回答

如何获得与自动编码器的相似性？

deep-learning、similarity、autoencoder

我已经建立了一个自动编码器从一个非常高的维度(200维)空间提取一个更小但重要的表示(16个维度)。现在我有了这些“编码”向量，我想要计算某种相似的分数，或者聚类。我不知道在这一点上适用哪一种距离概念。考虑到我使用了自动编码器，我有什么想法可以得到相似/聚类吗？

浏览 0提问于2019-07-08得票数 1

回答已采纳

1回答

句子转换器如何预测新实例

python、nlp、huggingface-transformers、sentence、sentence-similarity

我正在探索句子转换器，并偶然发现了这个。它展示了如何对我们的自定义数据进行培训。但我不知道该怎么预测。如果有两个新句子，如1)这是第三个例子，2)这是第三个例子。我怎么能预测到这些句子有多相似呢？ from sentence_transformers import SentenceTransformer, InputExample, losses from torch.utils.data import DataLoader #Define the model. Either from scratch of by loading a pre-trained model model = Sen

浏览 1提问于2022-01-04得票数 2

1回答

在余弦相似度中对数字比字符串应用更多的权重

python、scikit-learn、cosine-similarity

我有一个程序，可以从互联网上提取地址，并将其与数据库进行核对。它很有用，但我现在正在尝试引入一个相似性函数，将互联网上的地址与我数据库中的地址进行比较。我使用下面的脚本来检查余弦相似度如何比较地址： import string from sklearn.metrics.pairwise import cosine_similarity from sklearn.feature_extraction.text import CountVectorizer addresses = [ '705 Sherlock House, 221B Baker Street, London NW

浏览 3提问于2020-05-24得票数 0

2回答

了解word2vec文本表示

nlp、word2vec

我想在我的程序中实现word2vec的distance部分。不幸的是，它不是用C/C++或Python编写的，但首先我不理解非二进制表示法。这就是我获取文件./word2vec -train text8-phrase -output vectorsphrase.txt -cbow 0 -size 300 -window 10 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 0的方法当我检查法国的vectorsphrase.txt文件时，得到的结果是： france -0.062591 0.264201 0.236335 -0.07260

浏览 3提问于2014-04-16得票数 3

1回答

布尔数据的相似度计算

recommender-system、similarity

我试图实现简单的推荐系统，并试图理解不同的方法来实现我的目标。我的数据集由用户和他们购买的物品组成。我有关于什么项目的用户购买的信息和这些项目的描述形式的标题。起初，我想我可以使用基于用户的协作过滤方法，但我仍然坚持这样做。我不太清楚如何计算布尔数据的相似性。例如，当我有这样的数据时 1 2 3 4 A 0 1 0 1 B 0 1 0 1 C 1 0 1 1 D 0 1 0 0 E 0 0 1 1 我想向用户E推荐项目，那么在这种情况下我应该如何计算相似性呢？例如，我从python中的scikit学习模块中选择了余弦相似性。但我不太清楚

浏览 0提问于2017-12-04得票数 2

1回答

如何通过LightFM python包生成用户对用户推荐？

python、python-3.x、matrix、recommendation-engine、recommender-systems

我正在通过以下代码创建一个数据集： from lightfm.data import Dataset from lightfm import LightFM dataset = Dataset() dataset.fit((row['id'] for row in user_queryset.values()), (row['id'] for row in item_queryset.values())) num_users, num_items = dataset.interactions_shape() (intera

浏览 37提问于2019-02-17得票数 2

回答已采纳

1回答

基于多词相似度的聚类

machine-learning、nlp、cluster-analysis、word-embedding

我正在尝试实现对银行事务数据的群集。数据集包含关于Vendor和MCC的列，它们是string。这些列中有太多不同的值，我想根据一些指标(如cosine similarity for Vendor or MCC )进行集群。(例如，'Hotel A'和'Hotel B'可以在同一个集群中。)我认为Levenshtein distance是不够的。我考虑为MCC找到一个语料库，并建立一个模型来查找单词之间的相似性。这个方法对这个问题有好处吗？如果没有，我如何处理这些列？如果是，是否有这样的语料库？数据源：

浏览 4提问于2020-08-08得票数 0

1回答

项目间的余弦相似性(购买数据)与标准化

recommender-system、apache-spark、pyspark、cosine-distance

我使用表示产品用户购买行为的IndexedRowMatrix，为了构建产品推荐，我使用余弦相似度来计算产品之间的相似性。PySpark提供了一个名为columnSimilarities()的函数。我的问题是，在使用columnSimilarities()之前，是否需要规范每个产品的向量？我读过关于归一化和余弦相似的文章，并且理解余弦相似已经对向量进行了归一化，就好像我们把向量规范化了一样，余弦相似性就是这两个向量的点乘积。参考文献另外，余弦相似度与点积的距离度量问题中的一个答案表明，Sometimes it is desirable to ignore the magnitude, hen

浏览 0提问于2018-11-19得票数 3

1回答

数据分析:组值流acc.趋同

python、stream、analytics、production

我的同事和我(都是机械工程师)喜欢学习python并解决新的有趣的问题。我们的问题：，我们希望分析组件的价值流(> 50.000)，并根据它们的价值流的相似性对它们进行分组。举个例子，假设我们有三种材料A、B和C，它们的数据如下： A= 610384,521056,112200,194825633，45 B= 10389,462,1028503 C= 10389,462,1028503,112200，45,194825633 每个数组表示一个值流，每个元素表示值流中的每台机器。例如，要生产，必须运行5台以上的机器。"610384“是值流中第一台机器的数目。如您所见，A和B与C

浏览 2提问于2019-11-19得票数 0

1回答

潜在语义索引

svd、latent-semantic-indexing

我正在尝试找出如何在LSI中实现SVD后产生的矩阵的乘法。我需要这个来做研究。我想要进行文档聚类。

浏览 3提问于2010-07-29得票数 0

2回答

协同过滤中分类变量相似度的计算

python、recommendation-engine、collaborative-filtering

我正在尝试构建一个使用协作过滤的推荐系统。我有用户项数据集.我无法找到相似的用户之间的相似性，因为我不能使用欧几里德/余弦距离将无法在这里工作。，如果我将分类变量转换为0，1，则无法计算距离。请您在python中提出处理分类数据的推荐算法，好吗？

浏览 7提问于2019-10-14得票数 0

1回答

单词/句子相似度。最好的方法是什么？

python、nlp

我需要为产品主数据构建一个算法，我不确定最好的NLP方法。场景是：-我有产品黄金记录；-我有许多其他需要协调的产品目录；例如：-产品黄金记录:可口可乐和可口可乐零；-需要进行哈密化的产品描述:可口可乐300ml，可口可乐300毫升，可口可乐零。我需要一个通过相似度来协调的算法，因为我必须考虑打字错误，有时还需要考虑句子中的产品片段。示例: Coke zero JS MKT (JS和MKT是垃圾，但句子更类似于Coke Zero)。我一直在测试一些NLP的句子相似度，比如Bag of words，以及阅读其他一些方法，比如Cosine相似度和Levenshtein距离。然而，我不知道对我的情

浏览 14提问于2019-07-31得票数 0

回答已采纳

4回答

在语义相似性方面，是否有比较字符串的好的NLP？

machine-learning、python、nlp、similarity、software-recommendation

我想要创建一个聊天机器人，它告诉用户在街道上的交通情况，但暂时不是实时的。我用MySQL创建了一个小型数据库，其中存储了一些有关流量的数据，并根据用户与聊天机器人的交互情况，在适当的时候使用PHP脚本获取这些数据。我想知道当用户询问同一个问题的变化时，如何处理这个问题，因此可以用相同的答案来回答。例如：为什么大街上有车辆？高街交通的原因是什么？我为什么在高街遇到交通堵塞？我在大街上堵车了。为什么会这样呢？显然，我可以从删除停止词(例如did)、命名实体(例如，公路->大街)、定义同义词和应用文本相似性度量(例如Levenshtein距离等)开始。然而，如果我这样做的话，我想

浏览 0提问于2018-04-19得票数 4

1回答

Perl中的N-Gram、tf-idf和余弦相似度

perl、similarity、tf-idf、n-gram

我正在尝试在每一行的多个单词中做一些模式‘挖掘’。我已经使用perl中的Text::Ngrams模块进行了N元语法分析，它给出了每个单词的频率。然而，我对这篇文章中的发现模式感到相当困惑。我猜tf-idf也能找到频率，但这与我做的Ngram分析有什么不同，相似性度量也有什么帮助。有没有什么perl模块或代码片段可以让我理解其中的一些概念。请我是一个物理背景，但必须做一些模式识别，所以我是一个新的一些，在这个主题上的一个很好的参考将不胜感激。

浏览 0提问于2011-06-27得票数 0

回答已采纳

1回答

如何匹配来自不同eCommerce来源的产品？提取产品属性

machine-learning、classification、e-commerce、text-extraction、mallet

这是我的第二个问题，所以，如果有任何错误，请道歉。我的主要目标是从不同的电子商务网站收集数据，然后比较它们之间的数据。要做到这一点，我需要匹配相同的产品从不同的网站。由于不同的站点编写标题的方式不同，我需要从标题中提取产品的属性才能正确匹配。我使用收集数据，但无法与来自不同站点的同一产品相匹配。我的尝试：首先，我收集品牌，模型等，然后以传统的方式与标题相匹配。但是它不能工作，因为它不能收集所有的模型名称进行比较。而且，不同类别的产品属性是不同的，而不是相似的。我正在努力寻找解决方案，这将适用于各种产品。可以学习和识别品牌、型号、属性(RAM、英寸、ROM、照相机等) 我也尝试应用机器学习

浏览 0提问于2018-06-05得票数 1

回答已采纳

1回答

如何根据常用词对文本进行分类

python、pandas、nlp、nltk

这个问题是关于基于常用词的文本分类，我不知道我是否正确地处理了这个问题我有一个excel，在"Description“列中有文本，在" ID”列中有一个唯一的ID，我想迭代描述，并根据文本中常见单词的百分比或频率比较它们。我想对描述进行分类，并给它们另一个ID。请参见下面的示例…… #importing pandas as pd import pandas as pd # creating a dataframe df = pd.DataFrame({'ID': ['12 ', '54'

浏览 21提问于2019-08-22得票数 0

2回答

如何在有新向量的预计算矩阵中求余弦相似度？

python、pandas、machine-learning、scikit-learn、computer-vision

我有一个包含5000项(行)和2048个特性(列)的dataframe。我的数据形状是(5000,2048)，当我用滑雪板中的成对距离计算余弦矩阵时，得到了(5000,5000)矩阵。在这里我可以互相比较。但是现在，如果我有一个新的(1,2048)的向量形状，如何利用我已经计算过的(5000,5000)余弦矩阵，找到这个项目与我所拥有的早期数据的余弦相似性？编辑 PS:，我可以将这个新向量附加到我的数据中，然后再计算余弦相似度。但对于大量的数据，它变得缓慢。或者还有其他快速和准确的距离度量吗？

浏览 7提问于2019-11-26得票数 0

3回答

欧几里德距离vs皮尔逊相关性vs余弦相似度？

algorithm、computer-science、vector

他们的目标都是一样的:找到相似的向量。在哪种情况下你会使用哪一种？(有什么实际的例子吗？)

浏览 12提问于2009-12-03得票数 48

回答已采纳

1回答

有没有办法在具有不同值的句子嵌入之间创建余弦相似度矩阵？

python、arrays、matrix、nlp、cosine-similarity

我想创建一个大小为7x7的余弦相似度矩阵，其中矩阵的每个元素都是两个大小为1024的数组的余弦相似度。 [[ 0.1463873 0.6160218 -0.8804966 ... 1.520877 0.09114664 0.14081596]] [[ 0.54208326 0.7649026 -1.4366877 ... 1.6818116 -0.20427406 0.3631045 ]] [[ 0.32065052 0.67767006 -1.2465438 ... 0.6658634 -0.17746 0.39568862]] [[ 0.

浏览 1提问于2020-09-15得票数 0

1回答

向现有余弦相似度矩阵添加新元素

python、cosine-similarity、trigonometry

我用sklearn.metrics.pairwise中的cosine_similarity计算了一个余弦相似度矩阵。 Matrix: 2414514 413915 419480 473104 534621 609406 654913 654914 \ 2414514 1.000000 0.0 0.0 0.0 0.0 0.0 0.755929 0.755929 413915 0.000000 1.0 0.0 0.0 0.0 1.0 0.000000 0.00000

浏览 9提问于2019-04-02得票数 0

1回答

理解两个TF-IDF向量相似的原因

text、scikit-learn、nlp

我想要一些关于理解TF-IDF向量结果的方法的反馈，以及可能的替代方法。现在，我有两个文本语料库。目标是找到每个语料库中的哪些文档最相似。当我找到一个有趣的匹配项时，我想知道为什么，所以我实现了一个名为why_match()的简单函数，但我想帮助了解它是否是一种有效的方法。它是这样工作的： def why_match(doc_vector_a, doc_vector_b, sklearn_tfidfvectorizer): distance = abs(doc_vector_a - doc_vector_b) nearest_words = np.array((dista

浏览 2提问于2018-10-27得票数 0