使用dataframe Scala Spark计算余弦相似度_spark dataframe (scala)中tf idf输出的余弦相似度_在scala中计算余弦相似度 - 腾讯云开发者社区

scala、dataframe、apache-spark、cosine-similarity

我想要的是计算两个用户的余弦相似度，我的想法是从这个数据帧中提取数组，然后计算余弦相似度，例如：问题是我不知道如何提取这些数组，有人有解决方案吗？或者以更好的方式计算相似度的小贴士？

浏览 159提问于2021-02-28得票数 0

回答已采纳

1回答

Apache火花中余弦相似度的计算

machine-learning、nlp、apache-spark、cosine-distance

我有一个带有以色列国防军的DataFrame，它的某些词是计算出来的。0.413734499590671,0.4244680552337798,0.4761400657781007, 1.4004620708967006,0.37876590175292424,0.48374466516332]) 现在给出一个查询Q，我可以计算这个查询的TF-以色列国防军.如何计算查询与dataframe中所有文档的余弦相似性(有近百万个文档) 我

浏览 0提问于2016-08-10得票数 11

回答已采纳

2回答

Scala Spark DataFrame映射编码器非基元类型

scala、apache-spark、dataframe、rdd

我有一个Scala Spark DataFrame (变量df)： id, values"b", [0.1, 0.2] ...我正在尝试利用RowMatrix高效地计算成对余弦相似度。Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark</em

浏览 20提问于2019-02-12得票数 0

1回答

DataFrames上的Apache Spark* Python余弦相似度*

python、apache-spark、pyspark、apache-spark-sql、cosine-similarity

对于推荐系统，我需要计算整个Spark DataFrame的所有列之间的余弦相似度。在Pandas中，我经常这样做：import pandas as pd metrics.pairwise.cosine_similarity(df.T,df.T) 这会生成列之间的相似</

浏览 3提问于2017-05-12得票数 13

1回答

如何从余弦相似矩阵中求出项id？

scala、apache-spark、matrix、machine-learning、cosine-similarity

我正在使用Spark来计算Dataframe行之间的余弦相似度。Dataframe模式如下： |-- itemId: string (nullable = true) | ef |[4.7143,1.4286,6....| +-------+------------

浏览 0提问于2018-07-01得票数 2

回答已采纳

1回答

spark dataframe (scala)中tf idf输出的余弦相似度

scala、apache-spark-sql、tf-idf、cosine-similarity

我使用Spark Scala来计算Dataframe行之间的余弦相似度。.|给出结果的代码如下：val tokenizer..|[0.0,0.0,0.0,0.0,...| +-----+--------------------+-------------------

浏览 12提问于2020-05-31得票数 0

4回答

在Apache Spark/PySpark中有没有实现带余弦距离的Kmeans？

apache-spark、distance、k-means、trigonometry

在Apache Spark中，有没有将余弦距离的KMeans应用于Tf-IDF处理的数据帧的工作实现？ Spark，当然在ml库中有欧几里得距离实现，但对于任何其他距离度量都不是这样。

浏览 0提问于2017-06-26得票数 1

1回答

计算余弦相似火花数据

scala、apache-spark、apache-spark-sql、apache-spark-mllib

我正在使用Spark来计算Dataframe行之间的余弦相似度。Dataframe格式如下 |-- SKU: double (nullable = true)下面数据的示例12) constructor cannot be instantiated to expected type; required: o

浏览 7提问于2017-10-30得票数 11

回答已采纳

2回答

在pyspark中计算数据帧中所有行之间的余弦相似度

python、dataframe、pyspark、cosine-similarity

----------------| ----------------------------- .map(lambda ((l,v), i): (l, v))然后使用cos_weight = ID_place_df.select(

浏览 3提问于2017-10-16得票数 12

回答已采纳

1回答

火花余弦相似度(DIMSUM算法)稀疏输入文件

apache-spark、sparse-matrix、cosine-similarity

我想知道Spark Cosine相似度是否可以处理稀疏输入数据？我见过一些示例，其中输入由表单中以空格分隔的特征行组成： id feat1 feat2 feat3 ...我想利用稀疏性来改进计算。最后，我希望使用最近并入Spark的点心算法来计算所有配对的相似度。有没有人能推荐一种稀疏输入的格式，可以在spark上使用点心？spark/examples/src&

浏览 4提问于2015-05-06得票数 4

1回答

计算余弦相似火花java

java、apache-spark、cosine-similarity

如何计算2个星点向量之间的余弦相似度。我用的是新的毫升包装。火花2.1.1Spark提供了RowMatrix，可以用来计算相似度，但它接受mllib.vector而不是ml.vector。有没有办法从不同的包中转换矢量？是否有使用ml.vector的实现？

浏览 4提问于2017-05-19得票数 0

回答已采纳

1回答

Spark ml cosine相似度:如何获得1到n的相似度分数

scala、apache-spark、apache-spark-mllib、cosine-similarity、apache-spark-ml

我读到我可以使用RowMatrix附带的columnSimilarities方法来查找各种记录(基于内容)的余弦相似度。管道来计算上面的文本特征(流派，演员)的tf-idf，并在我的管道中使用VectorAssembler将这两个特征组装成一个单独的列" features“。在那之后，我使用下面的代码转换我获得的DataFrame： val vectorRdd = finalDF.map(row => row.getAs[Vector]

浏览 3提问于2016-10-18得票数 5

1回答

Spark Scala余弦相似度矩阵

scala、apache-spark

scala新手(pyspark guy)，尝试计算行(项)之间的余弦相似度+------+--------------------+ 我试图按照这篇文章将df转换为IndexedRowMatrix，但在如何正确映射rdd的scalaimport org.apache.spa

浏览 1提问于2019-08-17得票数 0

1回答

Spark MLLib的Word2Vec余弦相似度大于1

machine-learning、word2vec、neuroscience

在word2vec的spark实现上，由于某些原因，当迭代或数据分区的数量大于1时，余弦相似度大于1。据我所知，余弦相似度应该总是-1 < cos < 1。有人知道为什么吗？

浏览 1提问于2015-10-27得票数 5

2回答

可以仅使用非空值在行之间使用余弦相似性吗？

python、pandas、trigonometry

我想要找到一个查询行和另外10个行之间的余弦相似度(或者欧几里得距离，如果更容易)。这些行都是nan值，因此如果列是nan，则忽略它们。因此，我只想得到查询的每个非空列与df列中的行之间的余弦相似性。因此，对于df中的第0行，B和F在查询和df中都是非空的。提前感谢

浏览 0提问于2019-02-11得票数 5

回答已采纳

1回答

Elasticsearch:在相关评分中使用密集向量上的距离(在查询时)

elasticsearch

我使用elasticsearch来组合不同的东西：-基于密集向量(余弦相似度)的文本得分搜索。我的问题是，在查询阶段不计算余弦相似度，我在文本中的搜索充当预筛选器。我将始终获得结果链接到文本搜索，即使余弦相似更好。例如，

浏览 1提问于2020-01-29得票数 1

回答已采纳

1回答

如何在MALLET中获取两个文档之间的余弦相似度？

java、modeling、lda、mallet

我有一个使用MALLET训练的LDA主题模型，但是我想计算两个文档之间的余弦相似度来获得相似度，但是我不确定我要计算哪个文件的余弦。我的余弦相似度函数运行得很好，但我不确定我在MALLET中比较的是什么。任何帮助都将不胜感激！

浏览 1提问于2017-04-07得票数 0

1回答

用spark实现TextRank算法(用spark计算余弦相似度矩阵)

python、apache-spark、pyspark、nlp、textrank

我正在尝试实现textrank算法，其中我正在计算所有句子的余弦相似矩阵。我想使用Spark并行创建相似矩阵的任务，但不知道如何实现it.Here代码： cluster_summary_dict = {} for cluster,sentences in tqdm我必须计算每个聚类的句子相似度矩阵。因为它很耗时，因此希望使用spark将其并行化。

浏览 165提问于2020-07-20得票数 2

回答已采纳

2回答

如何在Spark上执行大型计算

scala、apache-spark、dataframe、hadoop、bigdata

我在配置单元中有两个表：user和item，我正在尝试计算两个表之间的笛卡尔乘积的每个表的两个特征之间的余弦相似度，即交叉连接。大约有20000个users和5000个items导致了100 million行的计算。我使用Scala Spark在具有12个核心的Hive集群上运行计算。pairs.mapPartitions(computeScore) // computeScore is a function t

浏览 32提问于2019-02-21得票数 1

3回答

最佳简历，文档匹配

scikit-learn、nltk、information-retrieval、tf-idf、gensim

我用了三种不同的方法来计算简历和工作描述之间的匹配。有人能告诉我什么方法是最好的吗?为什么？ Gensim库采用LSA/LSI模型提取关键词，计算文档与查询之间的余弦相似度。

浏览 4提问于2016-11-02得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云