用spark实现TextRank算法(用spark计算余弦相似度矩阵)

python、apache-spark、pyspark、nlp、textrank

我正在尝试实现textrank算法，其中我正在计算所有句子的余弦相似矩阵。我想使用Spark并行创建相似矩阵的任务，但不知道如何实现it.Here代码： cluster_summary_dict = {} for cluster,sentences in tqdm我必须计算每个聚类的句子相似度矩阵。因为它很耗时，

浏览 165提问于2020-07-20得票数 2

回答已采纳

2回答

如何在spark mllib中进行基于项目的推荐？

apache-spark、mahout、recommendation-engine、apache-spark-mllib

方法进行基于项目的推荐：但是在Spark

浏览 1提问于2014-12-18得票数 8

1回答

计算余弦相似火花java

java、apache-spark、cosine-similarity

如何计算2个星点向量之间的余弦相似度。我用的是新的毫升包装。火花2.1.1Spark提供了RowMatrix，可以用来计算相似度，但它接受mllib.vector而不是ml.vector。有没有办法从不同的包中转换矢量？是否有使用ml.vector的实现？

浏览 4提问于2017-05-19得票数 0

回答已采纳

1回答

DataFrames上的Apache Spark Python余弦相似度

python、apache-spark、pyspark、apache-spark-sql、cosine-similarity

对于推荐系统，我需要计算整个Spark DataFrame的所有列之间的余弦相似度。pd.DataFrame(...some dataframe over here :D ...)这会生成列之间的相似性矩阵(因为我使用了转置) 有没有办法在Spark (Python)中做同样的事情？(我需要将它应用于由数千万行和数千列组成的矩阵，所以这就是为

浏览 3提问于2017-05-12得票数 13

1回答

大矩阵除法的csr稀疏矩阵并行化

python、apache-spark、pyspark、scipy、matrix-multiplication

我正在计算两个大向量集之间的余弦相似度(具有相同的特征)。每一组向量都表示为一个正向CSR稀疏矩阵，A和B。I想要计算A^T，它不会是稀疏的。但是，我只需要跟踪超过某个阈值的值，例如0.8。我正试图用普通的RDDs在Pyspark中实现这一点，并使用快速向量操作来实现对CSR矩阵的操作。 A和B的行是标准化的，所以为了计算余弦相似性，我只需要从A中找出每一行的点乘

浏览 2提问于2019-05-13得票数 2

1回答

火花余弦相似度(DIMSUM算法)稀疏输入文件

apache-spark、sparse-matrix、cosine-similarity

我想知道Spark Cosine相似度是否可以处理稀疏输入数据？我见过一些示例，其中输入由表单中以空格分隔的特征行组成： id feat1 feat2 feat3 ...我想利用稀疏性来改进计算。最后，我希望使用最近并入Spark的点心算法来计算所有配对的相似度。有没有人能推荐一种稀疏输入的格式，可以在spark上使用点心？我检查了示例代码，注释中写着“输入必须是密集矩阵”，但这段代码是在示例中，所

浏览 4提问于2015-05-06得票数 4

4回答

在Apache Spark/PySpark中有没有实现带余弦距离的Kmeans？

apache-spark、distance、k-means、trigonometry

在Apache Spark中，有没有将余弦距离的KMeans应用于Tf-IDF处理的数据帧的工作实现？ Spark，当然在ml库中有欧几里得距离实现，但对于任何其他距离度量都不是这样。

浏览 0提问于2017-06-26得票数 1

1回答

Apache火花中余弦相似度的计算

machine-learning、nlp、apache-spark、cosine-distance

我有一个带有以色列国防军的DataFrame，它的某些词是计算出来的。0.413734499590671,0.4244680552337798,0.4761400657781007, 1.4004620708967006,0.37876590175292424,0.48374466516332]) 现在给出一个查询Q，我可以计算这个查询的TF-以色列国防军.如何计算查询与dataframe中所有文档的余弦相似性(有近百万个文档) 我可以用向量乘法在地

浏览 0提问于2016-08-10得票数 11

回答已采纳

1回答

如何有效地计算/估计非稀疏矩阵中数十亿对的余弦相似度？

scala、apache-spark、hadoop、cosine-similarity

对于每个项目，我想得到(大约)前200个最相似的项目，使用余弦相似。我目前在Hadoop (hive)中作为UDF函数实现的余弦相似性标准需要花费大约1s来计算1项的余弦相似性，而其他项目则有1,000万项。这使得运行整个矩阵是不可行的。我的下一步是在Spark上运行它，使用更多的并行化，但是它仍然不能完全解决问题。我知道有一些方法可以减少spars矩阵的计算。

浏览 2提问于2020-07-22得票数 0

1回答

生成两个具有给定角度的向量

math、vector、linear-algebra、cosine-similarity

我试图用给定的余弦相似度生成两个向量。输入将是余弦相似度的程度(或者说它取决于它)和向量中的维数(D)，输出将是D维的两个向量，与它们之间给定的相似度，现在我知道如何使用余弦相似函数来计算相似度，但当我尝试相反的方法时，我迷失了方向。是否有这样的过程或算法，它是如何命名的？

浏览 6提问于2022-05-25得票数 1

回答已采纳

1回答

自然语言处理任务的分类

nlp

问题我的问题是是否有一些建议阅读的调查，总结自然语言处理的一般任务。

浏览 0提问于2019-05-18得票数 1

2回答

火花项目相似推荐

apache-spark、apache-hadoop、recommender-system、pyspark

我想使用spark's Mlib itemsimilarity构建一个推荐引擎，如本文所述，链接但似乎火花不再有这个算法和一些论坛建议我使用ALS，但请澄清项目相似从火花或任何其他改变本土？我想索引我的指标到搜索引擎，我发现火花项目相似性最适合我。请指点。

浏览 0提问于2016-11-01得票数 2

1回答

如何从余弦相似矩阵中求出项id？

scala、apache-spark、matrix、machine-learning、cosine-similarity

我正在使用Spark来计算Dataframe行之间的余弦相似度。.计算余弦相似性的代码：}).toCoordinateMatrix.transpose.toRowMat

浏览 0提问于2018-07-01得票数 2

回答已采纳

2回答

在Spark 2.4中做基础线性代数

scala、apache-spark、linear-algebra

Spark 2.4是否有支持基本线性代数运算的Vector和Matrix类，如点积、范数、矩阵和向量乘法？我在向量、DenseVector或RowMatrix这样的类中找不到任何线性代数支持。老版本的Spark有org.jblas.DoubleMatrix，但在Spark 2.4中不存在，我也找不到他们用什么取代了它。我在哪里可以找到spark 2.4中线性代数的例子？我不需要RDDs来满足我当前的需要(余弦相似性)。

浏览 57提问于2019-02-04得票数 3

2回答

matlab中的余弦相似内建函数

matlab、matrix、cosine-similarity

我想在matlab中计算矩阵不同行之间的余弦相似度。我用matlab编写了以下代码： for j = i:n_row S2(j,i) = S2(i,j); 矩阵S1为11000*11000，代码执行非常耗时。那么，我想知道在matlab中是否有函数比上面的代码更快地

浏览 1提问于2018-01-04得票数 9

回答已采纳

2回答

如何在有新向量的预计算矩阵中求余弦相似度？

python、pandas、machine-learning、scikit-learn、computer-vision

我的数据形状是(5000,2048)，当我用滑雪板中的成对距离计算余弦矩阵时，得到了(5000,5000)矩阵。在这里我可以互相比较。但是现在，如果我有一个新的(1,2048)的向量形状，如何利用我已经计算过的(5000,5000)余弦矩阵，找到这个项目与我所拥有的早期数据的余弦相似性？编辑 PS:，我可以将这个新向量附加到我的数据中，然后再计算余弦相似度

浏览 7提问于2019-11-26得票数 0

2回答

推荐系统中时空复杂性挑战的解决方案？

apache-spark、recommender-system、word2vec

内存计算中的最佳解决方案是什么？我是说，这个项目应该：要实时，因为这是一个互动的商业网站。我已经考虑过大数据分析工具和管理，比如Spark，Hadoop，.。我真的搞混了，这有什么用呢？我在java中研究过火花的文档，但它更让我搞不懂火花是如何有帮助的？

浏览 0提问于2016-08-08得票数 3

回答已采纳

1回答

高效地找到与给定向量类似的K余弦向量

apache-spark、scikit-learn、pyspark

我的方法：我使用Spark2.0进行tf-以色列国防军的计算，并在收集的数据上学习NearestNeighb

浏览 0提问于2018-10-05得票数 7

1回答

R中tm包的TermDocumentMatrix中两个文档的余弦相似度计算

r、matrix、sparse-matrix、tm、cosine-similarity

我的任务是用余弦相似度来比较语料库中的文档。这超出了R处理这类矩阵的能力。我的RStudio坏了好几次。我的问题是：( 1)如何处理这么大的矩阵，得到成对的(12万*12万)余弦相似度?2)如果不可能，我怎么能一次只得到两个文档的余弦相似度？)进行计算。然而，将tdm转换为矩阵正是我所不能处理的。我的问题最终归结为如何在tdm上做矩阵<

浏览 2提问于2017-05-07得票数 0

回答已采纳

1回答

查询与文档的余弦相似性

python、numpy、multidimensional-array、information-retrieval、cosine-similarity

它涉及到给定查询的文档的余弦相似性。我已经生成了这个矩阵，但是我很难理解如何处理这个查询，并从中生成余弦相似性。所以我应该用余弦相似度来计算所有这些行向量？查询是在词频矩阵中包含列位置和项的列表。 499, 500, 501, 502,

浏览 0提问于2018-11-09得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在spark mllib中进行基于项目的推荐？

计算余弦相似火花java

DataFrames上的Apache Spark Python余弦相似度

大矩阵除法的csr稀疏矩阵并行化

火花余弦相似度(DIMSUM算法)稀疏输入文件

在Apache Spark/PySpark中有没有实现带余弦距离的Kmeans？

Apache火花中余弦相似度的计算

如何有效地计算/估计非稀疏矩阵中数十亿对的余弦相似度？

生成两个具有给定角度的向量

自然语言处理任务的分类

火花项目相似推荐

如何从余弦相似矩阵中求出项id？

在Spark 2.4中做基础线性代数

matlab中的余弦相似内建函数

如何在有新向量的预计算矩阵中求余弦相似度？

推荐系统中时空复杂性挑战的解决方案？

高效地找到与给定向量类似的K余弦向量

R中tm包的TermDocumentMatrix中两个文档的余弦相似度计算

查询与文档的余弦相似性

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐