在spark中转换minHashLSH的数据帧

文章/答案/技术大牛

发布

1回答

LSHModel on spark structured streaming

、、

显然，来自Spark2.4的MLLib的LSHModel支持spark Structured Streaming ()。我在网上找不到更多关于它的信息。有人能帮帮我吗？

浏览 1提问于2021-03-02得票数 0

1回答

、、、、

我有这个数据框架： val df = ( .createDataFrame( ) .groupBy("A")) 我想把它转换成下面的形式： val dfTransfo

浏览 19提问于2021-02-02得票数 0

回答已采纳

1回答

在spark中设置minDF和CountVectorizerModel的词汇量？

、

我正在使用CountVectorizerModel和MinHashLSH库编写spark代码，以便在数据仓库中的两组字符串中找到Jaccard的相似性。在将其输入到MinHashLSH之前，应该将其转换为矢量。为此，我正在使用CountVectorizerModel。问题是，我正在随机设置像setVocabSize()和setMinDF()这样的值，如下代码所示。我得到一个错误的vocabulary

浏览 1提问于2018-04-30得票数 1

回答已采纳

1回答

Apache火花中的高效字符串匹配

、、、、

但是，在手动验证提取的文本时，我注意到不时发生几个错误。( 1)像"I“、"!”和"l“这样的字母被”x“取代。因此，我可能会以这样的字符串结束：“你好，7l！真像火花！”有人能提出一个有效的星火

浏览 2提问于2017-05-12得票数 33

1回答

Java :在分类数据情况下为aprroxNearestNeighbor创建关键向量

、、、

我正试图为一个分类数据集寻找近邻。为此，我使用了MinHashLSH模型。我的数据集有分类数据。因此，我使用StringIndexer，然后是OneHotEncoderEstimator，然后是VectorAssembler，将分类值转换为连续值。现在，我希望从我的数据集中为给定的密钥找到最近的邻居，这个键应该是向量形式的。我无法找到将分类键转换为连续向量的方法

浏览 1提问于2018-05-22得票数 1

回答已采纳

1回答

Scala和Python中的LSH

、、

出于某种原因，可以通过python获得结果，但在Scala中则不然。我看不出Scala代码缺少什么地方。以下是这两项守则：from pyspark.ml.feature import RegexTokenizer, NGram, HashingTF, MinHashLSHquery = spark.createDataFrame(["Bob Jones"], "string").toDF("text") db =

浏览 3提问于2019-11-12得票数 3

1回答

PySpark LSH approxSimilarityJoin花了太多时间

、、、、

我想为下面的数据集找到Jaccard索引，下面是我的方法：1 [dde,jhb..] HashingTF(inputCol = "desc_array", outputCol="vectors"), Has

浏览 11提问于2022-10-11得票数 0

1回答

如何在Scala中加载.rds R文件作为Spark数据帧

、、

我正在尝试为一个模型创建一个生产数据管道。作为此管道的一部分，我以.rds文件的形式保存了一个在R环境中运行的模型。save the model coefficients现在，我想以某种方式将这些coefficients加载到Scala程序中作为Spark Dataframe，它可能看起来像这样- val loadCoefficient

浏览 11提问于2018-07-31得票数 2

2回答

使用PySpark计算Jaccard距离时，对的数量少于应有的数量

、、、、

我正在尝试用SparseVectors形式的属性来计算某些in之间的Jaccard距离。from pyspark.ml.feature import MinHashLSHfrom pyspark.sql.functions当我计算Jaccard并写下数据时，我遗漏了很多id对。数据中总共有45k个身份，因此输出应该包含大约45k*45k对。此外，当我将1k ids与45k ids进行比较时，我得到了所有可能<

浏览 104提问于2021-01-16得票数 1

6回答

如何在spark中将rdd对象转换为dataframe

、、、

如何将RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row])转换为数据帧org.apache.spark.sql.DataFrame。我使用.rdd将数据帧转换为rdd。在处理之后，我想把它放回数据帧中。我该怎么做呢？

浏览 56提问于2015-04-01得票数 150

回答已采纳

1回答

select distinct().count()是一个pyspark数据帧吗？

我看到了这是pyspark数据帧吗？或者熊猫数据帧？

浏览 2提问于2019-09-20得票数 0

1回答

火花LSH管道，增加文本长度时的性能问题

、、、

从这个开始，为了查找重复的文档，我使用了一个对本地敏感的散列(LSH)。中还有其他可以提高性能的步骤吗？我的<

浏览 6提问于2021-04-26得票数 1

1回答

是MinHashLSH实现中每个频带中始终有1行的行数。

、、

我正在努力理解MinHash LSH在org.apache.spark.ml.feature.MinHashLSH星火中的实现。在LSH或-放大中使用的哈希表数的参数。在我看来，在中是如何实现的，在中是如何实现的，它看起来行数总是假定为1

浏览 16提问于2020-12-11得票数 1

1回答

在没有笛卡尔的星火和Scala的帮助下，RDD的Jaccard相似性？

、、

我的目标是计算rdd值集之间的jaccard相似度，并根据我的RDD的jaccard相似阈值value.Structure对它们进行聚类：所以我取了rdd a的笛卡儿积。//(Indi

浏览 1提问于2018-03-09得票数 2

回答已采纳

3回答

将spark* DataFrame转换为pandas DF*

、、

有没有办法将Spark Df (非RDD)转换为pandas DFvar some_df = Seq( ("B", "yes"), ("B",

浏览 2提问于2018-06-21得票数 51

回答已采纳

2回答

优化PySpark与pandas DataFrames之间的转换

、、、、

我有一个13M行的pyspark数据帧，我想把它转换成pandas数据帧。然后，将根据其他参数以不同的频率(例如1秒、1分钟、10分钟)对数据帧进行重新采样以进行进一步分析。从文献[，]中，我发现使用以下任何一行都可以加快pyspark到pandas数据帧之间的转换： spark.conf.set("spark

浏览 11提问于2021-11-19得票数 0

2回答

从RDD中的Pandas DataFrames创建Spark* DataFrame*

、、

我正在尝试将每个worker节点(每个元素都是Pandas DataFrame的RDD )上的Pandas DataFrame转换为跨所有worker节点的Spark DataFrame。the data is a pandas dataframe, and I am using some datetime indexing which isn't available for spark在完成熊猫处理后，我如何将其转换为Spa

浏览 31提问于2019-06-05得票数 0

回答已采纳

1回答

在Pyspark中管理多个数据帧

、、、、

我是PySpark的新手。在我的实现中，我使用了多个数据帧。在这些数据帧中，有一些中间数据帧稍后将不会在代码中使用。我该如何处理它们呢？我面临着GC、OverHead和内存问题。: java.lang.OutOfMemoryError: GC overhead limit exceeded at org.spark_project.guava.cache.LocalCache

浏览 6提问于2020-12-18得票数 0

3回答

我可以将pandas数据帧转换为spark* rdd吗？*

Pbm： a)读取一个本地文件到Panda dataframe中，比如PD_DF。b)操纵/海量PD_DF并添加列到dataframe中。c)需要使用spark将PD_DF写到HDFS。

浏览 0提问于2015-04-15得票数 4

3回答

pyspark to hive中的Pandas数据帧

、、、

如何将熊猫数据帧发送到hive表？我知道如果我有一个spark数据帧，我可以将它注册到一个临时表中，使用sqlContext.sql("create table table_name2AttributeError: 'DataFrame' object has no attribute 'registerTempTable' 有没有办法让我使用pa

浏览 0提问于2016-04-28得票数 9

回答已采纳

点击加载更多

LSHModel on spark structured streaming