使用spark实现散列_通过散列实现排序_使用散列的LZW压缩和字典实现 - 腾讯云开发者社区

java、apache-spark、indexing、pyspark、hashtable

因此，我用Java语言实现了分离链接散列：https://github.com/Big-data-analytics-project/Static-hashing-closed/blob/main/Static%20hashing%20closed 下一步是使用spark实现它，我试着阅读教程，但我仍然迷失方向。

浏览 21提问于2020-11-04得票数 0

1回答

如何在Spark排序置乱中确定键要转到哪个分区

apache-spark、shuffle

在sort % spill过程中，哪个键是分区和其他分区的开始？

浏览 2提问于2017-05-30得票数 0

1回答

Scala MurmurHash3库与Spark Hash函数不匹配

scala、apache-spark

Scala MurmurHash3库不匹配Spark Hash函数scala和spark使用相同的Murmur hash3实现，但结果不同。有什么想法吗？

浏览 0提问于2020-07-27得票数 1

2回答

Hive与Spark哈希函数产生不同的结果

apache-spark、hash、hive

一个在Hive中，另一个在Spark中。结果中唯一的区别是其中一列是经过散列处理的字符串。因此，在调用hash()时，hive和Spark中的结果是不同的。是否有可能找出散列函数(例如murmur3)并在两个引擎中使用它？也许可以创建一个Spark udf来产生与hive hash()函数相同的结果

浏览 0提问于2017-11-21得票数 3

3回答

Spark TF-IDF从散列中取回单词

java、hash、apache-spark、tf-idf

我遵循Spark文档中的来计算一系列文档的TF-IDF。Spark使用散列技巧进行此计算，因此在最后你会得到一个包含散列单词和相应权重的Vector，但是...我怎样才能从散列中取回单词？我真的需要对所有的单词进行散列，并将它们保存在映射中，以便稍后迭代查找关键字吗？有没有更有效的方式内置Spark？提前感谢

浏览 0提问于2014-11-10得票数 5

1回答

使用Spark (Java)实现min散列LSH

java、apache-spark、minhash

我一直试图通过使用Spark (Java)来实现中讨论的最小散列LSH算法。使用Spark的支持，生成以下“特征矩阵”是我目前所能达到的范围：|key |value |vector有关使用这两个调用的示例如下：另一方面，model.approxSimilarityJoin(...)要求我们连接两个数据集，而我只有一个有4个文档的数据集，我想找出这四个数据集中

浏览 7提问于2018-02-05得票数 0

1回答

Hive使用什么哈希算法进行分区？

hash、hive、partitioning、hive-partitions

我需要了解Hive用来散列分区数据的算法。例如，Spark使用Murmur散列。有什么想法或资源吗？

浏览 7提问于2020-06-03得票数 1

2回答

计算Pyspark中完整文件(文件内的所有数据)的哈希值/校验和

python-3.x、apache-spark、pyspark、apache-spark-sql

我已经使用下面的pyspark代码阅读了这些文件 file_read = spark.read.csv(fileDirectory

浏览 0提问于2021-06-03得票数 1

1回答

Teradata和Spark中的相似哈希算法

hash、pyspark、teradata

Teradata：我的PySpark脚本使用JDBC连接来调用teradata： .format("jdbc"=somedb,MAYBENULL=ON") \在地板上读的火花脚本： myDF = spark.read.parquet("myParquet&qu

浏览 0提问于2019-01-16得票数 5

1回答

为什么在使用时使用广播时会引发混乱？

apache-spark、pyspark、apache-spark-sql

我在Spark中使用进行连接优化，即使在最后的物理计划中，交换也是存在的。

浏览 17提问于2021-12-23得票数 1

2回答

Spark SQL -如何避免使用字符串聚合列进行基于排序的聚合

apache-spark-sql

我使用的是Spark SQL 2.2.0。在执行查询时，如： from TB1 group by COL1").explain()在GROUP BY子句中指定字符串列不会强制基于排序的聚合。如果你用

浏览 32提问于2017-12-11得票数 6

0回答

创建Spark行的128位散列，存储为新列

scala、apache-spark、hash

我需要向dataFrame中添加一列，该列是每行的散列。我们的目标是使用这个散列来唯一地标识该行。我将有超过100,000,000行，这就是为什么散列需要这么大的原因。我知道内置的spark散列，但不幸的是它只有32位，并且会导致大量的散列冲突。我如何才能做到这一点？

浏览 4提问于2018-07-13得票数 0

1回答

Spark线性回归特征散列

apache-spark、machine-learning、pyspark、data-science、apache-spark-ml

我正在尝试使用星火的LinearRegressionWithSGD来预测国家和设备的价格。在看了Spark MLLib的之后，我有点不清楚我应该如何散列这些特性。brand_id": 332, "brand_type": "axcssdsdac", "item_id": 36, "country": "US", "device": "mobile"} 我已经尝试了几种

浏览 2提问于2016-03-01得票数 1

5回答

Java中的LSH库

java、locality-sensitive-hash

我正在寻找一个轻量级的Java库，它通过对位置敏感的散列来支持最近邻搜索，以便在具有数十万个数据点的高维(在我的例子中是32)数据集中几乎均匀分布的数据。

浏览 0提问于2012-03-28得票数 22

2回答

LoadIncrementalHFiles:分组HFiles时发生分裂

apache-spark、hbase、bulk-load

我实现了一个Spark(v2.4)应用程序，它处理原始数据并将其存储到容器化Hbase(v2.1)中。我想将数据大容量加载到Hbase中，为此，我使用。我跟踪了这个。我将Hbase区域预先拆分为10，然后通过散列和对散列值应用模来转换每个密钥，然后将其作为键的前缀连接起来。例如: key = a123，newKey = 0_a123 (假设:散列(A123) mod 10 = 0)。当我运行我的Spark应用程序时，

浏览 5提问于2021-04-25得票数 0

2回答

火花中的散列函数

scala、apache-spark、hash、apache-spark-sql

我正在尝试将一个列添加到一个dataframe中，它将包含另一个列的散列。我找到了这段文档：import org.apache.spark.sql.functions._val withHashedColumn= df.withColumn("hashed", hash($"my_column")) 但是，该hash()使用的哈希函数是什么？如何

浏览 0提问于2018-12-05得票数 20

1回答

如果只有一个map reduce任务，map reduce会提供与spark相同的性能吗？

apache-spark、mapreduce、bigdata

大多数bigdata作业没有单独的mapreduce作业，因此spark通过将中间数据存储在内存中并避免在HDFS上进行复制来发挥作用。mapreduce作业是否提供了与spark相同的性能？若否，原因为何？这可能是一个一般性的问题，但我正在尝试理解spark的深入架构。

浏览 2提问于2017-05-13得票数 0

1回答

替代other_column中WHERE列的快速Spark

sql、pyspark、where-in

因此，我想不出使用原生PySparkian where(col(bar).isin(baz))的方法，因为在这种情况下，baz必须是一个列表。

浏览 2提问于2020-05-18得票数 2

2回答

GeoMesa火花不能使用地散列

apache-spark、azure-databricks、geohashing、geomesa

我在一个Databricks集群上使用GeoMesa Spark，它引用了这个示例笔记本：。导入和使用UDF函数(如st_makePoint和st_intersects )没有问题。但是，当我尝试使用st_geoHash创建点的Geo散列时，我得到了以下错误： NoClassDefFoundError: Could not initialize class org.locationtech.geomesa.spark.jts.util.GeoHash集群安装了geome

浏览 5提问于2021-09-30得票数 0

回答已采纳

2回答

HashingTF使用了哪些散列函数，如何复制它？

python、hash、apache-spark、pyspark、apache-spark-mllib

Spark有一个HashingTF()函数，该函数根据每个术语的散列值计算文档术语频率。2)如何从Python获得相同的散列值？3)如果我想要计算给定单个输入的散列输出，而不计算术语频率，我如何才能做到这一点？

浏览 16提问于2015-07-21得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云