首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在pyspark.sql.functions.hash中使用了什么哈希算法?

在pyspark.sql.functions.hash中使用了什么哈希算法?
EN

Stack Overflow用户
提问于 2021-04-11 04:37:35
回答 2查看 1K关注 0票数 0

对于PySpark哈希函数,我有一个简单的问题。

我已经检查过,在Scala中,星火使用基于murmur3hash的火花中的散列函数

我想知道在PySpark (模块/pyspark/sql/Functions.html#散列)中,哈希函数到底使用了什么算法。

有人能回答这个问题吗?我还想知道PySpark哈希函数中使用的算法的代码。

EN

Stack Overflow用户

发布于 2021-06-01 13:13:04

请注意,在PySpark之外复制哈希值并不简单,至少在python中是这样。PySpark使用该算法的一个实现,当在python中运行库时,该算法不会给出相同的结果。

甚至Scala &PySpark的哈希算法也不能直接兼容。原因在https://stackoverflow.com/a/46472986/10999642中解释。

因此,如果python中的可再现性很重要,那么可以使用python内置的散列函数,如下所示:

代码语言:javascript
运行
复制
udf_hash = F.udf(lambda val: hash(val), T.LongType())
df = df.withColumn("hash", udf_hash("<column name>"))
票数 0
EN
查看全部 2 条回答
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67041501

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档