文章/答案/技术大牛

发布

问从计算整个列的哈希数
EN

Stack Overflow用户

提问于 2022-06-30 13:35:48

回答 1查看 166关注 0票数 0

我有一个大数据框架(大约4000万行)，如下所示：

|col A | col B |
|------|-------|
|valA1 | valB1 |
|valA2 | valB2 |

我想比较两列在不同的数据框架，在不同的工作空间。我不能把他们两个带到同一个环境。我想要的是为每个列创建一个散列值，以便与其他数据帧中的其他列进行比较。

简单的方法是将列中的所有值连接起来，然后散列结果字符串。但是由于数据帧的大小，我不能这样做。

到目前为止，我尝试了这个版本，但是花费的时间太长了：

hashlib.sha256(''.join(map(str,df.agg(collect_list(col("colName"))).first()[0])).encode('utf-8')).hexdigest()

而且同样长的时间：

def compute_hash(df):
    hasher = hashlib.sha256()
    dataCollect=df.rdd.toLocalIterator()
    for row in dataCollect:
        hasher.update(row['colName'].encode('utf-8'))
    return hasher.hexdigest()

这能在合理的时间内实现吗？

pyspark

azure-databricks

回答 1

Stack Overflow用户

发布于 2022-06-30 13:56:41

您不需要立即散列整个字符串。

从sha256库中使用hashlib的示例

import hashlib

column = ['valA1', 'valA2', 'valA3']

hasher = hashlib.sha256()

for row in column:
    hasher.update(row.encode('utf-8'))

print(hasher.hexdigest())
# >>> 68f900960718b4881107929da0918e0e9f50599b12ebed3ec70066e55c3ec5f4

使用update方法将处理数据，就像使用它一样。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/72816815

复制

相似问题

问从计算整个列的哈希数
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从计算整个列的哈希数EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从计算整个列的哈希数
EN