腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
使用
spark
实现
散
列
java
、
apache-spark
、
indexing
、
pyspark
、
hashtable
因此,我用Java语言
实现
了分离链接
散
列
:https://github.com/Big-data-analytics-project/Static-hashing-closed/blob/main/Static%20hashing%20closed 下一步是
使用
spark
实现
它,我试着阅读教程,但我仍然迷失方向。
浏览 21
提问于2020-11-04
得票数 0
1
回答
如何在
Spark
排序置乱中确定键要转到哪个分区
apache-spark
、
shuffle
在sort % spill过程中,哪个键是分区和其他分区的开始?
浏览 2
提问于2017-05-30
得票数 0
1
回答
Scala MurmurHash3库与
Spark
Hash函数不匹配
scala
、
apache-spark
Scala MurmurHash3库不匹配
Spark
Hash函数scala和
spark
使用
相同的Murmur hash3
实现
,但结果不同。有什么想法吗?
浏览 0
提问于2020-07-27
得票数 1
2
回答
Hive与
Spark
哈希函数产生不同的结果
apache-spark
、
hash
、
hive
一个在Hive中,另一个在
Spark
中。结果中唯一的区别是其中一
列
是经过
散
列
处理的字符串。因此,在调用hash()时,hive和
Spark
中的结果是不同的。是否有可能找出
散
列
函数(例如murmur3)并在两个引擎中
使用
它?也许可以创建一个
Spark
udf来产生与hive hash()函数相同的结果
浏览 0
提问于2017-11-21
得票数 3
3
回答
Spark
TF-IDF从
散
列
中取回单词
java
、
hash
、
apache-spark
、
tf-idf
我遵循
Spark
文档中的来计算一系列文档的TF-IDF。
Spark
使用
散
列
技巧进行此计算,因此在最后你会得到一个包含
散
列
单词和相应权重的Vector,但是...我怎样才能从
散
列
中取回单词?我真的需要对所有的单词进行
散
列
,并将它们保存在映射中,以便稍后迭代查找关键字吗?有没有更有效的方式内置
Spark
? 提前感谢
浏览 0
提问于2014-11-10
得票数 5
1
回答
使用
Spark
(Java)
实现
min
散
列
LSH
java
、
apache-spark
、
minhash
我一直试图通过
使用
Spark
(Java)来
实现
中讨论的最小
散
列
LSH算法。
使用
Spark
的支持,生成以下“特征矩阵”是我目前所能达到的范围:|key |value |vector有关
使用
这两个调用的示例如下: 另一方面,model.approxSimilarityJoin(...)要求我们连接两个数据集,而我只有一个有4个文档的数据集,我想找出这四个数据集中
浏览 7
提问于2018-02-05
得票数 0
1
回答
Hive
使用
什么哈希算法进行分区?
hash
、
hive
、
partitioning
、
hive-partitions
我需要了解Hive用来
散
列
分区数据的算法。例如,
Spark
使用
Murmur
散
列
。有什么想法或资源吗?
浏览 7
提问于2020-06-03
得票数 1
2
回答
计算Pyspark中完整文件(文件内的所有数据)的哈希值/校验和
python-3.x
、
apache-spark
、
pyspark
、
apache-spark-sql
我已经
使用
下面的pyspark代码阅读了这些文件 file_read =
spark
.read.csv(fileDirectory
浏览 0
提问于2021-06-03
得票数 1
1
回答
Teradata和
Spark
中的相似哈希算法
hash
、
pyspark
、
teradata
Teradata:我的PySpark脚本
使用
JDBC连接来调用teradata: .format("jdbc"=somedb,MAYBENULL=ON") \在地板上读的火花脚本: myDF =
spark
.read.parquet("myParquet&qu
浏览 0
提问于2019-01-16
得票数 5
1
回答
为什么在
使用
时
使用
广播时会引发混乱?
apache-spark
、
pyspark
、
apache-spark-sql
我在
Spark
中
使用
进行连接优化, 即使在最后的物理计划中,交换也是存在的。
浏览 17
提问于2021-12-23
得票数 1
2
回答
Spark
SQL -如何避免
使用
字符串聚合
列
进行基于排序的聚合
apache-spark-sql
我
使用
的是
Spark
SQL 2.2.0。在执行查询时,如: from TB1 group by COL1").explain()在GROUP BY子句中指定字符串列不会强制基于排序的聚合。如果你用
浏览 32
提问于2017-12-11
得票数 6
0
回答
创建
Spark
行的128位
散
列
,存储为新
列
scala
、
apache-spark
、
hash
我需要向dataFrame中添加一
列
,该
列
是每行的
散
列
。我们的目标是
使用
这个
散
列
来唯一地标识该行。我将有超过100,000,000行,这就是为什么
散
列
需要这么大的原因。我知道内置的
spark
散
列
,但不幸的是它只有32位,并且会导致大量的
散
列
冲突。我如何才能做到这一点?
浏览 4
提问于2018-07-13
得票数 0
1
回答
Spark
线性回归特征
散
列
apache-spark
、
machine-learning
、
pyspark
、
data-science
、
apache-spark-ml
我正在尝试
使用
星火的LinearRegressionWithSGD来预测国家和设备的价格。在看了
Spark
MLLib的之后,我有点不清楚我应该如何
散
列
这些特性。brand_id": 332, "brand_type": "axcssdsdac", "item_id": 36, "country": "US", "device": "mobile"} 我已经尝试了几种
浏览 2
提问于2016-03-01
得票数 1
5
回答
Java中的LSH库
java
、
locality-sensitive-hash
我正在寻找一个轻量级的Java库,它通过对位置敏感的
散
列
来支持最近邻搜索,以便在具有数十万个数据点的高维(在我的例子中是32)数据集中几乎均匀分布的数据。
浏览 0
提问于2012-03-28
得票数 22
2
回答
LoadIncrementalHFiles:分组HFiles时发生分裂
apache-spark
、
hbase
、
bulk-load
我
实现
了一个
Spark
(v2.4)应用程序,它处理原始数据并将其存储到容器化Hbase(v2.1)中。我想将数据大容量加载到Hbase中,为此,我
使用
。我跟踪了这个。我将Hbase区域预先拆分为10,然后通过
散
列
和对
散
列
值应用模来转换每个密钥,然后将其作为键的前缀连接起来。例如: key = a123,newKey = 0_a123 (假设:
散
列
(A123) mod 10 = 0)。当我运行我的
Spark
应用程序时,
浏览 5
提问于2021-04-25
得票数 0
2
回答
火花中的
散
列
函数
scala
、
apache-spark
、
hash
、
apache-spark-sql
我正在尝试将一个
列
添加到一个dataframe中,它将包含另一个
列
的
散
列
。我找到了这段文档:import org.apache.
spark
.sql.functions._val withHashedColumn= df.withColumn("hashed", hash($"my_column")) 但是,该hash()
使用
的哈希函数是什么?如何
浏览 0
提问于2018-12-05
得票数 20
1
回答
如果只有一个map reduce任务,map reduce会提供与
spark
相同的性能吗?
apache-spark
、
mapreduce
、
bigdata
大多数bigdata作业没有单独的mapreduce作业,因此
spark
通过将中间数据存储在内存中并避免在HDFS上进行复制来发挥作用。mapreduce作业是否提供了与
spark
相同的性能?若否,原因为何? 这可能是一个一般性的问题,但我正在尝试理解
spark
的深入架构。
浏览 2
提问于2017-05-13
得票数 0
1
回答
替代other_column中WHERE
列
的快速
Spark
sql
、
pyspark
、
where-in
因此,我想不出
使用
原生PySparkian where(col(bar).isin(baz))的方法,因为在这种情况下,baz必须是一个列表。
浏览 2
提问于2020-05-18
得票数 2
2
回答
GeoMesa火花不能
使用
地
散
列
apache-spark
、
azure-databricks
、
geohashing
、
geomesa
我在一个Databricks集群上
使用
GeoMesa
Spark
,它引用了这个示例笔记本:。导入和
使用
UDF函数(如st_makePoint和st_intersects )没有问题。但是,当我尝试
使用
st_geoHash创建点的Geo
散
列
时,我得到了以下错误: NoClassDefFoundError: Could not initialize class org.locationtech.geomesa.
spark
.jts.util.GeoHash集群安装了geome
浏览 5
提问于2021-09-30
得票数 0
回答已采纳
2
回答
HashingTF
使用
了哪些
散
列
函数,如何复制它?
python
、
hash
、
apache-spark
、
pyspark
、
apache-spark-mllib
Spark
有一个HashingTF()函数,该函数根据每个术语的
散
列
值计算文档术语频率。2)如何从Python获得相同的
散
列
值?3)如果我想要计算给定单个输入的
散
列
输出,而不计算术语频率,我如何才能做到这一点?
浏览 16
提问于2015-07-21
得票数 4
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
安全系列之——主流Hash散列算法介绍和使用
使用Web Service实现列级别的显示
使用Pandas实现1-6列分别和第0列比大小得较小值
QTableView中使用Delegate方式来实现对特定列的文本进行换行
快速实现可视化数据过滤,过滤列的使用教程在这里
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券