腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
使用
Spark
/
Scala
,
有没有
一种
方法
可以
连接
复杂
的
数据结构
?
scala
、
apache-spark
、
join
我有一个结构
复杂
的
数据框架。在该结构中,我需要根据来自另一个数据框
的
映射将一个值替换为另一个值。目前,我们通过分解数据帧,
连接
,然后
使用
聚合进行分组来实现这一点。分组
的
成本非常高。我从已经按我想要
的
方式分组
的
数据开始。
有没有
什么
方法
可以
在不进行分解和分组
的
情况下实现这一点?以下是Zeppelin笔记本中
的
一些示例代码,用于说明我们当前
的
方
浏览 19
提问于2020-04-17
得票数 0
回答已采纳
1
回答
原生
scala
与JNI
scala
、
java-native-interface
我正在将一个本机API提升到
Scala
。似乎有两种途径:
使用
JNI或
使用
Scala
Native。 JNI用法在Java中创建您想要
的
方法
,然后将它们映射到C中,您
可以
在C中编写C代码来访问API。优点:您
可以
直接
使用
原生API
的
数据结构
。缺点:您
的
Scala
代码现在还必须提供自己
的
本机包装器库,这增加了可移植性
复杂
性
的
浏览 19
提问于2018-03-02
得票数 4
1
回答
火花KUDU
复杂
更新语句直接或通过Impala JDBC驱动程序?
apache-spark
、
impala
、
apache-kudu
如果我查看Imapala Shell或Hue,我
可以
为KUDU编写足够
复杂
的
IMPALA更新语句。例如,
使用
子选择更新和不更新
的
内容。很好。看看过去
的
JDBC
连接
方法
,比如通过
SPARK
/
SCALA
进行mySQL,通过这种
连接
进行
复杂
的
更新
的
可能性不大,这是
可以
理解
的
。不过,有了古都,我想情况会发
浏览 2
提问于2017-11-08
得票数 1
回答已采纳
1
回答
有没有
办法在远程环境下用Intellij运行
scala
工作表?
scala
、
apache-spark
、
intellij-idea
我正在寻找
一种
在集群上
的
spark
shell中运行一些
scala
代码
的
方法
。
有没有
办法做到这一点?或者甚至在一个简单
的
scala
shell中,我
可以
实例化我自己
的
spark
上下文。我试图在Intellij中寻找
scala
工作表
的
某种远程设置,但我无法找到任何有用
的
东西。 到目前为止,
连接
到远程环境
的
浏览 0
提问于2018-11-08
得票数 0
1
回答
在pyspark中动态生成
连接
条件
join
、
dynamic
、
pyspark
有没有
人
可以
建议
一种
方法
来传递一个listofJoinColumns和一个条件来加入pyspark。 例如,我需要从列表中动态获取要
连接
的
列,并希望在
连接
时传递另一个条件。下面解释了在
scala
中完成
的
类似操作:generating join condition dynamically in
spark
/
scala
我正在寻找一个类似的解决方案在pyspark。我知道我
可以</em
浏览 16
提问于2020-11-10
得票数 1
1
回答
火花矢量和
scala
不变向量
的
区别?
scala
、
hadoop
、
apache-spark
、
apache-spark-mllib
我正在用
Scala
为
Spark
1.4编写一个项目,目前正在将我
的
初始输入数据转换为
spark
.mllib.linalg.Vectors和
scala
.immutable.Vector,我以后想在算法中
使用
它们有人能简单地解释一下两者之间
的
区别吗?在哪种情况下,一个比另一个更有用? 谢谢。
浏览 5
提问于2015-07-06
得票数 1
回答已采纳
1
回答
更新DenseVector类中
的
元素
Spark
java
、
apache-spark
、
apache-spark-mllib
如何
使用
类
的
对象中
的
索引i更新某些元素
浏览 0
提问于2015-08-12
得票数 3
1
回答
在
spark
程序中
使用
java集合
apache-spark
我对在
spark
程序中
使用
java集合有疑问?我从
spark
编程指南中了解到以下内容。设计您
的
数据结构
以首选对象数组和原始类型,而不是标准
的
Java或
Scala
集合类(例如HashMap)。fastutil库为
浏览 0
提问于2016-06-02
得票数 2
6
回答
Spark
Sql JDBC支持
apache-spark
1)我们有来自不同来源( MySQL、甲骨文、卡桑德拉、蒙戈)
的
数据。我们想知道如何将这些数据放入
Spark
SQL中?
有没有
我们
可以
使用
的
实用程序?此实用程序是否支持连续刷新数据(将数据存储上
的
新添加/更新/删除同步到
Spark
SQL? 2)在
Spark
SQL中创建多个数据库是
一种
方法
吗?3)对于报告UI,我们
使用
Jasper,我们希望从Jasper<em
浏览 0
提问于2014-07-08
得票数 7
1
回答
无法理解
scala
操作是如何在Apache
spark
中运行
的
scala
、
apache-spark
、
time
、
rdd
、
operation
我所了解到
的
是,火花作业在有任务要在RDDS上操作
的
阶段上工作,在这些阶段中,它们是通过从
spark
控制台开始
的
惰性转换创建
的
。(如果我错了,请纠正我) ,那么这些函数和应用在RDDs上
的
任务之间有什么关系呢?
Scala
的
编码有RDD上
的
操作,据我所知,RDD是逻辑
浏览 0
提问于2019-07-07
得票数 0
1
回答
如何在不运行Apache作业
的
情况下获得DAG?
scala
、
apache-spark
我有一些
Scala
代码,我
可以
使用
星火提交运行。据我所知,
Spark
创建DAG是为了调度操作。 是否有
一种
方法
可以
在不执行繁重操作
的
情况下检索此DAG,例如,仅通过分析代码?我想要一个有用
的
表示,比如
数据结构
,或者至少是书面表示,而不是DAG可视化。
浏览 2
提问于2017-09-16
得票数 7
回答已采纳
1
回答
通过C#
的
Apache查询
c#
、
.net
、
apache-spark
、
.net-spark
、
spark-dotnet
我想知道是否有
一种
方法
可以
使用
C#来编写在Apache
spark
上运行
的
查询。我知道
spark
SQL查询
可以
用java/
scala
/python编写。
有没有
c#
的
接口?
浏览 6
提问于2015-04-29
得票数 6
1
回答
整型、长整型或双精度型作为
Spark
UDF
的
函数参数
scala
、
apache-spark
、
spark-dataframe
、
user-defined-functions
我有一个简单
的
调用
Scala
函数
的
spark
UDF。
Scala
函数目前
使用
'Long‘类型,如下所示 } 由于
spark
不支持Any类型,
有没有
一种
方法
可以
传递一个泛型类
浏览 2
提问于2017-08-24
得票数 0
3
回答
不
使用
Spark
从
Scala
读取拼图文件
scala
有没有
可能在不
使用
Apache
Spark
的
情况下从
Scala
中读取拼图文件? 我发现了一个项目,它允许我们
使用
普通
的
scala
读写avro文件。然而,我找不到
一种
方法
来读写拼图文件
使用
普通
的
scala
程序而不
使用
Spark
?
浏览 0
提问于2016-02-06
得票数 22
回答已采纳
1
回答
使用
jdbc从
Spark
2.3.1
Scala
2.11.8
连接
到Vertica
scala
、
apache-spark
、
jdbc
、
apache-spark-sql
、
vertica
我正在尝试
使用
JDBC
使用
Sparkv2.3.1
Scala
2.11.8
连接
到Vertica dB。在Vertica网站上:当我点击链接时,它会带我到登录页面,在我传递日志后,在顶部弹出一个黄色
的
框,并说我没有查看下载
的
权限。我尝试了另
一种
方式,这次是从Vertica
的
下载页面下载。在中,我加载了3个jar文件(vertica-javadoc、vertica-jdbc、verti
浏览 1
提问于2018-09-22
得票数 0
回答已采纳
3
回答
如何从多个列表创建pyspark dataframe
python
、
pyspark
、
apache-spark-sql
我想将两个列表转换为pyspark数据帧,其中列表是各自
的
列。| a| b| _3| _4|| 1| 2| 3| 4|+---+---+---+---++---+---+| 2| 3|| 4| 5|
有没有
一种
方便
的
方法
来创建这个结果
浏览 0
提问于2018-10-13
得票数 3
回答已采纳
1
回答
如何在
Spark
cosmosdb
连接
器中传递"WriteThroughputBudget“配置
apache-spark
、
azure-cosmosdb
我正在
使用
spark
cosmosdb
连接
器将数据批量写入cosmosdb容器。因为这是批量上载/写入,并且有读取操作在同一时间发生。我想通过
spark
连接
器限制写操作
使用
的
RU。根据
连接
器
的
wiki,我发现配置WriteThroughputBudget
可以
用来限制写RU
的
消耗。根据维基,WriteThroughputBudget是一个整数值,定义了某个
Spark
作业中<
浏览 1
提问于2020-12-03
得票数 0
1
回答
使用
Scala
api触发数据帧到EdgeRDD (GraphX)
scala
、
apache-spark
、
spark-graphx
有没有
一种
从
Spark
DataFrame到EdgeRDD
的
好
方法
,而不需要在
Scala
代码中硬编码类型?我见过
的
用例类定义了EdgeRDD
的
类型。让我们假设我们
的
Spark
DataFrame有StructField、("dstID", LongType, false)和("srcID", LongType, false),以及0到22个额外
的
StructF
浏览 1
提问于2015-06-30
得票数 0
1
回答
如果
spark
作业运行超过x分钟,
有没有
办法终止它?
scala
、
apache-spark
我
使用
bash在多个数据集上运行相同
的
spark
(
scala
)函数。其中一些数据集将花费非常长
的
时间,我想跳过它们,这样我就
可以
在有限
的
时间内完成尽可能多
的
数据集。在
scala
函数中,
有没有
一种
方法
可以
用来在作业运行超过x分钟时终止它?对于dataFolder/*中
的
文件名,我
使用
bash : for filename
浏览 0
提问于2018-04-13
得票数 0
1
回答
简单esRDD引发异常(在
Spark
中
使用
了elasticsearch-hadoop
连接
器)
scala
、
elasticsearch
、
apache-spark
我正在
使用
elasticsearch中加载
的
一些测试数据,在本地主机上测试ElasticSearch和
Spark
的
集成(
使用
elasticsearch-hadoop
连接
器)。
scala
> import org.elasticsearch.
spark
._ my_rdd: org.apache.
浏览 0
提问于2017-02-03
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
教程:Apache Spark SQL入门及实践指南!
2018年数据科学前15名的Scala库
Spark 2.4重磅发布:优化深度学习框架集成,提供更灵活的流式接收器
Apache Spark框架下,Python与Scala谁更胜一筹?
遇见YI算法之初识Pyspark(二)
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券