腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
基于
Scala
中
另一
列
的
值
映射
RDD
列
、
我是这里
的
初学者。我正在使用Spark 2.4.4和
Scala
。我有一个包含三
列
的
RDD
,第一个条目如下:
RDD
有数千个条目。当同一行中有'neg‘时,我想将double
的
值更改为负值,而当有任何其他短语时,则不执行任何操作。我想要获得以下输出:我认为map函数可以用来创建一个新
的
RDD</em
浏览 9
提问于2019-10-31
得票数 0
回答已采纳
1
回答
如何使用Spark在
Scala
中
返回多
列
键和
值
对
、
我想把下面的
RDD
转换成键值对,每个键有两个
值
。第一
列
应该是键,第二
列
和第三
列
应该是
值
。如何使用
scala
中
的
Case类执行转换?
scala
> input[Market,
浏览 0
提问于2018-05-29
得票数 0
1
回答
随着数据集和
列
数
的
增加,Spark作业
的
执行时间呈指数级增长
、
、
我已经在spark
中
创建了一个固定宽度
的
文件导入解析器,并在各种数据集上执行了一些执行测试。它可以很好地工作到1000
列
,但随着
列
数和固定宽度长度
的
增加,Spark作业性能会迅速下降。对于20k
列
和固定宽度长度超过10万
的
列
,执行时间很长。我发现
的
类似问题之一:
浏览 1
提问于2018-09-15
得票数 1
1
回答
如何通过键来比较两个JavaPairRDD并比较
值
?
、
、
我想使用Java根据两个JavaPairRDD键进行比较,比较它们
的
值
,看看相同
的
键是否具有完全相同
的
值
。现在,我只检查交叉和合并
的
计数(),但这还不够,如下所示: "ERROR: SxS validation fa
浏览 2
提问于2017-05-26
得票数 0
回答已采纳
2
回答
如何将查找(广播)
RDD
(或dataset)访问到其他
RDD
映射
函数
、
、
、
、
我在CDH 5.1.3上使用spark 1.0.0at org.apache.spark.
rdd
.PairRDDFunctions.lookup(PairRDDFunctions.
scala
:571) 我可以理解访问一个
RDD
内部
的<
浏览 3
提问于2016-01-07
得票数 0
回答已采纳
1
回答
如何将
RDD
[Row]转换回DataFrame
、
、
、
首先,我有一个类型为(Int,Int)
的
RDD
,名为dataPair。然后,我使用以下命令创建了一个带有
列
标题
的
DataFrame对象:然后,我使用以下命令将其从DataFrame转换回
RDD
:它返回org.apache.spark.sql.Row类型
的
RDD
(不是(整数,整数))。] 我
浏览 1
提问于2016-05-04
得票数 11
回答已采纳
1
回答
滤波器在矢量/Array[Double]关系图中
的
应用
、
、
、
、
假设我有一个ArrayDouble
的
RDD
,有n
列
。我想在最后一
列
上应用一个过滤器(比如
值
>某个常量)。 如果我可以选择一个而不是
另一
个(例如,ArrayDouble
的
RDD
和向量
的
RDD
),那么我应该选择哪一个来获得更
浏览 3
提问于2014-12-08
得票数 1
0
回答
如何使用Spark
scala
RDD
获得
基于
两
列
的
运行和
、
、
我有
RDD
的
数据,其中有4
列
,如地理,产品,时间和价格。我想计算
基于
geog和time
的
运行总和。 我需要像这样
的
结果。我需要这个spark-
Scala
-
RDD
。我是
Scala
领域
的
新手,我可以用SQL轻松实现这一点。我想在spark -
Scala
-
RDD
中
这样做,就像使用(地图,平面地图)一样。 提前感谢您
的
帮
浏览 3
提问于2017-01-11
得票数 0
2
回答
Spark
RDD
to CSV -添加空
列
、
我有一个
RDD
[MapString,Int],其中
映射
的
键是列名。每个
映射
都是不完整
的
,为了知道列名,我需要联合所有的键。有没有一种方法可以避免这种收集操作,知道所有的键并只使用一次
rdd
.saveAsTextFile(..)去拿csv吗?例如,假设我有一个包含两个元素(
scala
表示法)
的
RDD
:Map("b"->
浏览 1
提问于2015-06-30
得票数 0
1
回答
PySpark: DataFrame到
RDD
[DenseVector],而不是
RDD
[Row]
、
、
、
、
我有一个表单
的
PySpark数据帧:| col_name||[val1, val2,val3] |+--------------------+[Row(col_n
浏览 0
提问于2018-06-05
得票数 0
1
回答
时间戳StructField
中
的
空
值
、
如何处理时间戳
列
中
的
空
值
?我将源数据保存在列表
中
(sql
的
结果) [220,1,220,220,2012-04-24 23在最后一
列
中
,空
值
与时间戳混合。, StructType(fields)) 导致: java.lang.RuntimeException:
scala
.runtime.Boxe
浏览 0
提问于2018-06-21
得票数 0
回答已采纳
2
回答
如何将
RDD
的
一
列
与(A)相同(B)不同
的
RDD
的
其他
列
映射
?
、
这里
的
初学者,我正在使用Spark2.1.1和
Scala
2.11.8。(String, String, String, String, String, String) = (" p69465323_serv80i"," 7 "," fb_406423006398063我想将第一栏与第三、第四、第五和第六栏分别
映射
为: (fb_4064230063980
浏览 2
提问于2017-06-29
得票数 0
回答已采纳
1
回答
将StringType
列
添加到现有的DataFrame
中
,然后应用默认
值
、
、
、
(更重要
的
是,),这个问题也仅限于向现有的dataframe
中
添加一个新
列
,而我需要添加一个
列
以及数据中所有现有行
的
值
。因此,我希望向现有的DataFrame添加一
列
,然后将该新
列
的
初始(“默认
值
”)
值
应用到所有行。-+--------+----+ 这意味着,我希望向StringType类型
的
DF
中
添加一个新
的
“StringType”
列<
浏览 4
提问于2016-10-10
得票数 7
回答已采纳
1
回答
将数组类型
的
列
处理为udf时
的
Spark - java.lang.ClassCastException [数组[Map[String,String]
、
、
、
我连接了Array[Map[String,String]]类型
的
spark
中
的
两个
列
,生成了一个新
的
Array[Array[Map[String,String]]]类型
的
列
。但是,我希望将该
列
展平,以获得一个Array[Map[String,String]]类型
的
列
,其中包含两个原始
列
的
值
我从Spark2.4
中
读到,可以直接在
列</em
浏览 30
提问于2020-12-24
得票数 0
回答已采纳
2
回答
将Dataframe转换回星火中case类
的
RDD
、
我试图将多个案例类
的
数据转换为这些多个案例类
的
rdd
。我找不到任何解决办法。这个wrappedArray把我逼疯了。为了得到第二
列
,我尝试了这样
的
方法,但是它产生了一个错误: aDF.map { case r:Row => r.getAs[randomClass3]("_2")}
浏览 5
提问于2016-10-03
得票数 3
回答已采纳
2
回答
数据库Azure广播变量不可串行化
、
、
这只是为了乱搞,所以这个例子有点做作,但是我无法在
RDD
映射
调用
中
得到一个
值
,除非它是一个静态常量值。下面是一个使用int
的
简单示例,我广播了它,然后尝试并在
RDD
映射
中使用。,其中使用带有int字段
的
简单可序列化
的
单例对象,然后在
RDD
映射
中尝试使用该对象。[int],然后尝试在
RDD
映射
中使用该元素。正如您所看到
的
,这指
浏览 0
提问于2018-04-26
得票数 1
回答已采纳
1
回答
使用PySpark根据列名及其数值过滤spark
RDD
、
、
、
、
我正在将
Scala
/ Spark模型转换为Python / Spark。问题是我
的
RDD
有大约100万个观察
值
和大约33
列
。我
基于
数值阈值('Time')来拆分
RDD
。以下是
Scala
的
源代码:val splitTime = data.stat.approxQuantile("Time&quo
浏览 6
提问于2017-12-13
得票数 0
1
回答
Spark:根据
另一
个
RDD
中
数组
的
元素获取
RDD
的
元素
、
、
在Spark
Scala
框架
中
,我有一个
RDD
,
rdd
1,其中每个元素表示矩阵A
的
一个元素x表示行,y表示
列
,v表示矩阵A
中
的
值
。我还有
另一
个
RDD
,
rdd
2,形式为
RDD
[index, Array[(x, y)]],其中每个元素<e
浏览 1
提问于2016-09-16
得票数 0
回答已采纳
1
回答
将cassandra行
RDD
转换为元组数组
、
、
我尝试从cassandra表
中
读取数据并将
值
存储在数组
中
。我
的
RDD
如下所示如何将
浏览 0
提问于2015-11-06
得票数 0
2
回答
Scala
:从csv读取具有空
值
的
列
的
数据
、
、
csv文件,它有3
列
数据类型:String,Long,Date。$anonfun$mapPartitionsInternal$2(
RDD
.
scala
:872)at org.apache.spark.
rdd
.
RDD
.computeOrReadCheckpoint(
RDD
.
scala
:349) at org.
浏览 1
提问于2021-03-25
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券