腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
当
产生
嵌套
arrays_zip
数据
时
,
Spark
DataFrame
的
输出
将
列名
替
换为
"
0
“、"
1
”
我使用
spark
sql函数
arrays_zip
结合flatten
将
数据
从相同长度
的
内部数组
的
结构数组转
换为
结构数组。printSchema显示
的
正是我想要
的
。然而,df
输出
丢失了原始
列名
,并将它们替
换为
通用
列名
"
0
“、"
1
”、"2“等,无论是Parquet格式还是Avro格式。我喜欢
输出<
浏览 36
提问于2019-08-26
得票数 2
3
回答
Spark
-
将
平面
数据
帧映射到可配置
的
嵌套
json模式
、
、
、
我有一个5-6列
的
平面
数据
帧。我想
嵌套
它们,并将其转
换为
嵌套
的
dataframe
,这样我就可以将其写入拼图格式。 但是,我不想使用case类,因为我要尽可能保持代码
的
可配置性。
1
0
我
的
输出
: 第
1
行: { "ID-2": 23, "frui
浏览 14
提问于2019-04-25
得票数 0
回答已采纳
1
回答
如何使用scala
将
csv字符串解析为火花
数据
?
、
、
、
、
我想将包含字符串记录
的
RDD转
换为
Spark
,如下所示。模式行不在同一个RDD中,而是在另一个变量中:所以,现在我
的
问题是,如何使用上述两种方法,在星火中创建一个
数据
文件?然而,这并不完全是我所需要
的
,我也无法找到在我
的
情况下修改这段代码
的
方法。 非常感谢你
的
帮助。
浏览 1
提问于2018-05-02
得票数 1
回答已采纳
1
回答
将
TSV格式转
换为
JavaRDD
、
我需要实现一个Java程序来计数在给定索引上具有相同列值
的
元组。命令行参数为输入路径
输出
路径。输入
的
是一个TSV文件
的
格式:注册(入学号码,姓氏,名字,讲座,学期)。3456 Downe Sid Data Mining WiSe16 import org.apache.
spark
.api.java
浏览 0
提问于2019-12-13
得票数 1
回答已采纳
1
回答
如何
将
numpy数组元素转
换为
spark
RDD列值
、
、
到密集数组
的
转换是由x.vector.toArray()映射调用执行
的
(如下所示)。我似乎想不出,如何
将
密集
的
numpy数组元素放入
Spark
DataFrame
的
单独列中。(我不是在介绍熊猫。)如何将此RDD转
换为
7列
数据
帧,由一个字符串列和6个整数列组成?问题是RDD tuple有2列,但我需要在
DataFrame
中有7列。列数是动态确定
的
,我
将
列名
放在col
浏览 0
提问于2018-06-12
得票数 0
1
回答
检查拼图scala
spark
上是否存在
嵌套
数据
?
、
、
、
因此,我有一个包含
嵌套
数据
的
拼图文件,如下所示。我想在scala中使用
spark
进行处理: { "id":
1
, "age":
1
,def get:
DataFrame
= { shee
浏览 12
提问于2019-08-09
得票数 0
回答已采纳
1
回答
火花转换Pandas df到S3
、
、
、
、
如何
将
Pandas以一种方便
的
方式转换成可以写入s3
的
数据
。 .format("com.databricks.
spark
.csv") .save("123.csv")
浏览 0
提问于2017-01-03
得票数 0
回答已采纳
1
回答
创建具有
嵌套
结构
的
DataFrame
并从输入表填充
数据
、
、
我正在使用Scala中
的
Spark
,希望
将
现有的
数据
集(
dataframe
)转
换为
包含
嵌套
结构
的
新表。示例输入: columnA columnB columnC columnD columnE 示例
输出
: columnA columnB columnC columnF:{columnD,columnE}(创建一个同时包含D和E作为
嵌套
结构
的
新列) 转换columnA-C很简单,因为我可以使用.wit
浏览 25
提问于2021-08-12
得票数 0
1
回答
Spark
如果使用DataFrameNaFunctions ()创建映射,则来自RDD.collectAsMap
的
替换函数无法工作。
、
、
在DataFrameNaFunctions中,我使用replace函数
将
数据
格式中
的
列
的
值替
换为
Map中
的
列。
当
使用RDD.collect()
将
数据
转
换为
Map
时
,.toMap(如下面所示)可以很好地工作,我将其称为方法
1
。13 more fields] 但是,
当<
浏览 4
提问于2021-02-24
得票数 1
回答已采纳
3
回答
如何在
Spark
中分配和使用列标题?
、
、
、
、
我正在读取下面的
数据
集。我
的
文件包含50+字段,我希望为每个字段分配列标题,以便稍后在脚本中引用。
DataFrame
是去这里
的
路吗? PS -菜鸟到火花。
浏览 2
提问于2016-04-14
得票数 7
8
回答
如何在
Spark
2 Scala中将Row转
换为
json
、
、
、
有没有一种简单
的
方法可以将给定
的
Row对象转
换为
json? 找到了关于
将
整个
数据
帧转
换为
json
输出
的
内容:
Spark
Row to JSON 但我只想把one Row转换成json。下面是我想要做
的
伪代码。 更准确地说,我
将
json读取为
Dataframe
中
的
输入。我正在生成一个新
的
输出
,它主要基于列,但使用一个json字段来
浏览 150
提问于2017-01-12
得票数 10
回答已采纳
1
回答
在Apache
Spark
Scala中将
嵌套
的
json with array展平为单行
数据
帧
、
我正在尝试
将
下面的json扁平化成一个单行
的
数据
帧。我已经看过很多文章,展示了如何使用数组
将
复杂
的
/
嵌套
的
json对象展平为多行。但是,我不想将json展平为多行。我只想要一个如
输出
所示
的
单行
数据
帧。数组索引
将
转
换为
列名
。我如何在Apache
Spark
Scala中实现这一点?name":"BMW", &
浏览 39
提问于2021-08-26
得票数 1
1
回答
spark
dataframe
根据条件从多列中选择值
、
数据
模式,|-- id: string (nullable = true)|-- col2: string (nullable= true) |
1
|["x","y","z"]|[123,"null","null"]| 从上面的
数据
中,我想过滤
浏览 3
提问于2019-11-25
得票数 0
2
回答
Spark
:如何
将
数据
帧Array[String]更改为RDD[Array[String]]
、
、
我以
DataFrame
array<string>
的
身份处理事务我想将其更改为RDD[Array[string]],但是当我将其更改为RDD
时
,它被更改为org.apache.
spark
.rdd.RDD[org.apache.
spark
.sql.Rowsam: RDD[Array[Stri
浏览 14
提问于2017-01-11
得票数 1
7
回答
如何更改火花
数据
中
的
列位置?
、
、
、
我想知道是否可以更改列在
dataframe
中
的
位置,实际上是否可以更改架构?准确地说,如果我有一个像[field
1
, field2, field3]那样
的
数据
文件,并且我想得到[field
1
, field3, field2]。如何移动一个或多个列,即:如何
浏览 4
提问于2016-06-29
得票数 47
回答已采纳
3
回答
Pyspark:
将
多个数组列拆分为行
、
、
、
、
我有一个
数据
帧,它有一行和几列。其中一些列是单个值,其他列是列表。所有列表列
的
长度都相同。我希望
将
每个列表列拆分为单独
的
行,同时保持任何非列表列
的
原样。--+---------+---------+---+# +---+---------+---------+---++--c列执行explode操作,最终得到
的
数据
帧
的
长
浏览 2
提问于2016-12-08
得票数 78
回答已采纳
2
回答
Pandas:归一化
数据
时
获取
0
和NaNs
、
我在Pandas中规范化我
的
数据
时
遇到了一些问题。我已经创建了一个模型,并试图使用它来预测。17 18 19 20 21 22 所以我丢失了我
的
列名
,我
的
值都是
0
。最后,我尝试从原始numeric_df中添加回旧
的
列名
,如下所示: numeric_df_normalized = pd.
DataFrame
(nu
浏览 1
提问于2017-08-01
得票数 1
1
回答
在pyspark
数据
帧
的
数据
类型中进行不同
的
计数
、
我需要一个函数来在pypspark
dataframe
中获取类似以下内容: 变量类型: 数字:4分类:4日期:
1
浏览 18
提问于2019-10-17
得票数 0
2
回答
为
spark
.read()从另一个
数据
集中查找要选择
的
列- Scala
、
、
我有一个Dataset[Year],它有以下模式:有任何方法来生成当前架构
的
集合吗?我试过:但结果是:Print -> List([01,01,2022], [31,01,2022])我知道,使用一个映射,我可以调整
浏览 5
提问于2022-03-22
得票数 1
回答已采纳
1
回答
使用case类和
列名
别名使用反射
的
Spark
Dataframe
模式定义
、
、
、
、
我
的
Spark
脚本遇到了一个小问题。基本上,我有原始
数据
,在分组和计数之后进行聚合,等等,我希望
将
输出
保存为特定
的
JSON格式。编辑:当我从源
dataframe
中选择
列名
有别名
的
Array[org.apache.
spark
.sql.Column]
数据
时
,在试图
将
行映射到case类
时
使用
列名
(实
浏览 1
提问于2016-12-20
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券