腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1203)
视频
沙龙
1
回答
scala
数据
帧
连接
列
和
拆分
数组
爆炸
火花
scala
、
dataframe
、
apache-spark
、
apache-spark-sql
我在一个
数据
帧
中的多个
数组
列
中有一些坐标,并希望将它们
拆分
,使x、y、z按顺序位于不同的
列
中,首先是column1
数据
,然后是第2
列
例如..。
浏览 8
提问于2021-08-13
得票数 1
1
回答
将基于120
列
的平面
数据
结构存储到Spark
scala
、
apache-spark
、
parquet
我正试图使用
Scala
在Spark中存储一个包含大约120
列
的平面
数据
结构作为Parquet文件。这是我决定如何去做,不需要什么建议或想法来做得更好,因为对我来说,它看起来有点笨拙。基于
数据
创建案例类的逻辑分离 创建一个复合案例类,它将包含上述所有案例类。使用
火花
爆炸
将复合
列
拆分
为单个实体(看起来
火花
爆炸
只在Seq/Array/List上工作,因此在步骤2中我被迫将case类元素存储为Seq
浏览 2
提问于2016-04-16
得票数 0
回答已采纳
1
回答
pyspark创建一个包含字面值的
数组
,然后分解
pyspark
假设我有一个
数据
帧
,如下所示df.show() 我想创建一个包含"source1“、"source2”、"source3“的
数组
列
,稍后我想分解这些
浏览 0
提问于2021-09-28
得票数 0
2
回答
将嵌套星火DataFrame中的
列
提取为
scala
数组
scala
、
apache-spark
我有一个DataFrame myDf,它包含一个点对
数组
(即x
和
y坐标),它有以下模式: |-- pts: array (nullable = true)containsNull = true) | | |-- y: float (nullable = true) 我想把x
和
y作为单独的普通
Scala
Array。我想我需要应用
爆炸
性函数,但我不知道如何实现。我
浏览 6
提问于2016-06-28
得票数 2
回答已采纳
1
回答
有没有一种在
连接
后只选择一个dataframe
列
的快捷方式?
scala
、
dataframe
、
azure-databricks
我在
scala
中使用一个
数据
帧
,但该
数据
帧
有大约60
列
。 在Databricks管道中,我们
拆分
出几个
列
和
一个标识
列
来验证一些
数据
,从而产生一个“参考”
数据
帧
。我希望将它
连接
回主要的大型
数据
框架,并将经过验证的
数据
插入到原始
列
中。 为了简单起见,我希望结果
数据
帧</e
浏览 23
提问于2021-08-27
得票数 1
回答已采纳
3
回答
如何在没有
爆炸
的情况下绘制星火阵列的地图?
arrays
、
scala
、
apache-spark
我的情况是,我有一个
数组
列
,我想要过滤。prefix", "\\-").getItem(0))但这涉及到
爆炸
我现在的计划是从prefixesList中定义一个
数组
列
,然后使用array_intersect对其进行过滤--但是,为了使其正常工作,我必须去掉-whatever部分(显然,每个条目都不同)。
浏览 7
提问于2020-03-25
得票数 0
回答已采纳
2
回答
将函数应用于
数组
列
中的所有值
arrays
、
apache-spark
、
pyspark
、
user-defined-functions
我希望在没有
爆炸
(!)的情况下,使我的吡
火花
数据
帧
中的
数组
列
中的所有值都为负值。示例
数据
框架: [Row(name='Joe', forecast_values=[1.0,2.0,3.0]), Row(name='Mary'
浏览 3
提问于2019-10-22
得票数 6
回答已采纳
4
回答
SparkSQL :我能在同一个查询中引爆两个不同的变量吗?
apache-spark
、
apache-spark-sql
我有下面的
爆炸
性查询,这个查询很好:我想要
爆炸
另一个字段“颜色”,所以最终的输出可以是笛卡尔的名字
和
颜色的乘积
浏览 5
提问于2016-04-26
得票数 19
1
回答
如何在每一
列
中转换DataFrame以在pyspark中创建两个新
列
?
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-sql
我有一个
数据
帧
"x",其中有两
列
"x1“
和
"x2”kv,true 45mp,true 75bm,null 550我想将此
数据
帧
转换为根据其状态
和
值过滤
数据
的格式kv 45 450
浏览 0
提问于2016-11-18
得票数 1
2
回答
SparkR -为R函数提取
数据
的array<int>
arrays
、
r
、
spark-dataframe
、
sparkr
我有1000个传感器,我需要划分
数据
(即每个传感器每天),然后将每个
数据
点列表提交给一个R算法)。value", type = "ArrayType(IntegerType,true)", nullable = TRUE 因此,在SparkR中,我有一个dataframe,其中每个记录都有我想要的所有
数据
我想将这个
数组
提取到R可以消耗的东西中,然后用一个新
列
来改变我的原始dataframe(df),其中包含了结果
数组
。逻辑上类似于结果=函数(df$value
浏览 2
提问于2016-01-12
得票数 1
回答已采纳
1
回答
用10小时插入60 db
数据
mongodb
、
apache-spark
我使用的是
火花
: 1.6.2
和
MongoDB: 3.2.8 我有一个8
列
和
10亿行的dataframe。洗牌写入的
数据
帧
是60 is。我将使用mongo-
火花
-conector(mongo-
火花
-
连接
器_2.10)在mongodb中插入该
数据
。
浏览 2
提问于2016-07-18
得票数 0
2
回答
UDF
连接
隐藏在Row对象中的未定义Case类
数组
scala
、
apache-spark
、
apache-spark-sql
、
spark-dataframe
我有一个名为sessions的dataframe,它的
列
可能随着时间的推移而改变。(编辑来澄清:我没有
列
的case类--只有一个反射模式。)我将始终在外部作用域中有一个uuid
和
clientId,以及可能构成跟踪事件的其他内部
和
外部范围
列
。,这是
连接
的两个字段的结果列表。但是,返回Some(1)而不是trackingEvents没有错误.操作集合的最佳方法是什么,以便我可以使用注释部分中的活动将上面的模式所建议的2组相同结构的列表
连接
起来。以内存/速度高效的方
浏览 4
提问于2017-11-13
得票数 0
2
回答
pyspark -
拆分
后对
数组
(StringType())类型的
列
中的值求和的最佳方法
python
、
sql
、
apache-spark
、
pyspark
、
apache-spark-sql
我有一个像这样的
数据
框架, name | scoresAnn | [2_12.4, 3_4.5, 5_9.3]Dan | 29.5Jon | 1.7 我的
数据
帧
非常大,
浏览 79
提问于2021-02-03
得票数 1
回答已采纳
1
回答
如何将星星之火中的结构
数组
聚合为
scala
、
apache-spark
、
user-defined-functions
、
distribution
我用的是
火花
2.1。我有一个带有这个模式的
数据
文件:|-- sum: integer (nullable“分发”中的“
和
”
和
“计数”(按“下”
和
“上”分组) 在这里我不能
爆炸
的
数据
,因为我将有重复的行,不能做
和
“
和
”
列
。一种可能是分别进行分发
和
聚合,然后
浏览 0
提问于2019-09-02
得票数 1
回答已采纳
1
回答
如何将pyspark的多个
列
(它们是具有相同键的字典)分解成行
dictionary
、
pyspark
、
explode
数据
帧
有多个字典格式的
列
--它们具有相同的键。我如何才能将它们分解成行,而不必使用任何
连接
来保持键不受任何
列
的影响?需要
爆炸
的
列
是pct_ci_tr,pct_ci_rn,pct_ci_ttv
和
pct_ci_comm
浏览 3
提问于2022-06-21
得票数 0
回答已采纳
2
回答
Spark Dataframes:如何更改Java/
Scala
中
列
的顺序?
java
、
scala
、
dataframe
、
spark-dataframe
在
连接
两个
数据
帧
之后,我发现
列
的顺序改变了我的预期。 例如:在b上
连接
具有
列
[b,c,d,e]
和
[a,b]的两个
数据
帧
将产生[b,a,c,d,e]的
列
顺序。如何更改
列
的顺序(例如,[a,b,c,d,e])?我已经找到了在Python/R中做到这一点的方法,但没有找到
Scala
或Java。是否有任何方法允许交换或重新排序
数据
帧
列<
浏览 1
提问于2016-06-29
得票数 4
1
回答
scala
从多个
列
获得一个类型字符串
数组
arrays
、
string
、
scala
、
apache-spark
、
accumulator
我用的是
火花
和
scala
。 我想知道如何获得以下输出,请参阅下面图像上的
列
累加器,它应该是字符串
数组
ArrayString在我的真实
数据
中,我有超过3
列
。
浏览 2
提问于2016-10-13
得票数 0
回答已采纳
1
回答
将具有相同值的JSON组合成JSON
数组
-
Scala
arrays
、
json
、
scala
我已经使用toJSON将包含email,account,id
列
的
数据
帧
转换为json。email": "xyz", "account": "pqr", "id": "1"},{"email": "abc", "account": "lmn", "id": "1"}] 之后,我想将这个JSON
数组
填
浏览 19
提问于2020-09-10
得票数 0
1
回答
如何读取大容量excel文件
数据
并加载到
数据
库中的spark
数据
中
python-3.x
、
pandas
、
pyspark
、
azure-databricks
我想阅读大容量excel
数据
,其中包含800 k记录
和
230
列
。我已经用
火花
和
熊猫的
数据
读取
数据
,但当我使用
火花
数据
框架读取
数据
时,我得到以下信息。 我使用了下面的代码使用
火花
。option("addColorColumns", "False").
浏览 1
提问于2019-06-04
得票数 0
1
回答
在spark/
scala
中的另一个
数据
框中查找多个
列
值
scala
、
dataframe
、
apache-spark
、
lookup
我有两个
数据
帧
A
和
B。A有30
列
- reason1,reason2.......reason30现在,我需要在B中查找所有以reason*开头的
列
,并在
数据
帧
A的一
列
中获取相应的值。因此,最终的
数据
帧
将具有reason1,reason2.......reason30, value 我试图将每一
列
与其他
数据
帧</em
浏览 9
提问于2021-05-17
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Excel VBA 数组知识点,数组能不能用好,就看这个你学会没有
划重点!12种高效Numpy&Pandas使用技巧!
PostgreSQL 那些值得尝试的功能,你知道多少?
Zzreal的大数据笔记-SparkDay04
-乌森数据可视化系列(1)
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券