scala数据帧连接列和拆分数组爆炸火花

scala、dataframe、apache-spark、apache-spark-sql

我在一个数据帧中的多个数组列中有一些坐标，并希望将它们拆分，使x、y、z按顺序位于不同的列中，首先是column1数据，然后是第2列例如..。

浏览 8提问于2021-08-13得票数 1

1回答

将基于120列的平面数据结构存储到Spark

scala、apache-spark、parquet

我正试图使用Scala在Spark中存储一个包含大约120列的平面数据结构作为Parquet文件。这是我决定如何去做，不需要什么建议或想法来做得更好，因为对我来说，它看起来有点笨拙。基于数据创建案例类的逻辑分离创建一个复合案例类，它将包含上述所有案例类。使用火花爆炸将复合列拆分为单个实体(看起来火花爆炸只在Seq/Array/List上工作，因此在步骤2中我被迫将case类元素存储为Seq

浏览 2提问于2016-04-16得票数 0

回答已采纳

1回答

pyspark创建一个包含字面值的数组，然后分解

pyspark

假设我有一个数据帧，如下所示df.show() 我想创建一个包含"source1“、"source2”、"source3“的数组列，稍后我想分解这些

浏览 0提问于2021-09-28得票数 0

2回答

将嵌套星火DataFrame中的列提取为scala数组

scala、apache-spark

我有一个DataFrame myDf，它包含一个点对数组(即x和y坐标)，它有以下模式： |-- pts: array (nullable = true)containsNull = true) | | |-- y: float (nullable = true) 我想把x和y作为单独的普通Scala Array。我想我需要应用爆炸性函数，但我不知道如何实现。我

浏览 6提问于2016-06-28得票数 2

回答已采纳

1回答

有没有一种在连接后只选择一个dataframe列的快捷方式？

scala、dataframe、azure-databricks

我在scala中使用一个数据帧，但该数据帧有大约60列。在Databricks管道中，我们拆分出几个列和一个标识列来验证一些数据，从而产生一个“参考”数据帧。我希望将它连接回主要的大型数据框架，并将经过验证的数据插入到原始列中。为了简单起见，我希望结果数据帧</e

浏览 23提问于2021-08-27得票数 1

回答已采纳

3回答

如何在没有爆炸的情况下绘制星火阵列的地图？

arrays、scala、apache-spark

我的情况是，我有一个数组列，我想要过滤。prefix", "\\-").getItem(0))但这涉及到爆炸我现在的计划是从prefixesList中定义一个数组列，然后使用array_intersect对其进行过滤--但是，为了使其正常工作，我必须去掉-whatever部分(显然，每个条目都不同)。

浏览 7提问于2020-03-25得票数 0

回答已采纳

2回答

将函数应用于数组列中的所有值

arrays、apache-spark、pyspark、user-defined-functions

我希望在没有爆炸(!)的情况下，使我的吡火花数据帧中的数组列中的所有值都为负值。示例数据框架： [Row(name='Joe', forecast_values=[1.0,2.0,3.0]), Row(name='Mary'

浏览 3提问于2019-10-22得票数 6

回答已采纳

4回答

SparkSQL :我能在同一个查询中引爆两个不同的变量吗？

apache-spark、apache-spark-sql

我有下面的爆炸性查询，这个查询很好：我想要爆炸另一个字段“颜色”，所以最终的输出可以是笛卡尔的名字和颜色的乘积

浏览 5提问于2016-04-26得票数 19

1回答

如何在每一列中转换DataFrame以在pyspark中创建两个新列？

apache-spark、pyspark、apache-spark-sql、pyspark-sql

我有一个数据帧"x"，其中有两列"x1“和"x2”kv,true 45mp,true 75bm,null 550我想将此数据帧转换为根据其状态和值过滤数据的格式kv 45 450

浏览 0提问于2016-11-18得票数 1

2回答

我有1000个传感器，我需要划分数据(即每个传感器每天)，然后将每个数据点列表提交给一个R算法)。value", type = "ArrayType(IntegerType,true)", nullable = TRUE 因此，在SparkR中，我有一个dataframe，其中每个记录都有我想要的所有数据我想将这个数组提取到R可以消耗的东西中，然后用一个新列来改变我的原始dataframe(df)，其中包含了结果数组。逻辑上类似于结果=函数(df$value

浏览 2提问于2016-01-12得票数 1

回答已采纳

1回答

用10小时插入60 db数据

mongodb、apache-spark

我使用的是火花: 1.6.2和MongoDB: 3.2.8 我有一个8列和10亿行的dataframe。洗牌写入的数据帧是60 is。我将使用mongo-火花-conector(mongo-火花-连接器_2.10)在mongodb中插入该数据。

浏览 2提问于2016-07-18得票数 0

2回答

UDF连接隐藏在Row对象中的未定义Case类数组

scala、apache-spark、apache-spark-sql、spark-dataframe

我有一个名为sessions的dataframe，它的列可能随着时间的推移而改变。(编辑来澄清：我没有列的case类--只有一个反射模式。)我将始终在外部作用域中有一个uuid和clientId，以及可能构成跟踪事件的其他内部和外部范围列。，这是连接的两个字段的结果列表。但是，返回Some(1)而不是trackingEvents没有错误.操作集合的最佳方法是什么，以便我可以使用注释部分中的活动将上面的模式所建议的2组相同结构的列表连接起来。以内存/速度高效的方

浏览 4提问于2017-11-13得票数 0

2回答

pyspark -拆分后对数组(StringType())类型的列中的值求和的最佳方法

python、sql、apache-spark、pyspark、apache-spark-sql

我有一个像这样的数据框架， name | scoresAnn | [2_12.4, 3_4.5, 5_9.3]Dan | 29.5Jon | 1.7 我的数据帧非常大，

浏览 79提问于2021-02-03得票数 1

回答已采纳

1回答

如何将星星之火中的结构数组聚合为

scala、apache-spark、user-defined-functions、distribution

我用的是火花2.1。我有一个带有这个模式的数据文件：|-- sum: integer (nullable“分发”中的“和”和“计数”(按“下”和“上”分组) 在这里我不能爆炸的数据，因为我将有重复的行，不能做和“和”列。一种可能是分别进行分发和聚合，然后

浏览 0提问于2019-09-02得票数 1

回答已采纳

1回答

如何将pyspark的多个列(它们是具有相同键的字典)分解成行

dictionary、pyspark、explode

数据帧有多个字典格式的列--它们具有相同的键。我如何才能将它们分解成行，而不必使用任何连接来保持键不受任何列的影响？需要爆炸的列是pct_ci_tr，pct_ci_rn，pct_ci_ttv和pct_ci_comm

浏览 3提问于2022-06-21得票数 0

回答已采纳

2回答

Spark Dataframes:如何更改Java/Scala中列的顺序？

java、scala、dataframe、spark-dataframe

在连接两个数据帧之后，我发现列的顺序改变了我的预期。例如:在b上连接具有列[b,c,d,e]和[a,b]的两个数据帧将产生[b,a,c,d,e]的列顺序。如何更改列的顺序(例如，[a,b,c,d,e])？我已经找到了在Python/R中做到这一点的方法，但没有找到Scala或Java。是否有任何方法允许交换或重新排序数据帧列<

浏览 1提问于2016-06-29得票数 4

1回答

scala从多个列获得一个类型字符串数组

arrays、string、scala、apache-spark、accumulator

我用的是火花和scala。我想知道如何获得以下输出，请参阅下面图像上的列累加器，它应该是字符串数组ArrayString在我的真实数据中，我有超过3列。

浏览 2提问于2016-10-13得票数 0

回答已采纳

1回答

将具有相同值的JSON组合成JSON数组- Scala

arrays、json、scala

我已经使用toJSON将包含email，account，id列的数据帧转换为json。email": "xyz", "account": "pqr", "id": "1"},{"email": "abc", "account": "lmn", "id": "1"}] 之后，我想将这个JSON数组填

浏览 19提问于2020-09-10得票数 0

1回答

如何读取大容量excel文件数据并加载到数据库中的spark数据中

python-3.x、pandas、pyspark、azure-databricks

我想阅读大容量excel数据，其中包含800 k记录和230列。我已经用火花和熊猫的数据读取数据，但当我使用火花数据框架读取数据时，我得到以下信息。我使用了下面的代码使用火花。option("addColorColumns", "False").

浏览 1提问于2019-06-04得票数 0

1回答

在spark/scala中的另一个数据框中查找多个列值

scala、dataframe、apache-spark、lookup

我有两个数据帧A和B。A有30列- reason1,reason2.......reason30现在，我需要在B中查找所有以reason*开头的列，并在数据帧A的一列中获取相应的值。因此，最终的数据帧将具有reason1,reason2.......reason30, value 我试图将每一列与其他数据帧</em

浏览 9提问于2021-05-17得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

将基于120列的平面数据结构存储到Spark

pyspark创建一个包含字面值的数组，然后分解

将嵌套星火DataFrame中的列提取为scala数组

有没有一种在连接后只选择一个dataframe列的快捷方式？

如何在没有爆炸的情况下绘制星火阵列的地图？

将函数应用于数组列中的所有值

SparkSQL :我能在同一个查询中引爆两个不同的变量吗？

如何在每一列中转换DataFrame以在pyspark中创建两个新列？

SparkR -为R函数提取数据的array<int>

用10小时插入60 db数据

UDF连接隐藏在Row对象中的未定义Case类数组

pyspark -拆分后对数组(StringType())类型的列中的值求和的最佳方法

如何将星星之火中的结构数组聚合为

如何将pyspark的多个列(它们是具有相同键的字典)分解成行

Spark Dataframes:如何更改Java/Scala中列的顺序？

scala从多个列获得一个类型字符串数组

将具有相同值的JSON组合成JSON数组- Scala

如何读取大容量excel文件数据并加载到数据库中的spark数据中

在spark/scala中的另一个数据框中查找多个列值

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐