使用Spark Scala Dataframe中现有的integer列创建整数范围的新列_使用Spark Dataframe (Scala)中的另一列数组创建数组列_如何使用Scala在Spark中创建仅包含列名和数据类型的新空列 - 腾讯云开发者社区

scala、apache-spark、apache-spark-sql

假设我有一个Spark Scala DataFrame对象，比如： +--------++--------+|3 ||col1 |col2 ||1 |[0,1] | |

浏览 16提问于2019-10-12得票数 0

回答已采纳

1回答

将StringType列添加到现有的DataFrame中，然后应用默认值

scala、apache-spark、dataframe、apache-spark-sql

Scala2.10在这里使用Spark1.6.2。我有一个与类似的(但不是相同的)问题，然而，被接受的答案不是，它假定了关于火花的某种“预先知识”；因此我无法复制它或理解它。(更重要的是，)，这个问题也仅限于向现有的dataframe中添加一个新列，而我需要添加一个列以及数据中所有现有行的值。因此，我希望向现有的Data

浏览 4提问于2016-10-10得票数 7

回答已采纳

3回答

如何在不同大小的数组列中随机选择元素？

scala、apache-spark、apache-spark-sql

给定具有不同大小的整数数组列的数据文件：+------------++------------+root | |-- element: integer (containsNull = true) 我希望在每个数组中生成一个具有随机选择项的新列</e

浏览 0提问于2018-05-22得票数 3

回答已采纳

1回答

向现有DataFrame添加mapType列

scala、dataframe、apache-spark

关于Spark中的Scala中的DataFrames，我有一个简单而快速的问题。我有一个现有的Spark DataFrame (在Scala2.10.5和Spark 1.6.3上运行)，我想用ArrayType或MapType添加一个新列，但不知道如何实现。但不知道该怎么处理。我不想用“单一”值创建多个列，而是

浏览 9提问于2019-11-20得票数 0

1回答

在scala中将Map Datatype的新列添加到Spark Dataframe

scala、apache-spark、apache-spark-sql

我可以用一个数据类型为Map的列创建一个新的Dataframe。card_type_details类型相同的新列。我正在尝试使用spark withColumn方法来添加这个新列。(valueContainsNull = true)如何添加应与card_type_details<em

浏览 1提问于2020-10-22得票数 0

2回答

在dataframe中铸造列的类型

scala、apache-spark

我的星火程序需要读取一个包含整数矩阵的文件。列用"，“分隔。每次运行程序时，列数都不一样。我将该文件作为数据文件读取：但是，当我打印模式时，它会将所有列作为String提供给我。我将所有列转换为整数，如下所示，但在此之后，当再次打印df模式时，列仍然是String。

浏览 2提问于2018-01-10得票数 1

回答已采纳

2回答

星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“

hadoop、apache-spark、hive、apache-spark-sql

当创建一个列值默认值为NULL的表时，我在Spark(1.6) SQL中获得了下面的错误。示例:将表测试创建为select column_a，NULL作为column_b从test_temp创建；同样的东西在Hive中工作，并创建数据类型为"void“的列。我使用空字符串而不是NULL来避免异常和新列获取字符串数据类

浏览 3提问于2017-12-27得票数 0

回答已采纳

1回答

在本地使用spark/scala查询数据时，如何更改列中值的输出？

json、scala、dataframe、apache-spark、apache-spark-sql

我使用spark/scala本地将json文件转换为dataframe。我当前的dataframe有一个列‘男性’和‘女性’值，如下所示。我想将dataframe中的‘男性’更改为'M'，以及使用Spark-sql<code>E 215</code>将‘where’更改为'F'的

浏览 5提问于2021-07-19得票数 1

7回答

如何在spark的数据中“负选择”列

scala、apache-spark、dataframe、apache-spark-sql

这个df有"A“、"B”和"C“列。现在假设我有一个Array，它包含这个df列的名称：我想以这样的方式来做一个df.select()，这样我就可以指定哪些列不能选择。例如:假设我不想选择列"B“。我试过了但这不起作用，因

浏览 21提问于2015-07-15得票数 22

回答已采纳

1回答

如果我显式地传递模式，我是否需要使用"mergeSchema“选项？

apache-spark、parquet

来自spark文件：我从文档中了解到，如果我有多个具有不同模式的parquet分区，如果我使用spark.read.option("mergeSchema", "true").parquet(path)，schemas如果我在查询时不知道这些分区中存在哪些模式，这似乎是一个很好的选择。但是，考虑一下这样

浏览 1提问于2021-03-10得票数 2

1回答

在该行的任何列中选择至少一个空或空的行。

scala、apache-spark

从一个dataframe中，我想创建一个新的dataframe，其中任何列中至少有一个值为null或空，在Spark1.5/ scala中。我正在尝试编写一个通用函数来创建这个新的dataframe。在这里，我传递数据文件和列列表，并创建记录。谢谢

浏览 4提问于2017-07-25得票数 4

回答已采纳

2回答

有没有一种方法可以从Scala中的dataframe现有列创建多个列？

scala、apache-spark、hadoop

我正在尝试将RDBMS表摄取到Hive中。, qtd_balance, ytd_balance是双重数据类型，它们是精确的列。我们的项目希望通过创建具有相同数据的新列：ptd_balance_text, qtd_balance_text, ytd_balance_text，将它们的数据类型从Double转换为String，以避免任何数据截断withColumn将在dataframe中创建</

浏览 1提问于2018-08-07得票数 0

回答已采纳

3回答

Spark DataFrames:组合连续两行

apache-spark、dataframe、apache-spark-sql

我有一个具有以下结构的DataFrame：-----------------------------| 3 | 8 | 4 | 7 || 4 | 2 | 9 | 0 | 我试图实现的是，对于每条记录，都会创建另外三个列，其中包含下一个记录的time, x, y (基于tim

浏览 0提问于2018-12-22得票数 1

回答已采纳

2回答

如何在Apache Spark中根据分隔符将单字符串列转换为多列

apache-spark、pyspark、apache-spark-sql

我有一个包含字符串列的数据框，我想在其中创建多个列。我想从它创建多个列。字符串的格式是相同的- col1:value1 col2:value2 col3:value3 ... colN:valueN。在输出中，我需要多个列- col1 to colN，值作为每列的行。以下是输出-我如何在<e

浏览 23提问于2021-06-02得票数 0

回答已采纳

1回答

向dataframe星火/scala添加新列时遇到的问题

scala、apache-spark、dataframe、apache-spark-sql、user-defined-functions

我是新来的火花/斯卡拉。我正在尝试读取一些数据从一个蜂窝表到一个火花数据，然后添加一个列的基础上的一些条件。，后者是DF中的列。我试图通过使用DF和when向dateDiff添加一个新列，后者使用dateDiff来获取日期之间的差异。下面是我从DF中使用的列的架构： |-- item_due_dat

浏览 1提问于2017-11-27得票数 0

回答已采纳

1回答

在现有列的基础上在DataFrame中添加新列

scala、apache-spark、apache-spark-sql

我有一个包含日期时间列的csv文件："2011-05-02T04:52:09+00:00“。我使用scala，文件被加载到spark DataFrame中，我可以使用jodas时间来解析日期：import sqlContext.implicits._ val df = new SQLContext(sc).load("com.databricks.sp

浏览 0提问于2015-04-28得票数 3

回答已采纳

2回答

在Java的Apache Spark* 1.4中向数据框追加一列*

java、apache-spark

我正在尝试向我的DataFrame添加一个列，作为该列的唯一ROW_ID。所以，它应该是这样的1，user1 2，user2 3，user3 ...我可以使用一个带整数迭代的hashMap很容易做到这一点，但是我不能在spark中使用DataFrame上的map函数来做这件事，因为我不能在map函数中有一个整数递增。有没有什么方法可以通过将一<e

浏览 4提问于2015-09-16得票数 2

2回答

为什么在中列更改为可空？

apache-spark、apache-spark-sql、apache-spark-dataset

为什么在执行某些函数之后使用nullable = true，即使DataFrame中没有NaN值。2", when($"foo" === 2 , 1).otherwise(0)).select("foo", "foo_2").show .select(

浏览 3提问于2016-11-15得票数 11

回答已采纳

1回答

创建具有嵌套结构的DataFrame并从输入表填充数据

scala、apache-spark、apache-spark-sql

我正在使用Scala中的Spark，希望将现有的数据集(dataframe)转换为包含嵌套结构的新表。示例输入: columnA columnB columnC columnD columnE 示例输出: columnA columnB columnC columnF:{columnD，columnE} (创建一个同时包含D和E作为嵌套结构的新列) 转换colum

浏览 25提问于2021-08-12得票数 0

2回答

如何传递模式以从现有的Dataframe创建新的Dataframe？

python、python-3.x、apache-spark、pyspark

True), StructField('name', StringType(), True)]df =spark.read.json但是，现在，我在表中有数据，我通过以下方式显示：但是，如果我试图通过使用下面的命令将一个新模式传递给它df2 = spark.sql("S

浏览 2提问于2018-02-12得票数 12

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云