使用Spark Dataframe (Scala)中的另一列数组创建数组列_使用Spark Scala Dataframe中现有的integer列创建整数范围的新列_在Spark Scala中迭代数组的数据帧列数组 - 腾讯云开发者社区

apache-spark、spark-dataframe、countvectorizer

我正在尝试执行星火的countVectorizer模型。作为这个需求的一部分，我正在读取一个csv文件并从其中创建一个Dataframe (inp_DF)。中创建第4列，其中包含所有这3列的值数组，如| indiana|需要这

浏览 1提问于2017-09-05得票数 0

回答已采纳

1回答

使用Spark Dataframe (Scala)中的另一列数组创建数组列

arrays、scala、apache-spark、type-conversion

我对Scala和Spark都是新手。我正在尝试将从文件读取的输入转换为双精度浮点型(这在此应用程序中是安全的)，以减少内存使用。我已经能够通过一个双精度列来做到这一点。单个元素的当前方法： import org.apache.spark.sql.functions.myDF.withColumn("timeF", tcast(col("time"))).drop("time").withCol

浏览 15提问于2020-01-29得票数 0

回答已采纳

1回答

Scala返回“不支持类型单元的架构”

scala、apache-spark

我想对dataframe中的列进行更改。列是整数的数组。我想替换数组的一个元素，从另一个数组中获取索引，并将该元素替换为来自第三个数组的元素。示例:我有三个列-- C1、C2、C3 --这三个数组。我希望按以下方式替换C3中的元素。 C3[C2[i]] = C1[i].$.s

浏览 0提问于2018-07-02得票数 0

回答已采纳

3回答

org.apache.spark.sql.AnalysisException：

scala、dataframe、apache-spark

df.withColumn(x, when($"x" > 75, $"x" + 10).otherwise($"x")).show()res6: String = Marks 我希望传递一个变量作为参数，该变量存储dataframe的列值。基于该参数，它将检查条件，计算值，并替换该dataframe中同名的

浏览 2提问于2020-07-10得票数 0

回答已采纳

2回答

使用Scala/Java API基于外部数组内容的自定义排序

java、scala、sorting、apache-spark

---------+| SuperiorCard|| Distinguish|我有一个自定义顺序的数组，我希望数据集按数组中给定的顺序排序。|| Distinguish||ColonialVoice|+-------------+ 如何使用spark Java AP

浏览 0提问于2019-05-08得票数 2

2回答

[Scala][Spark]：转换数据帧中的列，保留其他列，使用withColumn和map [错误:缺少参数类型]

scala、apache-spark、types、functional-programming、explode

, C++]| CA||Robert,,Williams| [CSharp,|CA ||Michael,Rose, |Spark |NJ | .toDF("Name&qu

浏览 11提问于2021-10-11得票数 2

2回答

针对Scala中的某个特定ID向数据文件添加值

scala、apache-spark、apache-spark-sql

我有以下数据：1 Ali swl3 Ahad khi以及(1，2，1)这样的值列表：我想在ID == 3中添加这些值。因此，DataFrame看起来像：1 Ali swl null null null 2

浏览 3提问于2020-05-03得票数 0

回答已采纳

1回答

如何将Sha2应用于特定列，该列在Hive中以数组结构的形式存在，还是在spark中？动态

scala、apache-spark、hive、apache-spark-sql、hiveql

我在蜂巢里有数据1001 smith [pnno:999,ssn:12345,email:ss@mail.com]我必须在这个数组列中应用SHA2，并且输出应该显示。1001,smith,[999,*****(sha2 masked value), ss@gmail.com] 输出应该是相同的数组结构格式。我目前正在创建</

浏览 2提问于2021-04-14得票数 0

回答已采纳

3回答

如何在不同大小的数组列中随机选择元素？

scala、apache-spark、apache-spark-sql

给定具有不同大小的整数数组列的数据文件：+------------++------------+root | |-- element: integer (containsNull = true) 我希望在每个数组中生成一个具有随机选择项的新列我尝试过两种解

浏览 0提问于2018-05-22得票数 3

回答已采纳

1回答

从列到数组Scala Spark

sql、arrays、scala、apache-spark

我正在尝试在scala的Column上应用一个函数，但是我遇到了一些困难。有这样的错误required: Array[Double]更新：代码如下： def get_quantile (varia

浏览 1提问于2018-10-03得票数 1

2回答

如何将函数应用于Spark* DataFrame的列？*

scala、apache-spark、dataframe、apache-spark-sql

让我们假设我们有一个Spark DataFrameClass[_ <: org.apache.spark.sql.DataFrame] = class org.apache.spark.sql.DataFrame使用下面的模式root|-- tk: array (nullable = true) ||-- element: strin

浏览 2提问于2016-01-05得票数 7

回答已采纳

2回答

将Array[string]类型的两列合并为新的Array[string]列

scala、apache-spark、apache-spark-sql、user-defined-functions

我在Spark DataFrame中有两列，每一列中的每个条目都是字符串数组。curious", "bought", "20"), Seq("iwa", "was", "asj"))我希望合并每一行中的<

浏览 1提问于2018-03-07得票数 9

回答已采纳

1回答

如何估计星火DataFrame中每列的大小(以字节为单位)？

apache-spark、pyspark

我有一个非常大的星火DataFrame和许多列，我想作出一个明智的判断是否保持在我的管道中，部分取决于它们有多大。所谓“有多大”，我指的是缓存这个DataFrame时内存中字节的大小，我希望这是对处理这些数据的计算成本的一个不错的估计。有些列是简单类型(例如，双列、整数列)，而另一些列是复杂类型(例如数组和可变

浏览 0提问于2019-02-25得票数 2

回答已采纳

1回答

星星之火--从Scala中两个数组的笛卡儿积中创建Dataframe

arrays、scala、apache-spark

butter", "apples", "oranges")val size = (customersLen*itemsLen)-1

浏览 0提问于2018-06-20得票数 1

回答已采纳

2回答

如何在Spark* (2.4) SQL -Scala2.11中避免ArrayType的自动转换*

scala、apache-spark、casting、apache-spark-sql

给定Spark 2.4和scala 2.11中的代码 val df = spark.sql("""select array(45, "something", 45)""") 如果我使用df.printSchema()打印模式，我会看到spark自动转换为字符串CAST(45 AS STRING)。array (nullable = false) | |-- element: stri

浏览 30提问于2020-01-21得票数 3

2回答

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何创建countVectorizer模型的一个列中包含值数组的火花数据

使用Spark Dataframe (Scala)中的另一列数组创建数组列

Scala返回“不支持类型单元的架构”

org.apache.spark.sql.AnalysisException：

使用Scala/Java API基于外部数组内容的自定义排序

[Scala][Spark]：转换数据帧中的列，保留其他列，使用withColumn和map [错误:缺少参数类型]

针对Scala中的某个特定ID向数据文件添加值

如何将Sha2应用于特定列，该列在Hive中以数组结构的形式存在，还是在spark中？动态

如何在不同大小的数组列中随机选择元素？

从列到数组Scala Spark

如何将函数应用于Spark* DataFrame的列？*

将Array[string]类型的两列合并为新的Array[string]列

如何估计星火DataFrame中每列的大小(以字节为单位)？

星星之火--从Scala中两个数组的笛卡儿积中创建Dataframe

如何在Spark* (2.4) SQL -Scala2.11中避免ArrayType的自动转换*

从C#列表创建数据帧-针对.NET的火花

将StringType列添加到现有的DataFrame中，然后应用默认值

Scala Spark Dataframe中的扁平嵌套json

使用字节数组创建火花DataSet时出错

在现有列的基础上在DataFrame中添加新列

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐