在Java Spark中使用withcolumn遍历不同的列_在Spark DataFrame列中获取不同的单词_在不同列的spark中读取csv文件 - 腾讯云开发者社区

java、loops、apache-spark、optimization、calculated-columns

我必须根据List<Row>中的一些规则修改Dataset<Row>。我想使用Dataset.withColumn(...)遍历Datset<Row>列，如下例所示： (import necesary libraries...)output) } 代码正常工作，但是当列表中<

浏览 219提问于2020-01-29得票数 2

回答已采纳

1回答

迭代的列并更新指定的值

scala、apache-spark、hive、apache-spark-sql

为了迭代从Hive表创建的Spark列并更新所有所需的列值，我尝试了以下代码。import org.apache.spark.sql.functions._在执行火花外壳中<

浏览 0提问于2018-05-06得票数 0

回答已采纳

2回答

string for Python -不能将字符串列强制转换为十进制/双进制

apache-spark、pyspark、apache-spark-sql

我尝试了几个版本，在所有的版本中，我都有一个DataFramedataFrame.printSchemaDataFrame之后，我希望将列'gen_val'(存储在变量results.inputColumns中)从String类型转换为Double类型。不同的版本导致不同

浏览 1提问于2017-10-25得票数 3

回答已采纳

1回答

从向量汇编程序的输出中获取元素

apache-spark、apache-spark-ml

我需要使用Java API将向量汇编程序的输出元素作为单独的列。

浏览 2提问于2017-07-12得票数 0

2回答

Spark Java编辑列中的数据

java、apache-spark、apache-spark-sql、apache-spark-dataset

我想遍历spark DataFrame中列的内容，如果满足特定条件，则更正单元格中的数据 +-------------++-------------++-----+|0 |+-----++-----+ 假设我想要在列的值为null时显示其他内容，我尝试使用 Column.when() Data

浏览 44提问于2019-02-13得票数 4

3回答

Spark中的多列操作

scala、apache-spark

使用Python的Pandas，可以在一次遍历中对多个列执行批量操作，如下所示：df[cols] = df[c

浏览 4提问于2017-09-21得票数 2

3回答

星火壳列乘法和更新相同的数据

scala、apache-spark

01-14| 5| 3.663986666666667|我想要乘法转换*计数，并存储在另一列的结果3.663986666666667| 102.591626667 |我的尝试和错误scala> result.withColumn(&quo

浏览 4提问于2021-01-27得票数 0

回答已采纳

3回答

如何处理spark sql中缺少的列

scala、apache-spark、apache-spark-sql

我们正在处理无模式的JSON数据，有时spark作业会失败，因为我们在spark SQL中引用的一些列在一天中的某些时间内不可用。在这些小时内，spark作业失败，因为所引用的列在数据帧中不可用。我尝试过UDF，但是我们缺少太多的列，所以不能真正地检查每一列的可用性。我还尝试

浏览 5提问于2018-08-10得票数 2

1回答

将数组类型的列处理为udf时的Spark - java.lang.ClassCastException [数组[Map[String，String]

scala、apache-spark、apache-spark-sql、user-defined-functions

我连接了Array[Map[String,String]]类型的spark中的两个列，生成了一个新的Array[Array[Map[String,String]]]类型的列。但是，我希望将该列展平，以获得一个Array[Map[String,String]]类型的列，其中包含两个原始列的值我从Spark2.4中读到，可以直接在

浏览 30提问于2020-12-24得票数 0

回答已采纳

2回答

排列星河数据集列

scala、apache-spark-sql、spark-streaming、user-defined-functions

我正在使用Spark2.3.1的结构化流API。是否有可能在火花流数据的列中对值进行排序？我尝试使用下面的代码，然后在异常消息之后意识到流上下文不可能遍历整个窗口。.withColumn("rank", row_number().over(Window.orderBy($"transactionTime"))) org.apache.spark.sql

浏览 0提问于2018-07-06得票数 4

回答已采纳

2回答

向DataFrame添加列时出现的问题

apache-spark、spark-dataframe

sqlContext.sparkContext.parallelize(seq)df2.count() val withCounts = caseClassDF.withColumn

浏览 0提问于2016-09-08得票数 0

1回答

如何在不使用withcolumn的情况下向数据框添加列

pyspark

我需要遍历一个json文件，扁平化结果，并在每个循环中的dataframe中添加一个具有各自值的列。但最终结果将有大约2000列。因此，使用withColumn添加列的速度非常慢。有没有其他方法可以向数据帧中添加列？因此，在我的情况下，withColumn是不可行的。fh: jsonschema = j

浏览 5提问于2019-03-28得票数 0

1回答

在scala中将Map Datatype的新列添加到Spark Dataframe

scala、apache-spark、apache-spark-sql

我可以用一个数据类型为Map的列创建一个新的Dataframe。我正在尝试使用spark withColumn方法来添加这个新列。，它是相同的，但是值是不同的。当我在tmp列上应用.isEmpty方法时，出现了问题。我得到了空指针异常。:1063) 如何添加应与card_type_details列具有相同值的新列。

浏览 1提问于2020-10-22得票数 0

1回答

获取dataframe列的子字符串

java、apache-spark

在spark dataframe (Java API版本2.2)中，我尝试获取列的子字符串，如下所示：aggregationsDS= aggregationsDS.withColumn("NODE_ID", aggregationsDS.col("NODE_ID").substr(2, [*Lengthofcolumn*]

浏览 1提问于2018-04-20得票数 0

1回答

我有一个dataframe，它需要有一个唯一的加载时间戳列。数据帧中的任何两条记录在此字段中都不应具有相同的值。我尝试使用内置的方法，如CURRENT_TIMESTAMP等，但不起作用。val generateUniqueTimestamp = udf(() => new SimpleDateFormat("yyyy-MM-dd HH:mm:ss:SSS").format(new java.util.Date()).toSt

浏览 12提问于2019-09-05得票数 0

2回答

如何在Spark DataFrame中添加常量列？

python、apache-spark、dataframe、pyspark、apache-spark-sql

我想在DataFrame中添加一个具有任意值的列(即每一行都相同)。当我使用withColumn时得到一个错误，如下所示：---------------------------------('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/pytho

浏览 3提问于2015-09-26得票数 175

回答已采纳

1回答

星火数据集:数据集的转换列

apache-spark、dataset

这是我的数据集： , col("document"), explode(col("mask")).as("mask")); , col("class")

浏览 1提问于2020-05-12得票数 1

回答已采纳

2回答

如何在org.apache.spark.sql.execution.datasources.orc.OrcColumnVector.getLong(OrcColumnVector.java:141)“上修复"java.lang.NullPointerException”

dataframe、apache-spark、orc

我试图将dataframe中的所有列合并到一个名为value的列中。Mycode： df.col(col) val

浏览 1提问于2019-07-29得票数 1

回答已采纳

1回答

在java中，使用withColumn在映射中查找字段值将列添加到数据帧中

apache-spark

在Java中，我想向dataframe中添加一列，并使用列中的值在映射中查找该值，如下所示 .withColumn( "lookup" , lit( sizes.value( ).floorEntry( col( "integer" ) ).getValue( ) ) ) 但这会导致一个异常 Caused by: java.lang.Clas

浏览 40提问于2019-09-18得票数 0

2回答