Spark scala dataframe:将多列合并为单列

文章/答案/技术大牛

发布

1回答

、、

我有一个spark数据帧，如下所示：| id|animal|talk|| 1| bat|done|| 3| horse| gun|+---+------+----++---+------{name: talk, value: some}] | +---+---------------------------------------------

浏览 36提问于2018-08-16得票数 4

回答已采纳

1回答

从Python的Scala eqv的多列创建一个

、

我在Python中使用下面的代码来转换来自多个列的键值(Dataframe，其中有2列InternalId和ExternalId，从spark返回)，并在Python中将其合并为单列"body“。480941,"ExternalId":"a020H00001Tt7NrQAJ"} {"InternalId":480942,"ExternalId":"a020H00001Tt7NsQAJ&qu

浏览 3提问于2020-04-28得票数 0

回答已采纳

1回答

用scala中的varargs创建groupBy函数

、

我试图为scala中的groupBy单列或多列创建以下函数。def showGroupByDesc(df: DataFrame, cols: Column*): Unit = { (cols: org.apache.spark.sql.Column*)org.apache.spark.sql.RelationalGroupedDataset cann

浏览 2提问于2020-12-04得票数 0

回答已采纳

1回答

Apache注册一个UDF返回的数据

、、

就像下面的那个res3: org.apache.spark.sql.DataFramepredict_churn", outerpredict _)java.lang.UnsupportedOperationException: Schema for type org.apache.spark.sql.DataFrame</e

浏览 3提问于2016-12-20得票数 3

回答已采纳

1回答

如何从列表中创建spark数据帧

、

我有一个scala List List[Any] = List("a", "b",...)，我需要获取一个Spark dataframe，它只包含列表中所有列的一行。我正在尝试用返回org.apache.spark.rdd.RDD[Any] = ParallelCollectionRDD[5834] at parallelize at <console>:81的sc.parallelize：sc.parallelize(myList).map(line

浏览 2提问于2018-09-26得票数 1

2回答

将单列划分为多列Dataframe* Spark *Scala的最佳方法

、、、

我有一个Dataframe，它有一列，值与一些分隔符连接在一起，现在我想分成多个列，这些列可以接近1000-2000列，记录的数量可以是6000万左右。

浏览 29提问于2019-12-12得票数 0

3回答

scala中的MinMax规范化

、、、

我有一个多列的org.apache.spark.sql.DataFrame。我希望使用lat_long_dist规范化或任何技术来缩放1列( MinMax )，将数据扩展到-1和1之间，并将数据类型保留为org.apache.spark.sql.DataFrame。scala> val df = sqlContext.csvFile("tenop.csv") df: org.apache.spark<

浏览 2提问于2015-11-25得票数 10

回答已采纳

1回答

Spark 1.4.0 org.apache.spark.sql.AnalysisException:无法解决给定输入列的“概率”

、

但是我想做多类分类，所以我在org.apache.spark.ml.classification包中使用了org.apache.spark.ml.classification。如果是这样的话，我可以看到在DecisionTreeClassifier预测输出之后可能出现的列吗？ at org.apache.sp

浏览 4提问于2015-07-17得票数 1

2回答

如何编写一个星火数据中心到Azure事件中心？

、、

我需要用脚本编写一个DataFrame到Azure事件中心。下面是我找到的一个解决方案，toJson在其中创建了一个名为“value”的列。

浏览 8提问于2022-01-11得票数 0

1回答

比较两列以在Spark* DataFrame中创建新列*

、、

我有一个有2列的Spark DataFrame，我正在尝试创建一个新列，使用when otherwise操作的另外两列。Cannot convert column into bool: please use '&' for 'and', '|' for 'or', '~' for 'not' when building DataFrame我以前在单列</

浏览 5提问于2018-01-23得票数 4

回答已采纳

1回答

如何创建countVectorizer模型的一个列中包含值数组的火花数据

、、

(CountVectorizer.scala:123)，org.apache.spark.ml.feature.CountVectorizer.transformSchema(CountVectorizer.scala:188)，org.apache.spark.ml，scala.Predef$.require(Predef.scala:224).PipelineStage.transformSchema(Pipeline.scala$.main(CountVector

浏览 1提问于2017-09-05得票数 0

回答已采纳

1回答

向dataframe星火/scala添加新列时遇到的问题

、、、、

如果是，如何将列值转换为字符串？:1498) at org.apache.spark.sql.DataFrame.head(<e

浏览 1提问于2017-11-27得票数 0

回答已采纳

2回答

星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“

、、、

当创建一个列值默认值为NULL的表时，我在Spark(1.6) SQL中获得了下面的错误。示例:将表测试创建为select column_a，NULL作为column_b从test_temp创建； at org.apache.spark.sql.DataFrame.withCallback(DataFrame.scala:153) at org.apach

浏览 3提问于2017-12-27得票数 0

回答已采纳

1回答

Spark中的DataFrame.select()和DataFrame.toDF()有什么不同？

、、、

似乎他们都返回了一个新的DataFramedef toDF(self, *cols): return DataFrame(jdf, self.sql_ctx) jdf = self._jcols(*cols)) return DataFrame(jdf, self.sql_ctx)

浏览 1提问于2016-12-16得票数 4

回答已采纳

7回答

如何在spark的数据中“负选择”列

、、、

这个df有"A“、"B”和"C“列。现在假设我有一个Array，它包含这个df列的名称：我想以这样的方式来做一个df.select()，这样我就可以指定哪些列不能选择。例如:假设我不想选择列"B“。我试过了但这不起作用，因为不能将org.apache.<

浏览 21提问于2015-07-15得票数 22

回答已采纳

1回答

Spark MLlib中的列变换

、、、

我已经读过 for feature transform，但我仍然对两种简单的情况感到困惑：2.如何基于多列生成新列？例如，我想根据支

浏览 2提问于2016-09-20得票数 0

回答已采纳

2回答

SparkR：“无法解析列名...”向Spark数据框添加新列时

我正在尝试将一些计算列添加到SparkR数据框中，如下所示：(unix_timestamp$$anonfun$resolve$1.apply(DataFrame.scala:159) at org.apache.spark.sql.DataFrame$$anonfun$resolve$1.apply(DataFrame.sca

浏览 2提问于2015-12-29得票数 0

4回答

如何将星火中“`Dataframe`”的两列合并为一个二元组？

、

我有一个星火DataFrame df，有五列。我想添加另一个列，它的值是第一列和第二列的元组。在使用withColumn()方法时，我会得到不匹配的错误，因为输入不是列类型，而是(列，列)。

浏览 8提问于2015-09-26得票数 15

回答已采纳

1回答

使用scala追加转换后的列以激发数据格式

、、、

我正在尝试访问一个hive表，并从表/ dataframe中提取和转换某些列，然后将这些新列放到一个新的dataframe中。:36) at org.apache.spark.sql.execution.QueryExecution.assertAnalyzed(QueryExecution.scala:34) at org.apache.spark.sql.DataFrame(DataFrame.

浏览 1提问于2016-07-03得票数 1

回答已采纳

1回答

将StringType列添加到现有的DataFrame中，然后应用默认值

、、、

因此，我希望向现有的DataFrame添加一列，然后将该新列的初始(“默认值”)值应用到所有行。$1.apply(DataFrame.scala:152) at scala.Option.getOrElse(Option.scala</

浏览 4提问于2016-10-10得票数 7

回答已采纳

点击加载更多