将单列划分为多列Dataframe Spark Scala的最佳方法

文章/答案/技术大牛

发布

2回答

、、、

我有一个Dataframe，它有一列，值与一些分隔符连接在一起，现在我想分成多个列，这些列可以接近1000-2000列，记录的数量可以是6000万左右。我正在尝试找到最好的方法来做到这一点，这样性能就不会受到影响。我有下面的方法，但是，有没有人能建议一下有没有更好的方法来实现这个目标？

浏览 29提问于2019-12-12得票数 0

1回答

用scala中的varargs创建groupBy函数

、

我试图为scala中的groupBy单列或多列创建以下函数。def showGroupByDesc(df: DataFrame, cols: Column*): Unit = {从错误来看，scala似乎正在编译以下方法： @<em

浏览 2提问于2020-12-04得票数 0

回答已采纳

1回答

Spark scala dataframe:将多列合并为单列

、、

我有一个spark数据帧，如下所示：| id|animal|talk|| 1| bat|done|| 3| horse| gun|+---+------+----++---+------{name: talk, value: some}] | +---+------------------------------------

浏览 36提问于2018-08-16得票数 4

回答已采纳

1回答

我有一个scala List List[Any] = List("a", "b",...)，我需要获取一个Spark dataframe，它只包含列表中所有列的一行。我正在尝试用返回org.apache.spark.rdd.RDD[Any] = ParallelCollectionRDD[5834] at parallelize at <console>:81的sc.parallelize(myList)来创建一个RD

浏览 2提问于2018-09-26得票数 1

3回答

将dataframe中的结构类型列拆分为多个列

、

我想将第一列(最初的键)拆分为2个新列，这两个列由逗号分割。scala> result_winr_table.schema res5: org.apache.spark.sql.DataFrame = [_1: struct<_1:i

浏览 0提问于2017-08-02得票数 3

回答已采纳

2回答

从单个字符串创建火花DataFrame

、、

我尝试使用硬编码字符串并将其转换为1行星火DataFrame (带有类型为StringType的一列)，以便：DataFrame的结果，其.show()方法如下所示：| fizz|| buzz|到目前为止，我的最佳尝试是：val df = sqlContext.

浏览 3提问于2016-10-10得票数 7

回答已采纳

4回答

在Scala中创建SparkSession对象以同时在单元测试和火花提交中使用的最佳实践

、、

我曾尝试编写一个从DataFrame到DataFrame的转换方法。我还想用scalatest来测试它。如您所知，在Spark 2.x with Scala API中，您可以按如下方式创建SparkSession对象： val我尝试将spark (SparkSession)对象生成部分拆分为测试部分和主部分。但是有太多的</e

浏览 2提问于2017-07-31得票数 7

1回答

Apache注册一个UDF返回的数据

、、

我有一个返回数据的UDF。就像下面的那个res3: org.apache.spark.sql.DataFramepredict_churn", outerpredict _)java.lang.UnsupportedOperationException: Schema for type org.apache.spark</em

浏览 3提问于2016-12-20得票数 3

回答已采纳

2回答

Scala火花-将JSON列拆分为多列

、、、

Scala，使用Spark2.3.0。我正在使用一个创建JSON字符串列的udf创建一个DataFrame：它的产出如下：|

浏览 4提问于2020-01-06得票数 0

回答已采纳

1回答

Spark 1.4.0 org.apache.spark.sql.AnalysisException:无法解决给定输入列的“概率”

、

但是我想做多类分类，所以我在org.apache.spark.ml.classification包中使用了org.apache.spark.ml.classification。使用'probability'方法对模型进行了适当的训练，但是当使用上面示例中的print语句测试模型时，我得到了以下错误:不存在fit列。本专栏仅提供给LogisticRegression吗？如果是这样的话，我可以看到在DecisionTreeClassifier预测输出之

浏览 4提问于2015-07-17得票数 1

1回答

如何将数据架构的字符串拆分为每个结构

、、

我想将dataframe的架构拆分为一个集合。我正在尝试这个方法，但是模式被打印成一个字符串。我是否可以将其拆分为每个StructType的集合，以便对其进行操作(比如只从输出中提取数组列)？我试图平平一个复杂的多层次的结构+数组数据。output.toList 目前的输出是 identifyArrayColumns: (dataFrame</em

浏览 0提问于2018-03-09得票数 0

回答已采纳

1回答

Spark中的DataFrame.select()和DataFrame.toDF()有什么不同？

、、、

似乎他们都返回了一个新的DataFramedef toDF(self, *cols): return DataFrame(jdf, self.sql_ctx) jdf = self._jcols(*cols)) return DataFrame(jdf, self.sql_ctx)

浏览 1提问于2016-12-16得票数 4

回答已采纳

1回答

spark:只拆分dataframe中的一列，并保持其余列不变

、、

我正在读取spark dataframe中的文件。在第一列中，我将获得两个用"_“连接的值。我需要将第一列拆分为两列，并保持其余列不变。我正在使用Scala和Spark 例如： col1 col2 col3 b_1 lmn opq 我需要有新的DF作为： col1_1 col1_2col2 col

浏览 32提问于2019-05-01得票数 0

1回答

将Dataset[Array[String]]转换为Dataset[MyCaseClass]

、、、、

，spark.read.csv没有提供干净的列。因此，我想使用spark.read.textFile，这给了DatasetString。我使用下面的代码删除引号并拆分它们。_.replaceAll(""""""", "").split(";"))是否有实现这种数据集转换的<em

浏览 2提问于2017-04-02得票数 0

回答已采纳

3回答

scala中的MinMax规范化

、、、

我有一个多列的org.apache.spark.sql.DataFrame。我希望使用lat_long_dist规范化或任何技术来缩放1列( MinMax )，将数据扩展到-1和1之间，并将数据类型保留为org.apache.spark.sql.DataFrame。scala> val df = sqlContext.csvFile("tenop.csv") df: org.apache.<

浏览 2提问于2015-11-25得票数 10

回答已采纳

2回答

星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“

、、、

当创建一个列值默认值为NULL的表时，我在Spark(1.6) SQL中获得了下面的错误。示例:将表测试创建为select column_a，NULL作为column_b从test_temp创建；是否有更好的方法使用spark在hive表中插入空值？<in

浏览 3提问于2017-12-27得票数 0

回答已采纳

2回答

如何编写一个星火数据中心到Azure事件中心？

、、

我需要用脚本编写一个DataFrame到Azure事件中心。下面是我找到的一个解决方案，toJson在其中创建了一个名为“value”的列</em

浏览 8提问于2022-01-11得票数 0

1回答

熊猫数据中每一组的Kmeans集群并分配集群

、、、、

我想使用kmeans集群对组月的X2和X3进行聚类。我需要将两个变量组合在一起。此外，我还想根据每个组的平均值将组0、组1和组2划分为“强”、“平均”、“弱”。下面是我的样本数据集。df=pd.DataFrame({'month':['1','1','1','1','1','2','2','2'

浏览 0提问于2021-05-01得票数 1

回答已采纳

7回答

如何在spark的数据中“负选择”列

、、、

这个df有"A“、"B”和"C“列。现在假设我有一个Array，它包含这个df列的名称：我想以这样的方式来做一个df.select()，这样我就可以指定哪些列不能选择。例如:假设我不想选择列"B“。我试过了但这不起作用，因

浏览 21提问于2015-07-15得票数 22

回答已采纳

1回答

Hive :根据查询结果插入多个表

、、

下面是我正在做的事情: 1.将csv文件加载到一个单列表中。) IS NOT NULLselect record where my_validation(record) IS NULL; 这里是我的问题: a.有没有更好的方法来过滤无效的记录；b. my_validation UDF是否在整个表上运行两次？c.将单列拆分为多列<

浏览 1提问于2012-03-12得票数 0

回答已采纳

点击加载更多