Spark dataframe如何使用Seq[String]选择列_使用selectExpr选择带有特殊字符的spark dataframe列_如何从spark dataframe中删除特定列，然后选择所有列 - 腾讯云开发者社区

scala、apache-spark、recursion、apache-spark-sql、tail-recursion

我试图对给定的原始numOne进行子字符串(列、numTwo、DataFrame )，并通过对通过执行子字符串(列、numOne、numTwo)创建的DataFrame的所有子集执行联合操作来创建新的DataFrame。下面是我想出的一些代码 def main(args: Array[String]): Unit = { //To Log only ERRORS Logger.getLogger("org").setLevel(Level.ERROR) val spark = SparkSession .builder()

浏览 1提问于2019-08-01得票数 1

回答已采纳

2回答

Spark Dataframe/RDD无法通过计算另一列的内容来创建新列

scala、apache-spark、apache-spark-sql

我有一个Spark RDD (或Dataframe -转换成两者都不是问题)，它有以下列(每个结构的示例)： res248: org.apache.spark.rdd.RDD[(String, Array[String])] = MapPartitionsRDD[1004] at map at <console>:246 org.apache.spark.sql.DataFrame = [id: string, list: array<string>] 我想扩展这个RDD/DF，增加一个包含列表数组大小的列。因此，输出应该是这样的(示例)： org.apache.spa

浏览 27提问于2017-07-07得票数 0

回答已采纳

2回答

在Scala Spark中连接不同数据帧时动态选择多个列

scala、apache-spark、dataframe、apache-spark-sql

我有两个spark数据帧df1和df2。有没有一种方法可以在连接这两个数据帧时动态选择输出列？下面的定义在inner join的情况下输出来自df1和df2的所有列。 def joinDF (df1: DataFrame, df2: DataFrame , joinExprs: Column, joinType: String): DataFrame = { val dfJoinResult = df1.join(df2, joinExprs, joinType) dfJoinResult //.select() } 输入数据： val df1 = List(("1

浏览 5提问于2018-02-01得票数 3

回答已采纳

2回答

错误:重载方法值createDataFrame

apache-spark

我试着创建Apache Spark dataframe val valuesCol = Seq(("Male","2019-09-06"),("Female","2019-09-06"),("Male","2019-09-07")) valuesCol: Seq[(String, String)] = List((Male,2019-09-06), (Female,2019-09-06), (Male,2019-09-07)) 模式 val someSchema = List(StructField

浏览 8提问于2019-09-19得票数 0

回答已采纳

1回答

在Spark DataFrame中按数组值过滤

scala、apache-spark、dataframe、elasticsearch、apache-spark-sql

我正在使用带有elasticsearch的apache spark 1.5数据帧，我试图从包含id列表(数组)的列中过滤id。例如，elasticsearch列的映射如下所示： { "people":{ "properties":{ "artist":{ "properties":{ "id":{

浏览 0提问于2016-02-25得票数 2

回答已采纳

2回答

如何将函数应用于Spark DataFrame的列？

scala、apache-spark、dataframe、apache-spark-sql

让我们假设我们有一个Spark DataFrame df.getClass Class[_ <: org.apache.spark.sql.DataFrame] = class org.apache.spark.sql.DataFrame 使用下面的模式 df.printSchema root |-- rawFV: string (nullable = true) |-- tk: array (nullable = true) | |-- element: string (containsNull = true) 假设Scala列的每一行都是一个字符串数组，那么如何编写一个tk函数

浏览 2提问于2016-01-05得票数 7

回答已采纳

1回答

DataFrame到RDD[(字符串，字符串)]的转换

scala、apache-spark、redis、apache-kafka、databricks

我想把数据库中的org.apache.spark.sql.DataFrame 转换成 org.apache.spark.rdd.RDD[(String, String)] ，有人能帮上忙吗？背景(更好的解决方案也是受欢迎的)：我有一个Kafka流，它(经过一些步骤)变成了一个2列数据框架。我想把它放到Redis缓存中，第一列作为键，第二列作为值。更具体地说，输入的类型是：lastContacts: org.apache.spark.sql.DataFrame = [serialNumber: string, lastModified: bigint]。我试着按以下方式对Redis进行分析：

浏览 0提问于2019-03-25得票数 0

回答已采纳

4回答

如何访问数组列中的值？

scala、apache-spark、apache-spark-sql

我有一个只有一列的Dataframe该列的每一行都有一个字符串值数组： Spark2.2 Dataframe中的值 ["123", "abc", "2017", "ABC"] ["456", "def", "2001", "ABC"] ["789", "ghi", "2017", "DEF"] org.apache.spark.sql.DataFrame = [col: array] root |--

浏览 8提问于2017-12-01得票数 28

回答已采纳

2回答

在星火上创建动态ArrayIndexOutOfBoundsException时的DataFrame

dataframe、scala、apache-spark

我的目标是从来自外部dataframe的列和值动态创建一个dataframe。这是如何使用手动模式和数据定义创建dataframe： val columnSufix: String = "isNull" val data = Seq(Row( details.filter(col("DAY").isNull).count(), details.filter(col("CHANNEL_CATEGORY").isNull).count(),

浏览 4提问于2022-07-18得票数 0

回答已采纳

1回答

如何在Java中调用DataFrameFunctions.createCassandraTable？

java、scala、apache-spark、spark-cassandra-connector

如何从Java调用此函数？或者在scala中我需要一个包装器？ package com.datastax.spark.connector class DataFrameFunctions(dataFrame: DataFrame) extends Serializable { ... def createCassandraTable( keyspaceName: String, tableName: String, partitionKeyColumns: Option[Seq[String]] = None, clusteringKeyColum

浏览 1提问于2016-09-03得票数 0

1回答

分别对列类型Array[Int]的内容进行哈希处理

scala、apache-spark

我有一个Int, Array[Int]的DataFrame，其值为 +---+------+ | _1| _2| +---+------+ | 1| [1]| | 1| [2]| | 2|[3, 4]| +---+------+ 我想返回DataFrame of +---+------+------------------+ | _1| _2| _3| +---+------+------------------+ | 1| [1]| [hash(1)]| | 1| [2]| [hash(2)

浏览 5提问于2019-01-24得票数 0

回答已采纳

1回答

我怎样才能在Scala中加入星火数据的列表呢？

scala、apache-spark

我有一个Seq of Spark (即Seq[org.apache.spark.sql.DataFrame])，它可以包含一个或多个元素。有一个列的列表对每个数据文件都是通用的，每个dataframe也有一些额外的列。我想要做的是使用连接条件中的那些公共列将所有这些数据文件连接在一起(记住，数据格式的数量是未知的) 我怎样才能把所有这些数据文件连接起来？我想我可以对它们进行foreach，但这似乎不太优雅。谁能想出一种更实用的方法来做这件事呢？编辑:递归函数会比预测更好，我现在正在做这个工作，完成后会在这里发布。下面是一些代码，它创建了n个dataframes列表(在本例中是n=3)，每个列

浏览 0提问于2018-05-15得票数 4

回答已采纳

2回答

3参数压缩函数

scala、apache-spark、hadoop、apache-spark-sql、bigdata

我想在Spark表中转换多个列我只为两列找到了这个解决方案，我想知道如何用三列varA, varB and varC.处理zip函数 import org.apache.spark.sql.functions.{udf, explode} val zip = udf((xs: Seq[Long], ys: Seq[Long]) => xs.zip(ys)) df.withColumn("vars", explode(zip($"varA", $"varB"))).select( $"userId", $"

浏览 0提问于2019-02-14得票数 0

回答已采纳

2回答

如何使用Scala在星火数据格式中将array<FloatType>转换为BinaryType

scala、apache-spark、apache-spark-sql

在星星之火数据框架中，我的一个列包含一个浮点值数组，如何将该列转换为BinaryType。以下是一些示例数据及其外观： val df = spark.sparkContext.parallelize(Seq(("one", Array[Float](1, 2, 3, 4, 5)), ("two", Array[Float](6, 7, 8, 9, 10)))).toDF("Name", "Values") df.show() df:org.apache.spark.sql.DataFrame Name:string Values

浏览 0提问于2019-09-09得票数 2

回答已采纳

1回答

根据CSV记录过滤Spark数据帧中的部分数据

scala、apache-spark、apache-spark-sql、user-defined-functions

我有一个包含一些单词的CSV文件。总共没有。csv文件中的字数不会超过50k条记录。我有一个从具有keywords列的JSON文件创建的Spark Dataframe。我需要做的是从dataframe中过滤出其keywords列值与CSV文件中的值匹配的记录。这里，匹配表示csv文件中的单词是否出现在dataframe列中。举个例子，假设csv文件中有一个单词"baby toys"，spark dataframe看起来像这样 ***Keywords*** new baby toys baby toys for all costly baby toys price baby

浏览 2提问于2019-05-31得票数 0

3回答

如何将HH:MM:SS:Ms的Spark Dataframe列转换为秒为单位的值？

scala、apache-spark、dataframe、apache-spark-sql

我希望将spark dataframe列的值从小时分钟秒转换为例如"01:12:17.8370000“ 将变成4337，谢谢你的评论。或者"00:00:39.0390000“ 会变成39秒。我已经读过这个问题，但是我不知道如何使用这个代码来转换我的spark dataframe列。像这样的东西 df.withColumn("duration",col("duration")....) 我使用的是scala 2.10.5和spark 1.6 谢谢

浏览 12提问于2017-07-31得票数 2

回答已采纳

1回答

无法将RDD[Row]转换为DataFrame

scala、apache-spark、apache-spark-sql

对于以下代码--其中DataFrame转换为RDD[Row]，新列的数据通过mapPartitions追加 // df is a DataFrame val dfRdd = df.rdd.mapPartitions { val bfMap = df.rdd.sparkContext.broadcast(factorsMap) iter => val locMap = bfMap.value iter.map { r => val newseq = r.toSeq :+ locMap(r.getAs[String](inColName))

浏览 4提问于2017-01-26得票数 2

回答已采纳

1回答

在scala中将列从一个dataframe添加到另一个dataframe

scala、apache-spark、dataframe

我有两个行数相同的DataFrame，但是根据源，列数是不同的和动态的。第一个DataFrame包含所有列，但是第二个DataFrame被过滤和处理，没有所有其他列。需要从第一个DataFrame中选择特定的列，然后添加/合并第二个DataFrame。 val sourceDf = spark.read.load(parquetFilePath) val resultDf = spark.read.load(resultFilePath) val columnName :String="Col1" 我试着用几种方式加进去，这里我只给了几个. val modifiedRes

浏览 0提问于2017-10-31得票数 9

回答已采纳

2回答

为什么隐式类中的函数不可用？

scala、scala-implicits

我正在尝试教自己Scala，并使用IntelliJ的想法作为我的IDE。我已经启动IntelliJ的shell，运行console，然后输入以下内容： import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, SparkSession} import java.time.LocalDate object DataFrameExtensions { implicit class DataFrameExtensions(df: DataFrame){ def featuresGroup1(grou

浏览 1提问于2018-05-22得票数 1

回答已采纳

3回答

scala中的MinMax规范化

scala、apache-spark、normalization、apache-spark-sql

我有一个多列的org.apache.spark.sql.DataFrame。我希望使用lat_long_dist规范化或任何技术来缩放1列( MinMax )，将数据扩展到-1和1之间，并将数据类型保留为org.apache.spark.sql.DataFrame。 scala> val df = sqlContext.csvFile("tenop.csv") df: org.apache.spark.sql.DataFrame = [gst_id_matched: string, ip_crowding: string, lat_long_dist: double,

浏览 2提问于2015-11-25得票数 10

回答已采纳

1回答

火花序列[int]与[串]序列输出的比较

arrays、scala、apache-spark、udf

我试图比较两个不同列中的整数包装数组，并将分级表示为string： import org.apache.spark.sql.Row import org.apache.spark.sql.functions._ import scala.collection.mutable.WrappedArray DataFrame数据的列A和B具有包装数组，我想比较一下： val data = Seq( (Seq(1,2,3),Seq(4,5,6),Seq(7,8,9)), (Seq(1,1,3),Seq(6,5,7),Seq(11,9,8)) ).toDF("A"

浏览 0提问于2016-12-23得票数 1

2回答

如何在蜂窝表中插入具有映射列的数据帧

apache-spark、hadoop、hive、apache-spark-sql、complextype

我有一个包含多个列的dataframe，其中一个列是map(string，string)类型。我能够打印这个数据，有列作为地图，给数据地图(“双关”-> "Pune")。我想要将这个dataframe写到hive表(存储为avro)，该表具有与map类型相同的列。 Df.withcolumn("cname", lit("Pune")) withcolumn("city_code_name", map(lit("PUN"), col("cname")) Df.show(false) //tab

浏览 4提问于2020-02-27得票数 0

1回答

Spark如何计算字符串列的均值和stddev

apache-spark

我有以下数据(只是显示了一个代码片段) DEST_COUNTRY_NAME ORIGIN_COUNTRY_NAME count United States Romania 15 United States Croatia 1 United States Ireland 344 Egypt United States 15 我在inferSchema选项设置为true的情况下读取它，然后对列执行describe操作。它似乎工作得很好。 scala> val data = spark.read.option("header", "true

浏览 0提问于2019-02-03得票数 1

1回答

如何通过在spark中使用IN子句传递另一个列值来检索列值

scala、apache-spark、apache-spark-sql

我有一个场景，通过where条件从同一个DataFrame中使用另一个列从DataFrame读取一列，这个值作为IN条件通过，从另一个DataFrame中选择相同的值，我如何在spark DataFrame中实现。在SQL中，它将类似于： select distinct(A.date) from table A where A.key in (select B.key from table B where cond='D'); 我尝试了如下所示： val Bkey: DataFrame = b_df.filter(col("cond")==="D

浏览 19提问于2021-05-28得票数 0

回答已采纳

2回答

当列是可选的时，如何从数据框中选择

scala、apache-spark、dataframe、apache-spark-sql

我有一个Spark (scala) dataframe，其中的一些dataframe列是可选的，也就是说，有时它们并不存在。有没有一种非常简单的方法来修改我的df.select语句，使spark不关心列可能不存在？例如，现在我有：df.select(Seq(col("col1"), col("optionalCol"), col("col2")))。我希望会有某种“可选”的称谓。

浏览 1提问于2018-07-03得票数 4

1回答

如何在Spark2.3中使用map_from_arrays()

apache-spark

浏览 96提问于2021-05-09得票数 0

1回答

使用HiveQL和Spark中的列平均值填充空值

apache-spark、hiveql

我在spark中使用了HiveQL，并且希望通过spark中的列来填充空值。使用以下代码： StringBuilder query = new StringBuilder("select `ts0` as ts "); String[] cols = dataFrame.columns(); for (String col : cols) { query.append(",`" + col + "` as " + trimmedCol); } } 我认为当存在空值时，我

浏览 0提问于2017-08-07得票数 0

2回答

Spark SQL不区分大小写的列条件过滤器

apache-spark、apache-spark-sql

如何使用Spark SQL过滤器作为不区分大小写的过滤器。例如： dataFrame.filter(dataFrame.col("vendor").equalTo("fortinet")); 只返回'vendor'列等于'fortinet'的行，但我希望'vendor'列等于'fortinet'或'Fortinet'或'foRtinet'的行...

浏览 6提问于2016-01-20得票数 16

回答已采纳

1回答

java，如何在spark 1.4.1中调用UDF

java、apache-spark、user-defined-functions、spark-dataframe

在spark 1.4.1中，callUdf方法的参数是 (String udfName, scala.collection.Seq<Column> cols) 没有任何方法可以直接作用于列，如1.5.1中的方法 callUDF(String udfName, Column col) 那么如何在1.4.1中调用UDF呢？或如何将列类型更改为 scala.collection.Seq<Column> 例如，这些代码在1.6.1中工作。 sqlContext.udf().register("stringToLong", new UDF1<String,

浏览 1提问于2016-11-28得票数 0

回答已采纳

2回答

使用Spark开发模式

java、apache-spark、dataframe、apache-spark-sql

我正在使用，它可以从三个不同的模式版本中的一个加载数据： // Original { "A": {"B": 1 } } // Addition "C" { "A": {"B": 1 }, "C": 2 } // Additional "A.D" { "A": {"B": 1, "D": 3 }, "C": 2 } 我可以通过检查模式是否包含"C“字段来处理附加的"C”，如果没有，可以向dataframe添

浏览 5提问于2015-11-19得票数 3

回答已采纳

2回答

获取数组列的大小/长度

scala、apache-spark、apache-spark-sql

我是Scala编程的新手，这是我的问题:如何计算每行的字符串数？我的数据帧由ArrayString类型的单个列组成。 friendsDF: org.apache.spark.sql.DataFrame = [friends: array<string>]

浏览 2提问于2017-09-07得票数 45

回答已采纳

2回答

DataFrame错误：“重载方法值select with alternatives”

scala、apache-spark、dataframe

我尝试通过从数据帧中选择小时+分钟/60和其他列来创建新的数据帧，如下所示： val logon11 = logon1.select("User","PC","Year","Month","Day","Hour","Minute",$"Hour"+$"Minute"/60) 我得到的错误如下： <console>:38: error: overloaded method value select with alternatives: (

浏览 0提问于2017-02-12得票数 2

回答已采纳

1回答

如何从scala/pyspark dataframe中的列表中创建列？错误:不支持该特性：“List()的文本”

scala、apache-spark

enter code here我正在练习在数据仓库中添加一个列表。我可以开发udf并注册，然后在dataframe上应用，但我想尝试一种不同的方法，即提取list from dataframe col和它们map it，然后在新列中提取readd to the original dataframe。 val df = spark.createDataFrame(Seq(("A",1),("B",2),("C",3))).toDF("Str", "Num") +---+---+ |Str|Num| +---+---+

浏览 1提问于2022-09-13得票数 0

1回答

Spark 2.2结构化流流-静态左外部连接问题

spark-structured-streaming

我似乎错过了什么在流静态加入在星火2.2。手册指出这样的联接是可能的，但我无法得到正确的语法。很奇怪。不使用水印。 val joinedDs = salesDs .join(customerDs, "customerId", joinType="leftOuter") 得到的错误如下所示，但我非常肯定我有正确的一面： <console>:81: error: overloaded method value join with alternatives: (right: org.apache.spark.sql.Dataset[_],join

浏览 0提问于2019-03-05得票数 0

回答已采纳

3回答

火花:与阵列连接

scala、apache-spark、apache-spark-sql

我需要将一个带有string列的dataframe连接到一个字符串数组中，这样如果数组中的值匹配，行就会连接起来。我试过了，但我想这不是支持。还有别的办法吗？ import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession val sparkConf = new SparkConf().setMaster("local[*]").setAppName("test") val spark = SparkSession.builder().config(sparkConf).g

浏览 1提问于2017-08-07得票数 10

回答已采纳

2回答

wrappedArray火花阵列

apache-spark、apache-spark-sql、spark-dataframe

我的数据在火花是非常复杂的。我试图使用一个UDF，它接受2列，然后在每一列的每一行上同时运行一个函数。每一列都有以下相同的模式： root |-- A: array (nullable = true) | |-- element: double (containsNull = true) 在某些情况下，数组将为空，而在其他情况下，它将有元素，计数将有所不同。当我在列上做.dtypes时，我得到： test: Array[(String, String)] = Array((A,ArrayType(DoubleType,true))) 当我对其中一列进行一次(1)时，我会得到一个

浏览 0提问于2018-04-09得票数 1

回答已采纳

3回答

添加包含按df分组的列数og的列

scala、dataframe、apache-spark、group-by

如何使用group By子句将列添加到具有行数的DF中？ +------------+-------+ | Category | txn | +-----===----+-------+ | Cat1 | A | | Cat1 | A | | Cat1 | B | +------------+-------+ 所需输出： +------------+-------+-----+ | Category | txn | n | +-----===----+-------+-----+ | Cat1

浏览 46提问于2019-11-25得票数 2

回答已采纳

1回答

如何递归地获取星火DataFrame中的所有列

scala、apache-spark、dataframe、apache-spark-sql

我想得到DataFrame的所有列。如果DataFrame具有平坦的结构(没有嵌套的StructTypes)，df.columns会产生正确的结果。我也想返回所有嵌套的列名，例如。给定的 val schema = StructType( StructField("name", StringType) :: StructField("nameSecond", StringType) :: StructField("nameDouble", StringType) :: StructField("someStruct"

浏览 0提问于2018-03-13得票数 0

回答已采纳

5回答

重写scala代码使其更加实用

scala

我试着教自己Scala，同时尝试编写函数式语言的惯用代码，即编写更好、更优雅、更实用的代码。我有以下代码可以运行： import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, SparkSession} import java.time.LocalDate object DataFrameExtensions_ { implicit class DataFrameExtensions(df: DataFrame){ def featuresGroup1(groupBy: Seq[String]

浏览 2提问于2018-05-23得票数 2

回答已采纳

1回答

将函数(mkString)应用于Spark dataframe中的整个列，如果列名具有“.

scala、apache-spark、spark-dataframe

我正在尝试在Scala中对Spark dataframe的列应用函数。该列是字符串类型，我想用"_“分隔符将字符串中的每个标记连接起来(例如"A B“--> "A_B")。我这样做的原因是： val converter: (String => String) = (arg: String) => {arg.split(" ").mkString("_")} val myUDF = udf(converter) val newDF = oldDF .withColumn("TEST", myUD

浏览 3提问于2016-09-03得票数 2

回答已采纳

2回答

获取到元数据表的数据模式加载

scala、apache-spark

用例是读取一个文件并在it.After上创建一个数据文件，获取该文件的模式并将其存储到DB表中。例如，我只是创建一个case类并获取printschema，但是我无法从其中创建一个dataframe。下面是一个示例代码 case class Employee(Name:String, Age:Int, Designation:String, Salary:Int, ZipCode:Int) val spark = SparkSession .builder() .appName("Spark SQL basic example") .config("spark.m

浏览 0提问于2019-06-27得票数 1

回答已采纳

1回答

Spark dataframe如何使用Seq[String]选择列

scala、apache-spark、apache-spark-sql

浏览 84提问于2021-01-28得票数 0

回答已采纳

1回答

Spark2.2.0-加载一个特定的文件列表

scala、apache-spark

我想将一个特定的文件列表加载到Spark中。我创建了一个UDF，它过滤了文件列表，因此我获得了一个带有我想要加载的文件的Seq<String>。我正在尝试使用org.apache.spark.sql.DatasetString)org.apache.spark.sql.DataFrame ，但出于某些原因，它告诉我“重载的方法值csv具有替代方案：(path: String*)org.apache.spark.sql.DataFrame (csvDataset: path: String)org.apache.spark.sql.DataFrame无法应用于(SeqString)”

浏览 0提问于2018-05-01得票数 2

回答已采纳

3回答

如何将元素追加到Spark Dataframe的数组列？

scala、apache-spark

假设我有以下DataFrame： scala> val df1 = Seq("a", "b").toDF("id").withColumn("nums", array(lit(1))) df1: org.apache.spark.sql.DataFrame = [id: string, nums: array<int>] scala> df1.show() +---+----+ | id|nums| +---+----+ | a| [1]| | b| [1]| +---+----+ 我想将元素添加到n

浏览 1提问于2018-04-06得票数 15

回答已采纳

2回答

将一个元组组成的列添加到一个dataframe中

apache-spark、dataframe、apache-spark-sql、spark-dataframe

我正在使用Spark1.6，我想向dataframe添加一个列。新列实际上是一个常数序列: Seq("-0“、"-1”、"-2“、"-3") 这是我的原始数据： scala> df.printSchema() 根部 user_name: string (nullable = true) test_name: string (nullable = true) df.show() |user_name| test_name| +？用户1\SAT= 用户9，GRE \x{e76f}\x{e76f} 我希望添加这个额外的列(尝试)，以便使

浏览 3提问于2017-03-23得票数 3

1回答

Scala中的再推断序列类型

scala、types

假设我们有一个Any序列 val seq = Seq(1,2,null) seq: Seq[Any] = List(1, 2, null) 现在，如果一个过滤器非空元素获得一个新的序列。 val cleanSeq = seq.filterNot(_ == null) cleanSeq: Seq[Any] = List(1, 2) 现在，如果我创建一个像cleanSeq这样的新序列，我想获得相同的类型 val seq2 = Seq(1,2) seq2: Seq[Int] = List(1, 2) 我能得到从Seq[Int]开始的cleanSeq吗？更新前面的示例只是一个虚拟示例，我可以有In

浏览 1提问于2020-05-07得票数 0

回答已采纳

1回答

关于重构Scala的建议-我可以消除foreach循环中使用的var吗？

scala、apache-spark

我正在寻找一些关于如何重构一些Scala代码的建议，让它变得更优雅、更地道。我有一个函数 def joinDataFramesOnColumns(joinColumns: Seq[String]) : org.apache.spark.sql.DataFrame 通过在joinColumns上将它们连接在一起来在Seq[org.apache.spark.sql.DataFrame]上操作。下面是函数定义： implicit class SequenceOfDataFrames(dataFrames: Seq[DataFrame]){ def joinDataFramesOnColum

浏览 18提问于2020-05-12得票数 1

回答已采纳

1回答

将dataframe转换为dataset会保留额外的列

scala、dataframe、apache-spark、apache-spark-dataset

在Spark 2.11中，当将Dataframe转换为Dataset时，spark会保留甚至在dataset的类中都没有引用的额外列。 scala> case class F(x: String, y: String) defined class F scala> import spark.implicits._ import spark.implicits._ scala> val df = Seq(("1a","2a","3a","4a"), ("5a", "6a", &

浏览 32提问于2021-07-02得票数 1

1回答

如何在Scala中将Spark DataFrames逐个添加到Seq()中

apache-spark

我使用以下命令创建了一个空的Seq() scala> var x = Seq[DataFrame]() x: Seq[org.apache.spark.sql.DataFrame] = List() 我有一个名为createSamplesForOneDay()的函数，它返回一个DataFrame，我想将它添加到这个Seq() x中。 val temp = createSamplesForOneDay(some_inputs) // this returns a Spark DF x = x + temp // this throws an error 我得到下面的错误- scala&

浏览 57提问于2019-07-02得票数 0

回答已采纳

1回答

如何确定火花应用程序中的最佳线程数？

scala、apache-spark、multiprocessing

在我的Scala/Spark应用程序中，我试图正确地使用多处理。从下面的代码中可以看到，线程数等于storage数组中的元素数。我测试了当前的代码，它可以工作。但是如您所见，storage数组中只有两个元素。在我看来，如果数组中有大量的元素，就会出现问题。在我的例子中，我不知道将来数组中会有多少个元素。也许我应该限制线程的数量，只有在处理之前的线程时才启动新的线程。问题：如何确定最佳线程数？ Main.app: import org.apache.spark.sql.DataFrame import utils.CustomThread object MainApp { def m

浏览 3提问于2020-01-29得票数 0