如何将spark scala中任意元素的Array转换为dataframe？_如何在spark scala中的spark Dataframe结构中的元素内添加元素_在Spark Scala中将dataframe中的数据字段从任意格式转换为固定格式 - 腾讯云开发者社区

python、scala、apache-spark、pyspark

我正在将一个dataframe转换成一个管道分隔的值，并将其写入shell (scala)中的一个文件中。但我在PySpark方面毫无头绪。会很感激你的帮助。尤其是我不知道如何用“\”来连接每个列这是scala版本 scala> val stgDF = spark.read.table("tbl") stgDF: org.apache.spark.sql.DataFrame = [name: string, num: int] scala> stgDF.map(line => line.mkString("|")).take(2) //H

浏览 3提问于2017-10-30得票数 4

回答已采纳

1回答

将DataFrame保存到蜂巢时触发Scala错误

scala、apache-spark、apache-spark-sql、spark-dataframe、apache-spark-ml

我通过组合多个数组来构造一个DataFrame。我试图将它保存到一个蜂巢表中，我得到了ArrayIndexOutofBound异常。下面是我得到的代码和错误。我尝试在主def外部和内部添加case类，但仍然得到了相同的错误。 import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.{Row, SQLContext, DataFrame} import org.apache.spark.ml.feature.RFormula import java.text._ import java.util.

浏览 6提问于2016-05-12得票数 1

回答已采纳

1回答

Apache注册一个UDF返回的数据

scala、apache-spark、user-defined-functions

我有一个返回数据的UDF。就像下面的那个 scala> predict_churn(Vectors.dense(2.0,1.0,0.0,3.0,4.0,4.0,0.0,4.0,5.0,2.0)) res3: org.apache.spark.sql.DataFrame = [noprob: string, yesprob: string, pred: string] scala> predict_churn(Vectors.dense(2.0,1.0,0.0,3.0,4.0,4.0,0.0,4.0,5.0,2.0)).show +------------------+------

浏览 3提问于2016-12-20得票数 3

回答已采纳

1回答

scala.collection.mutable.WrappedArray$ofRef不能强制转换为整数

apache-spark、apache-spark-sql、spark-dataframe

我是Spark和Scala的新手。我试图调用一个函数作为Spark UDF，但我遇到了这个错误，我似乎无法解决。我知道在Scala中，Array和Seq是不同的。WrappedArray是Seq的一个子类型，并且在WrappedArray和数组之间存在隐式转换，但我不确定为什么在使用自定义函数的情况下不会发生这种转换。任何能帮助我理解和解决这个问题的建议都是非常感谢的。这是一段代码片段 def filterMapKeysWithSet(m: Map[Int, Int], a: Array[Int]): Map[Int, Int] = { val seqToArray = a.toArra

浏览 0提问于2016-10-23得票数 23

回答已采纳

2回答

如何在spark scala中处理模式匹配中的空值

scala、apache-spark

下面是spark shell代码 scala> val colName = "time_period_id" scala> val df = spark.sql("""select time_period_id from prod.demo where time_period_id = 202101102 """) df: org.apache.spark.sql.DataFrame = [time_period_id: int] scala> val result = df.agg(max(

浏览 24提问于2021-03-11得票数 2

回答已采纳

3回答

为什么Spark会将字符串" null“转换为对象null(浮点/双类型)？

scala、apache-spark、apache-spark-sql、spark-dataframe

我有一个包含float和double值的dataframe。 scala> val df = List((Float.NaN, Double.NaN), (1f, 0d)).toDF("x", "y") df: org.apache.spark.sql.DataFrame = [x: float, y: double] scala> df.show +---+---+ | x| y| +---+---+ |NaN|NaN| |1.0|0.0| +---+---+ scala> df.printSchema root |-- x: fl

浏览 2提问于2017-05-12得票数 3

回答已采纳

4回答

在Spark/Scala中将RDD转换为Dataframe

scala、hadoop、apache-spark

RDD是以Array[Array[String]]格式创建的，具有以下值： val rdd : Array[Array[String]] = Array( Array("4580056797", "0", "2015-07-29 10:38:42", "0", "1", "1"), Array("4580056797", "0", "2015-07-29 10:38:43", "0", "1", "1"

浏览 8提问于2015-10-14得票数 6

回答已采纳

2回答

星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“

hadoop、apache-spark、hive、apache-spark-sql

当创建一个列值默认值为NULL的表时，我在Spark(1.6) SQL中获得了下面的错误。示例:将表测试创建为select column_a，NULL作为column_b从test_temp创建；同样的东西在Hive中工作，并创建数据类型为"void“的列。我使用空字符串而不是NULL来避免异常和新列获取字符串数据类型。是否有更好的方法使用spark在hive表中插入空值？ 2017-12-26 07:27:59 ERROR StandardImsLogger$:177 - org.apache.hadoop.hive.ql.metadata.HiveException: jav

浏览 3提问于2017-12-27得票数 0

回答已采纳

1回答

Spark :将bigint转换为时间戳

apache-spark

我有一个有bigint列的Dataframe。如何将bigint列转换为scala spark中的时间戳

浏览 1提问于2019-07-23得票数 4

回答已采纳

2回答

将星火DataFrame转换为spark.rdd.RDD[(Array[Integer]，Array[Integer]) ]以计算平均精度

dataframe、apache-spark、multidimensional-array、rdd、average-precision

我有一个星火DataFrame：我必须使用Scala从中计算平均精度。我想，根据文档，我们必须使用RDD而不是DataFrame。我尝试了以下几点： var llist = df.select("predicted", "actual").rdd.map(x => (x.get(0), x.get(1))).collect() // It gave Array[(Any, Any)] var df_rdd =sc.parallelize(llist) // df_rdd is org.apache.spark.rdd.RDD[(Any, An

浏览 5提问于2021-06-17得票数 0

1回答

如何在.Net Spark中将数组列作为参数传递到VectorUdf中？

c#、apache-spark、user-defined-functions、apache-arrow、.net-spark

我正在尝试在C# Spark中实现向量自定义函数。我已经通过Spark .Net创建了.Net Spark环境。在我的IntegerType专栏中，Vector Udf (Apache箭头和Microsoft.Data.Analysis都是)很好用。现在，尝试将Integer数组类型的列发送到Vector Udf，但找不到实现此目的的方法。用法 using System; using System.Linq; using Microsoft.Data.Analysis; using Microsoft.Spark.Sql; using func = Microsoft.Spark.Sql

浏览 17提问于2021-03-25得票数 6

2回答

flatMap()函数返回RDD[Char]而不是RDD[String]

apache-spark

我试图理解map和flatMap是如何工作的，但被下面的代码卡住了。flatMap()函数返回一个RDDChar，但我期望返回的是RDDString。有人能解释一下为什么它会产生RDDChar吗？ scala> val inputRDD = sc.parallelize(Array(Array("This is Spark"), Array("It is a processing language"),Array("Very fast"),Array("Memory operations"))) scala> val

浏览 17提问于2017-06-25得票数 1

回答已采纳

2回答

截断表后缓存的数据刷新

apache-spark、apache-spark-sql

以下是几个步骤： scala> val df = sql("select * from table") df: org.apache.spark.sql.DataFrame = [num: int] scala> df.cache res13: df.type = [num: int] scala> df.collect res14: Array[org.apache.spark.sql.Row] = Array([10], [10]) scala> df res15: org.apache.spark.sql.DataFrame = [num:

浏览 0提问于2018-05-15得票数 2

回答已采纳

1回答

如何将"Sum(vi * an (Vi))“应用于RDD "org.apache.spark.rdd.RDD[(Long，org.apache.spark.mllib.linalg.Vector)]的每一行

scala、apache-spark、apache-spark-mllib

我有一个具有这种结构的RDD org.apache.spark.rdd.RDD[(Long, org.apache.spark.mllib.linalg.Vector)] 这里，RDD的每一行都包含一个索引Long和一个向量org.apache.spark.mllib.linalg.Vector。我想将下面的函数应用于每一行中的每个向量。函数是: Sum(vi * ln( vi ))，其中vi=向量的ith分量. 请指导我如何将此函数应用到具有scala中提到的结构的RDD中。示例行如下所示： Array[(Long, org.apache.spark.mllib.linalg.Vecto

浏览 2提问于2017-02-25得票数 0

回答已采纳

2回答

火花放电中RDD到DF的不完全转换

python、apache-spark、pyspark

使用PySpark 1.6.3，我试图将RDD转换为Dataframe。这是在齐柏林飞艇笔记本上运行的测试代码。感兴趣的是rdd_ret。 >>> from pyspark.sql import Row >>> rdd_ret.count() 9301 >>> rddofrows = rdd_ret.map(lambda x: Row(**x)) >>> things = rddofrows.take(10000) >>> len(things) 9301 >>> [type(x) fo

浏览 0提问于2018-06-21得票数 2

1回答

在Scala Spark和PySpark之间传递sparkSession

scala、dataframe、apache-spark、pyspark

我的要求是从现有的PySpark程序中调用一个"Spark Scala“函数。将PySpark程序中创建的sparkSession传递给Scala函数的最佳方式是什么？我将我的scala jar传递给Pyspark，如下所示。 spark-submit --jars ScalaExample-0.1.jar pyspark_call_scala_example.py iris.data Scalacode def getDf(spark: SparkSession, query:String, df: DataFrame, log: Logger): DataFrame = { i

浏览 59提问于2019-10-01得票数 4

5回答

在Apache Spark中，unix_timestamp()能否返回以毫秒为单位的unix时间？

apache-spark、apache-spark-sql、unix-timestamp

我试图从时间戳字段中获取unix时间，单位是毫秒(13位)，但目前它返回的单位是秒(10位)。 scala> var df = Seq("2017-01-18 11:00:00.000", "2017-01-18 11:00:00.123", "2017-01-18 11:00:00.882", "2017-01-18 11:00:02.432").toDF() df: org.apache.spark.sql.DataFrame = [value: string] scala> df = df.selectExpr

浏览 3提问于2017-02-15得票数 20

1回答

RDD到Dataframe的转换

scala、apache-spark

我将csv文件读取到RDD，并试图将其转换为DataFrame。但是，它克服了错误。 scala> rows.toDF() <console>:34: error: value toDF is not a member of org.apache.spark.rdd.RDD[Array[String]] rows.toDF() scala> rows.take(2) Array[Array[String]] = Array(Array(1, 0, 3, "Braund, ... 我做错了

浏览 2提问于2015-11-11得票数 2

回答已采纳

1回答

连接器不映射数据

apache-spark、mongodb-hadoop

我试图在星火应用程序中映射来自mongodb连接器的数据。在此之前，我没有其他错误，所以我假设到mongodb的连接是成功的。我使用以下代码来映射： JavaRDD<AppLog> logs = documents.map( new Function<Tuple2<Object, BSONObject>, AppLog>() { public AppLog call(final Tuple2<Object, BSONObject> tuple) { AppLog log = new AppLog();

浏览 5提问于2016-10-13得票数 1

回答已采纳

1回答

如何在Scala中将Spark DataFrames逐个添加到Seq()中

apache-spark

我使用以下命令创建了一个空的Seq() scala> var x = Seq[DataFrame]() x: Seq[org.apache.spark.sql.DataFrame] = List() 我有一个名为createSamplesForOneDay()的函数，它返回一个DataFrame，我想将它添加到这个Seq() x中。 val temp = createSamplesForOneDay(some_inputs) // this returns a Spark DF x = x + temp // this throws an error 我得到下面的错误- scala&

浏览 57提问于2019-07-02得票数 0

回答已采纳

1回答

如何在scala中实现avro到GenericRecord的数据帧转换

scala、apache-spark

我陷入了将avro数据帧转换为GenericRecord/ByteArray的困境，在那里我在google上冲浪，他们为我提供了相反的解决方案。有人尝试过在scala中将AVRO RDD/Dataframe转换为GenericRecord或ByteArray吗？我使用这个命令来读取我的avro文件。 spark.read.avro("/app/q.avro") 它会像这样返回给我数据帧。 res0: org.apache.spark.sql.DataFrame = [recordType: string, recordVersion: string ... 6 more f

浏览 4提问于2017-10-16得票数 0

1回答

迭代的列并更新指定的值

scala、apache-spark、hive、apache-spark-sql

为了迭代从Hive表创建的Spark列并更新所有所需的列值，我尝试了以下代码。 import org.apache.spark.sql.{DataFrame} import org.apache.spark.sql.functions._ import org.apache.spark.sql.functions.udf val a: DataFrame = spark.sql(s"select * from default.table_a") val column_names: Array[String] = a.columns val required

浏览 0提问于2018-05-06得票数 0

回答已采纳

1回答

使用Scala的API替换DataFrame的值

python、scala、apache-spark

我需要替换Column of a DataFrame中的一些值(模式为空和零，我知道这种方法并不十分准确，但我只是在练习)。我精通Apache的Python文档，这些例子往往更有解释性。因此，除了Scala文档之外，我决定先看一下那里，我注意到可以使用来自DataFrames的DataFrames方法来实现我所需要的。在本例中，我将列2中的所有20替换为col。 df = df.replace("2", "20", subset="col") 在对Python API有了一些信心之后，我决定在Scala上复制它，并且在Scala文档中注意到了一

浏览 1提问于2016-02-19得票数 4

回答已采纳

1回答

如何创建countVectorizer模型的一个列中包含值数组的火花数据

apache-spark、spark-dataframe、countvectorizer

我正在尝试执行星火的countVectorizer模型。作为这个需求的一部分，我正在读取一个csv文件并从其中创建一个Dataframe (inp_DF)。它有3列，如下所示 +--------------+--------+-------+ | State|Zip Code|Country| +--------------+--------+-------+ | kentucky| 40205| us| | indiana| 47305| us| |greater london| sw15| gb| | ca

浏览 1提问于2017-09-05得票数 0

回答已采纳

1回答

如何从JSONobject中提取每个JSONArray并在火花流中保存到cassandra

json、scala、apache-spark、cassandra、spark-streaming

我正在尝试获取卡夫卡流数据，这是火花流中的JSONArray，每个JSONArray包含几个JSONObject。我希望将每个JSONObject保存到datadrames中，并在与另一个表映射后保存到cassandra表中。我试图创建dataframe来保存JSONObject，但是当我在stream.foreachRDD中创建dataframe时，它抛出了NullPointerException。是因为spark不支持嵌套的RDD吗？如果是这样，我如何将JSONObject保存到cassandra？数据格式如下： [ { "temperature&#

浏览 1提问于2016-12-12得票数 2

回答已采纳

1回答

如何在dataframe中将json字符串解析为字符串数组

arrays、json、scala、apache-spark、spark-dataframe

我对Scala很陌生，我花了3个小时试图弄清楚如何将一个简单的json字符串解析为dataframe中的一个字符串数组。这是我的密码： import spark.implicits._ import org.apache.spark.sql.functions._ ... emailsDf.select(from_json($"emails", Array[String])).show() emailsDf dataframe有一个名为“email”的列，在每一行中它是一个字符串数组的json字符串：["test1@mail.com", test2@mail.

浏览 3提问于2017-12-04得票数 2

回答已采纳

1回答

UnsupportedOperationException:找不到org.apache.spark.sql.Row的编码器

scala、apache-spark

我正在尝试创建一个dataFrame。似乎spark无法从scala.Tuple2类型创建数据帧。我该怎么做呢？我是scala和spark的新手。下面是代码运行中的错误跟踪的一部分 Exception in thread "main" java.lang.UnsupportedOperationException: No Encoder found for org.apache.spark.sql.Row - field (class: "org.apache.spark.sql.Row", name: "_1") - root class:

浏览 71提问于2021-10-23得票数 0

1回答

在Apache Spark 2.1.0中使用Except on DataFrame

scala、apache-spark、dataframe

except能在Spark DataFrames上正常工作吗？在Spark shell中，我创建了一个包含三个字符串的简单DataFrame："a“、"b”、"c“。将Limit(1)分配给数组，从而正确地生成row1 (A)。然后，将row1用作grfDF DataFrame生成tail1上的extend方法的参数。tail1不应该是数组(b，c)的新DataFrame吗？为什么tail1仍然包含"a“而去掉了"b”？ scala> grfDF.collect res1: Array[org.apache.spark.sql.Row] = A

浏览 2提问于2017-04-19得票数 0

1回答

SparkR中的scala.MatchError (使用Spark SQL的DataFrame)

apache-spark、ibm-cloud、spark-dataframe、cloudant

浏览 2提问于2016-07-27得票数 1

1回答

尝试使用Spark1.6 (WrappedArray)从嵌套JSON中收集A值

java、json、apache-spark、bigdata

我试图在Dataframe中转换json文件，但我被困在基于数组的字段中。我使用的是Spark 1.6和Java。当我读取嵌套的Json并转换为Dataframe时，我可以读取一些字段，但当我尝试输入特定路径时，会显示错误。 DataFrame df = spark.read().json(sc.wholeTextFiles("PATH").values()); 我正在读取一个json文件。 df.select(col("orcamentos.itens")).printSchema(); root |-- itens: array (nullable =

浏览 29提问于2019-09-11得票数 0

4回答

如何在Spark中强制DataFrame求值

scala、apache-spark

有时(例如，为了测试和标记)，我想强制执行在DataFrame上定义的转换。AFAIK调用像count这样的操作并不能确保所有的Columns都是实际计算的，show可能只计算所有Rows的一个子集(参见下面的示例) 我的解决方案是使用df.write.saveAsTable将DataFrame写到HDFS，但是这会“扰乱”我的系统，我不想再保存更多的表。那么触发DataFrame求值的最佳方式是什么呢编辑：请注意，在spark开发人员列表上还有一个最近的讨论：http://apache-spark-developers-list.1001551.n3.nabble.com/Will-

浏览 62提问于2017-03-10得票数 20

回答已采纳

1回答

星星之火--当write.mode(SaveMode.Overwrite)允许其他操作作为第一次或显示时，为什么我要得到NPE？

scala、apache-spark、dataframe

我有一个有3列的dataframe，它有一个类似于以下模式的模式： org.apache.spark.sql.types.StructType = StructType(StructField(UUID,StringType,true), StructField(NAME,StringType,true), StructField(DOCUMENT,ArrayType(MapType(StringType,StringType,true),true),true)) 这可能是这个dataframe中一行的示例： org.apache.spark.sql.Row = [11223344,ALAN,

浏览 0提问于2018-04-08得票数 1

回答已采纳

1回答

[ spark -cassandra-connector]如何在spark 2.3.1中将scala隐式支持的代码转换为java

java、apache-spark、apache-spark-sql、spark-cassandra-connector

我正在尝试将spark-cassandra使用的项目从scala_2.11重构为java_1.8。我使用的是spark-sql_2.11-2..3.1和spark-cassandra-connector_2.11-2.3.1。现在我正在尝试将代码重构到java 1.8中。我有一些隐含和DataFrame被使用。 import com.datastax.spark.connector._ import spark.implicits._ & import org.apache.spark.sql.DataFrame 现在如何将它们转换成等价的java代码呢？有样品吗？ Dat

浏览 7提问于2019-04-17得票数 0

回答已采纳

1回答

在Spark-Scala中，如何将数组列表复制到DataFrame中？

scala、apache-spark

我熟悉Python，我正在学习Spark-Scala。我想构建一个DataFrame，它的结构由以下语法描述： // Prepare training data from a list of (label, features) tuples. val training = spark.createDataFrame(Seq( (1.1, Vectors.dense(1.1, 0.1)), (0.2, Vectors.dense(1.0, -1.0)), (3.0, Vectors.dense(1.3, 1.0)), (1.0, Vectors.dense(1.2, -0.5)

浏览 6提问于2016-09-25得票数 0

1回答

火花机学习: RDD变得不可读

scala、apache-spark、apache-spark-mllib、apache-spark-ml

我正在尝试将向量数据类型提供给一个名为mllib的Word2Vec函数。当Word2Vec返回一个包含所需向量的“结果”列的DataFrame时，需要一些代码。最后，当代码在Spark中成功运行时，我尝试使用.foreach来println几行代码。火花在这一步崩溃，有以下错误：NullPointerException。如果删除println命令，代码将运行良好。我试过使用RDD的示例方法，但同样的火花错误出现了。不知何故，RDD变得不可读了。若要了解此ML任务的背景，请参阅此。 import org.apache.spark._ import org.apache.spark.rdd._

浏览 0提问于2018-03-19得票数 1

回答已采纳

2回答

从Spark访问内核化远程HBASE集群

apache-spark、hbase、pyspark、remote-access、kerberos

我正在尝试使用从Spark读取来自kerberized实例的数据。我的集群配置本质上类似于：我将客户端计算机上的星火作业提交给远程spark独立集群，该作业试图从单独的HBASE集群中读取数据。如果我通过直接在我的客户端上运行带有master=local*的Spark集群来绕过独立集群，只要我第一次从客户端启动，就可以访问远程HBASE集群。但是，当我将我的主服务器设置为远程集群时，所有其他的信任都是相同的，我在org.apache.hadoop.hbase.security.UserProvider.instantiate(UserProvider.java:43)接收一个空指针异常(下面

浏览 8提问于2016-08-22得票数 0

1回答

不能将java.lang.ClassCast errors.GenericRowWithSchema转换为scala.collection.Seq

scala、apache-spark、apache-spark-sql

如何将映射的RDD转换为包装的Array，我会出错模式：当我试图将dataframe转换为pojo时，我得到了以下异常： java.lang.ClassCastException: org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema cannot be cast to scala.collection.Seq 代码： rdd.map(row => { var arrm_list: Seq[Row] = rows.getAs[AnyRef]("ArrTeber").asI

浏览 1提问于2020-01-27得票数 0

回答已采纳

2回答

Spark将单列转换为数组

scala、apache-spark、apache-spark-sql

如何将spark 2.0.1中的单个列转换为数组？ +---+-----+ | id| dist| +---+-----+ |1.0|2.0| |2.0|4.0| |3.0|6.0| |4.0|8.0| +---+-----+ 应返回Array(1.0, 2.0, 3.0, 4.0) 一个 import scala.collection.JavaConverters._ df.select("id").collectAsList.asScala.toArray 失败，错误为 java.lang.RuntimeException: Unsupported array type

浏览 0提问于2016-11-10得票数 3

回答已采纳

1回答

使用ML管道进行字符串匹配时抛出错误，无法执行用户定义的函数($anonfun$1：(vector) => array<vector>)

pyspark、string-matching、fuzzy-search

我正在尝试对两个数据帧进行字符串匹配。假设dataframe1包含X个句子和dataframe2 Y个句子。我需要检查一下，Dataframe1中的任何句子都与Dataframe2匹配。我正在尝试使用ML管道，如下所示： def match_names(df_1, df_2): pipeline = Pipeline(stages=[ RegexTokenizer( pattern="", inputCol="name", outputCol="tokens", minTokenLength=1

浏览 2提问于2019-04-11得票数 1

1回答

Spark 1.4.0 org.apache.spark.sql.AnalysisException:无法解决给定输入列的“概率”

java、apache-spark

我目前正在使用Spark 1.4.0，并开始使用ML pipeline framework。我运行了示例程序"ml.JavaSimpleTextClassificationPipeline"，它使用LogisticRegression。但是我想做多类分类，所以我在org.apache.spark.ml.classification包中使用了org.apache.spark.ml.classification。使用'probability'方法对模型进行了适当的训练，但是当使用上面示例中的print语句测试模型时，我得到了以下错误:不存在fit列。本专栏仅提

浏览 4提问于2015-07-17得票数 1

1回答

如何使用spark (Eclipse)从Elasticsearch读取数据并将其转换为表格格式

eclipse、apache-spark、elasticsearch、hadoop

我已经成功地将csv文件推送到我的elasticsearch中。 val spark=SparkSession.builder() .appName("eswithfunctions") .config("spark.master","local") .config("spark.es.nodes","localhost") .config("spark.es.port","9200") .getOrCreate() println("Enter

浏览 25提问于2020-06-14得票数 1

1回答

如何在scala中访问和合并未来类型的多个DataFrame

scala、apache-spark、parallel-processing、apache-spark-sql、spark-streaming

我有spark scala应用程序。我正在尝试使用它内部的Futures来并行化几个独立的操作集。我在期货中调用它们，它们返回给我未来类型的DataFrame，我如何在最后合并它们，并在任何未来类型无法计算的情况下抛出错误。下面是我的代码。当我尝试在onComplete块中应用数据帧的联合时，它显示以下错误 value union is not a member of scala.concurrent.Future[(scala.concurrent.Future[org.apache.spark.sql.DataFrame], scala.concurrent.Future[org.apac

浏览 2提问于2020-01-22得票数 0

1回答

如何在创建数据框时解析scala.MatchError

scala、dataframe、rdd、case-class

我有一个文本文件，其中有复杂的结构化行。我使用客户转换器将给定的字符串(行)转换为Pojo类(CountryInfo)。在转换之后，我正在构建DF。POJO类有一个字段，它是自定义类型(GlobalizedPlayTimeWindows)列表。我创建了一个与此GlobalizedPlayTimeWindows匹配的结构，并尝试将现有的自定义类型转换为该结构，但总是出错。我创建的StructType： import org.apache.spark.sql.types._ val PlayTimeWindow = StructType( StructField(

浏览 4提问于2016-10-11得票数 4

回答已采纳

3回答

带有备选方案的重载方法foreachBatch

scala、apache-spark

我正在尝试将json文件序列化为parquet格式。我有一个错误： org.apache.spark.api.java.function.VoidFunction2[org.apache.spark.sql.Datasetorg.apache.spark.sql.Row，java.lang.Long])org.apache.spark.sql.streaming.DataStreamWriterorg.apache.spark.sql.streaming.DataStreamWriterorg.apache.spark.sql.Row错误：(34，25)重载方法foreachBatch与备选方

浏览 5提问于2020-07-28得票数 6

2回答

Spark 2.1不能在CSV上写入向量字段

csv、apache-spark、apache-spark-sql、spark-csv

当我在将我的代码从Spark2.0迁移到2.1时，我无意中发现了一个与Dataframe保存相关的问题。这是密码 import org.apache.spark.sql.types._ import org.apache.spark.ml.linalg.VectorUDT val df = spark.createDataFrame(Seq(Tuple1(1))).toDF("values") val toSave = new org.apache.spark.ml.feature.VectorAssembler().setInputCols(Array("value

浏览 3提问于2017-05-24得票数 3

回答已采纳

1回答

广播变量不可序列化的SparkException任务(版本1.5.2)

apache-spark

我有过 scala> sks res32: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[10] at filter at <console>:45 scala> sks2 res33: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[15] at map at <console>:45 `scala> sks.collect res22: Array[String] = Array(javascript, java, pyth

浏览 0提问于2016-01-13得票数 0

回答已采纳

1回答

我如何将RDD[Map[String，Any]]转换为dataframe？

dataframe、apache-spark、apache-spark-sql、rdd、databricks

我有一个RDD[MapString，Any]，我正在尝试将它转换为Dataframe。我没有可以指定Dataframe的架构。我试着做了一个rdd.toDF，但是没有帮助。它出现了一个错误，如下所示。 Exception in thread "main" java.lang.ClassNotFoundException: scala.Any at java.net.URLClassLoader.findClass(URLClassLoader.java:382) at java.lang.ClassLoader.loadClass(ClassLoader.ja

浏览 2提问于2019-11-14得票数 2

1回答

向dataframe星火/scala添加新列时遇到的问题

scala、apache-spark、dataframe、apache-spark-sql、user-defined-functions

我是新来的火花/斯卡拉。我正在尝试读取一些数据从一个蜂窝表到一个火花数据，然后添加一个列的基础上的一些条件。这是我的代码： val DF = hiveContext.sql("select * from (select * from test_table where partition_date='2017-11-22') a JOIN (select max(id) as bid from test_table where partition_date='2017-11-22' group by at_id) b ON a.id=b.bid")

浏览 1提问于2017-11-27得票数 0

回答已采纳

1回答

为什么foreachRDD不使用DataFrame填充新的内容？

scala、apache-spark、apache-spark-sql、spark-streaming、apache-spark-mllib

我的问题是，当我将代码转换为流模式并将数据帧放入foreach循环时，数据帧会显示空表！我不填！我也不能将它放入assembler.transform()中。错误是： Error:(38, 40) not enough arguments for method map: (mapFunc: String => U)(implicit evidence$2: scala.reflect.ClassTag[U])org.apache.spark.streaming.dstream.DStream[U]. Unspecified value parameter mapFunc. v

浏览 3提问于2017-05-25得票数 0

回答已采纳

1回答

在带有Spylon内核的Jupyter中以‘delta`格式保存数据时出错

apache-spark、jupyter-notebook、delta-lake

将数据保存为delta格式时遇到错误： $ data.write.format("delta").save("gs://xxx/delta-table1") org.apache.spark.SparkException: Job aborted. at org.apache.spark.sql.execution.datasources.FileFormatWriter$.write(FileFormatWriter.scala:198) ... Caused by: java.lang.ArrayStoreException: org.apache

浏览 0提问于2020-11-13得票数 2