如何基于scala/spark中的case类更改数据帧中列的数据类型_Spark-scala更改dataframe中列的数据类型_如何基于case类动态重命名Spark DF中的列 - 腾讯云开发者社区

、、

我正在尝试更改数据帧的模式。每次我有一个字符串类型的列时，我想把它的类型改为VarcharType( max )，其中max是该列中字符串的最大长度。我写了下面的代码。(我想稍后将数据帧导出到sql server，并且我不想让nvarchar出现在sql server中，所以我尝试将其限制在spark端) val df = spark.sql(s"SELECT * FROM $tableName") var l : List [StructField] = List() val schema = df.schema schema.fields.foreach(x =>

浏览 25提问于2020-01-22得票数 0

回答已采纳

1回答

Scala -无法将Scala对象写入Cassandra

、、

我试图使用Spark将Scala类对象编写到Cassandra中。但是在运行代码时，我得到了一个异常。我想我无法将我的case类对象映射到我的Cassandra行。我的Scala代码如下所示 CassandraPerformerClass.scala object CassandraPerformerClass extends App { override def main(args: Array[String]) { val keyspace = "scalakeys1" val tablename = "demotable1" val conf =

浏览 0提问于2015-01-20得票数 2

回答已采纳

1回答

将Spark数据帧写入红移:保存StructField(user_agent，ArrayType(StringType，true)，true)

、、

我有一个数据帧，该模式包含一个ArrayString字段： StructField("user_agent", ArrayType apply (StringType, true)) ... myDataframe.printSchema (an excerpt) |-- user_agent: array (nullable = true) | |-- element: string (containsNull = true) 我正在使用com.databricks.spark.redshift包来写红移。我得到一个错误： java.lang.Ill

浏览 0提问于2016-06-04得票数 1

3回答

创建使用BigInteger的数据帧会抛出scala.MatchError: java.math.BigInteger类(属于java.lang.Class类)

、、

Spark版本: 1.3 在处理BigInteger类型数据时，我有一个要求。Bean类(Pojo)使用的BigInteger数据类型很少。解析数据并创建JavaRDD可以很好地工作，但是当创建一个以JavaRDD和BeanClass为参数的数据帧时，Spark抛出下面的异常。 scala.MatchError: class java.math.BigInteger (of class java.lang.Class) at org.apache.spark.sql.SQLContext$$anonfun$getSchema$1.apply(SQLContext.scala:1

浏览 3提问于2015-11-19得票数 1

1回答

rdd对象中太多的参数

、、、

我尝试使用将rdd对象转换为spark中的数据格式。我的用例中的类包含超过100个参数(列)。 case class MyClass(val1: String, ..., val104: String ) val df = rdd.map({ case Row(val1: String, ..., val104: String) => MyClass(val1, ..., val104) }).toDF("col1_name", ..., "col104_name") 我得到了一个错误:不应用模式的参数太多，最大值= 22

浏览 1提问于2017-04-03得票数 1

1回答

将scala dataframe转换为具有数组类型列的数据集

、、

我有一个scala数据帧，看起来像这样： +--------+--------------------+ | uid| recommendations| +--------+--------------------+ |41344966|[[2174, 4.246965E...| |41345063|[[2174, 0.0015455...| |41346177|[[2996, 4.137125E...| |41349171|[[2174, 0.0010590...| df: org.apache.spark.sql.DataFrame = [uid: int, recom

浏览 35提问于2019-02-28得票数 0

1回答

从Mapr表中推断InvalidType的Spark时间戳列

、、

我用Spark从MapR DB读取一张表。但是时间戳列被推断为InvalidType。在从Mapr读取数据时，也没有设置模式的选项。 root |-- Name: string (nullable = true) |-- dt: struct (nullable = true) | |-- InvalidType: string (nullable = true) 我试图将该列转换为时间戳，但得到了以下异常。 val df = spark.loadFromMapRDB("path") df.withColumn("dt1", $"dt

浏览 1提问于2018-11-28得票数 0

回答已采纳

1回答

Spark (scala) dataframes -返回在给定字符串中找到的一组单词的列表

、

我正在使用一个UDF函数应用于spark dataframe中的一个字符串列，该数据帧迭代一个words单词集，并查找给定的列字符串是否包含该集合中的任何单词(见下文)： udf { (s: String) => words.value.exists(word => s.contains(word)) } 我需要如何修改这个函数，使其返回在字符串中找到的words集合中的所有项的列表？我尝试过使用when和otherwise udf { (s: String) => when(words.value.exists(word => s.contains(word)),

浏览 6提问于2017-08-25得票数 0

回答已采纳

1回答

N列m行的动态数据帧

、

从json(动态模式)读取数据，并将其加载到dataframe。示例数据帧： scala> import spark.implicits._ import spark.implicits._ scala> val DF = Seq( (1, "ABC"), (2, "DEF"), (3, "GHIJ") ).toDF("id", "word") someDF: org.apache.spark.sql.DataFrame = [number: int, wor

浏览 6提问于2020-06-04得票数 0

回答已采纳

1回答

不支持Spark 2.1.0 UDF模式类型

、、

我使用一个名为Point(x: Double，y: Double)的数据类型。我尝试使用列_c1和_c2作为Point()的输入，然后创建一个新的Point值列，如下所示 val toPoint = udf{(x: Double, y: Double) => Point(x,y)} 然后我调用这个函数： val point = data.withColumn("Point", toPoint(watned("c1"),wanted("c2"))) 但是，当我声明udf时，我得到以下错误： java.lang.UnsupportedOpera

浏览 2提问于2017-04-27得票数 1

1回答

火花kryo编码器ArrayIndexOutOfBoundsException

、、

我正在尝试使用spark和esri创建一个带有地理数据集的数据集。如果Foo只有Point字段，它就能工作，但是如果我在Point之外添加了其他字段，就会得到ArrayIndexOutOfBoundsException。 import com.esri.core.geometry.Point import org.apache.spark.sql.{Encoder, Encoders, SQLContext} import org.apache.spark.{SparkConf, SparkContext} object Main { case class Foo(position:

浏览 4提问于2016-07-21得票数 1

1回答

在结构序列中使用Spark UDF

、、

给定一个数据帧，其中一列是由以下序列生成的结构序列 val df = spark .range(10) .map((i) => (i % 2, util.Random.nextInt(10), util.Random.nextInt(10))) .toDF("a","b","c") .groupBy("a") .agg(collect_list(struct($"b",$"c")).as("my_list")) df.printSchema df.show(

浏览 0提问于2017-07-13得票数 12

回答已采纳

2回答

星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“

、、、

当创建一个列值默认值为NULL的表时，我在Spark(1.6) SQL中获得了下面的错误。示例:将表测试创建为select column_a，NULL作为column_b从test_temp创建；同样的东西在Hive中工作，并创建数据类型为"void“的列。我使用空字符串而不是NULL来避免异常和新列获取字符串数据类型。是否有更好的方法使用spark在hive表中插入空值？ 2017-12-26 07:27:59 ERROR StandardImsLogger$:177 - org.apache.hadoop.hive.ql.metadata.HiveException: jav

浏览 3提问于2017-12-27得票数 0

回答已采纳

1回答

PySpark -当值为"t“和"f”时，如何使用模式读取BooleanType

、、、

我使用StructType定义了一个模式，用于读取Redsfhit中的数据帧。该表具有350+列，其中许多列被配置为布尔值。从该表中卸载数据后，我尝试使用我创建的Schema读取数据。但是我希望读取的每个BooleanType列都有"f“/ "t”值。这会导致解析异常。例外情况是： java.lang.IllegalArgumentException: For input string: "f" at scala.collection.immutable.StringLike$class.parseBoolean(StringLike.scala:290) a

浏览 1提问于2017-11-22得票数 3

3回答

在Spark DataFrame中将空值转换为空数组

、、、

我有一个Spark数据帧，其中一列是整数数组。该列可以为空，因为它来自左外部联接。我希望将所有null值转换为一个空数组，这样以后就不必处理null值了。我想我可以这样做： val myCol = df("myCol") df.withColumn( "myCol", when(myCol.isNull, Array[Int]()).otherwise(myCol) ) 但是，这会导致以下异常： java.lang.RuntimeException: Unsupported literal type class [I [I@5ed25612 at org.ap

浏览 5提问于2016-01-08得票数 24

回答已采纳

1回答

使用字节数组创建火花DataSet时出错

、、

我正在使用case类和spark.sql({query}).as[MyCaseClass]语法在scala中创建Spark 在我尝试用定义为Array[Array[Byte]]的一个成员创建数据集之前，一切都很好。 case class HbaseRow( ip: Array[Array[Byte]] ) val hbaseDataSet = spark .sql("""select ip from test_data""") .as[HbaseRow] 通常情况下，这很好，但是对于字节数组，这是失败的。 java.lang.C

浏览 1提问于2018-11-26得票数 1

回答已采纳

1回答

将dataframe转换为dataset会保留额外的列

、、、

在Spark 2.11中，当将Dataframe转换为Dataset时，spark会保留甚至在dataset的类中都没有引用的额外列。 scala> case class F(x: String, y: String) defined class F scala> import spark.implicits._ import spark.implicits._ scala> val df = Seq(("1a","2a","3a","4a"), ("5a", "6a", &

浏览 32提问于2021-07-02得票数 1

6回答

spark sql cast函数创建具有空值的列

、、

我在Spark中有以下数据框架和模式 val df = spark.read.options(Map("header"-> "true")).csv("path") scala> df show() +-------+-------+-----+ | user| topic| hits| +-------+-------+-----+ | om| scala| 120| | daniel| spark| 80| |3754978| spark| 1| +-------+-------+-----+

浏览 118提问于2017-06-21得票数 1

1回答

不能摄取DF到elasticsearch

、、、

我正在读取星火-scala中的拼花文件，并进行计算和过滤。我想从elasticsearch中摄取最终的数据帧。我试过跟踪，但没能让它工作。 import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession, SQLContext} import org.apache.spark.sql.functions._ import org.apache.spark.sql.SQLContext._ import org.elasticsearch.spark._ val spark = SparkSession.builder.appNam

浏览 0提问于2019-01-17得票数 0

2回答

带case类Spark2.1.0的显式case读取.csv

、、

我有以下案例课： case class OrderDetails(OrderID : String, ProductID : String, UnitPrice : Double, Qty : Int, Discount : Double) 我正在尝试阅读csv：这是我的密码： val spark = SparkSession.builder.master(sparkMaster).appName(sparkAppName).getOrCreate() import spark.implicits._ val orderDetails = spark.

浏览 4提问于2017-04-02得票数 7

回答已采纳

2回答

从火花数据中插入卡桑德拉表会导致org.codehaus.commons.compiler.CompileException:文件“generated.java”错误

、、、、

我使用的是星星之火-sql.2.4.1v，datastax-java-cassandra-connector_2.11-2.4.1.jar和java8。我创建cassandra表如下所示： create company(company_id int PRIMARY_KEY, company_name text); JavaBean如下所示： class CompanyRecord( Integer company_id; String company_name; //getter and setters //default & parametarized constructors

浏览 2提问于2019-10-28得票数 1

2回答

如何在不从DataFrame转换和访问数据集的情况下向Dataset添加列？

、

我知道使用.withColumn()向星火.withColumn()添加新列的方法，以及返回DataFrame的UDF。我还知道，我们可以将结果DataFrame转换为DataSet。我的问题是：如果我们仍然遵循传统的DF方法(即将列名作为UDF输入的字符串传递)，DataSet的类型安全性是如何发挥作用的？是否有一种“面向对象的方式”来访问列(而不是将列名作为字符串传递)，就像我们以前使用RDD那样，用于追加一个新列。如何在地图、过滤器等正常操作中访问新列？例如： scala> case class Temp(a : Int, b : String

浏览 1提问于2016-11-15得票数 11

回答已采纳

1回答

使用df.write.jdbc()将数据帧写入SQL Server会产生错误:列的数据类型不能参与列存储索引

、、

我在一个有20个节点的集群中使用了pyspark和spark 2.2和python 2.7。我使用df = spark.read.jdbc(...)将数据从云blob存储加载到数据帧中，然后尝试使用df.write.jdbc(...)将其写入我的SQL Server数据库。然而，在写入过程中，我得到了以下错误： py4j.protocol.Py4JJavaError: An error occurred while calling o67.jdbc. : com.microsoft.sqlserver.jdbc.SQLServerException: The statement failed.

浏览 3提问于2018-02-17得票数 0

1回答

线程"main“java.lang.NoSuchMethodError中的Scala异常

、

我对Scala编程很陌生，并且正在使用IntelliJ IDE。当我运行Scala示例代码时，会得到以下异常。不确定我是否失去了任何依赖。样本代码 package com.assessments.example object Example extends App { //Create a spark context, using a local master so Spark runs on the local machine val spark = SparkSession.builder().master("local[*]").appName("

浏览 7提问于2022-03-01得票数 0

回答已采纳

1回答

无法使用build in toLocalIterator()将Spark数据集转换为迭代器

、、

我正在尝试将spark数据集转换为迭代器，以便将数据集写入influxdb。在构造了我想要的数据集之后，我需要将该数据集转换为迭代器，以便传递给influxdb编写器。但是，当对dataset类使用toLocalIterator()内置函数时，就会出现这个问题。我得到了以下异常： override def gatherTimeMetrics(df: DataFrame) (implicit params: ConversionParams, config: Config): Dataset[TimeMetric] = { df .selec

浏览 24提问于2019-05-30得票数 1

1回答

将RDD转换为Dataframe Spark

、、、

如何在scala中将具有以下结构的RDD转换为dataframe org.apache.spark.rdd.RDD[(Long, org.apache.spark.mllib.linalg.Vector)] = MapPartitionsRDD[42] 这里，RDD的每一行都包含一个索引Long和一个向量org.apache.spark.mllib.linalg.Vector。我希望将org.apache.spark.mllib.linalg.Vector的每个组件放在一行数据帧中的单独列中。

浏览 2提问于2017-02-26得票数 2

1回答

如何处理spark scala中withcolumn和continue剩余记录异常

、、

我正在尝试使用scala中的withColumn向spark数据帧中添加一列，因为数据集很大，所以我的withColumn在特定的记录上失败了，我正在尝试用try-catch编写这段代码，这样我就可以捕获异常并记录这些错误记录，然后继续剩余的记录。在spark-scala中有没有一种方法来处理withColumn中发生的异常？请提个建议。

浏览 2提问于2020-03-04得票数 0

1回答

Apache注册一个UDF返回的数据

、、

我有一个返回数据的UDF。就像下面的那个 scala> predict_churn(Vectors.dense(2.0,1.0,0.0,3.0,4.0,4.0,0.0,4.0,5.0,2.0)) res3: org.apache.spark.sql.DataFrame = [noprob: string, yesprob: string, pred: string] scala> predict_churn(Vectors.dense(2.0,1.0,0.0,3.0,4.0,4.0,0.0,4.0,5.0,2.0)).show +------------------+------

浏览 3提问于2016-12-20得票数 3

回答已采纳

1回答

spark vs pandas dataframe (具有大列) jupyter笔记本中的head(n)

、、、、

几天后，数据带来了大量的功能。为了获得简短的数据摘要，人们将数据加载到数据框中，并使用head()方法显示数据。使用Jupyter Notebook( Toree for scala)进行实验是很常见的。 Spark (scala)很适合处理大量数据，但是它的head()方法不能在水平滚动的notebook中显示列标题。熊猫数据帧头 Spark Scala数据帧头我知道你可以通过使用.columns在scala dataframe中获得列标题，但是打印它不会沿着数据列显示标题，这使得它很难理解。

浏览 3提问于2018-06-13得票数 2

4回答

如何将Case类作为模式，在从RDD[String]解析的数据集中将默认值设置为“null”

、、

我正在解析来自给定RDD[String]的JSON字符串，并尝试将其转换为具有给定case class的Dataset。但是，当JSON字符串不包含case class的所有必需字段时，我会得到一个异常，即找不到缺少的列。如何定义这种情况的默认值？我尝试在case class中定义默认值，但这并没有解决问题。我正在使用Spark2.3.2和Scala2.11.12。这段代码运行良好 import org.apache.spark.rdd.RDD case class SchemaClass(a: String, b: String) val jsonData: String = &#

浏览 2提问于2020-06-10得票数 0

回答已采纳

1回答

火花错误:线程“主”java.lang.UnsupportedOperationException中的异常

、、

我正在编写一个Scala/spark程序，它可以找到员工的最高工资。雇员数据可以在CSV文件中获得，工资列有一个逗号分隔符，可容纳数千人，并且它还有一个$前缀，例如$74,628.00。为了处理这个逗号和美元符号，我用scala编写了一个解析器函数，它将“”上的每一行分开，然后将每一列映射到要分配给case类的各个变量。我的解析程序如下所示。在这里，为了消除逗号和美元符号，我使用替换函数将其替换为空，然后最后将类型转换为Int。 def ParseEmployee(line: String): Classes.Employee = { val fields = line.split

浏览 5提问于2017-10-21得票数 0

回答已采纳

3回答

如何比较SQL语句中两种数据的模式？

、、

在spark (如 )中，有许多方法来验证两个数据帧的架构。但是我只想在SQL中验证两个数据帧的模式，我指的是SparkSQL。示例查询1: SELECT DISTINCT target_person FROM INFORMATION_SCHEMA.COLUMNS WHERE COLUMN_NAME IN ('columnA','ColumnB') AND TABLE_SCHEMA='ad_facebook' 示例查询2: SELECT count(*) FROM information_schema.columns WHERE table_n

浏览 6提问于2018-09-04得票数 1

2回答

使用case类将未知列添加为null

、

我正在创建一个新的dataframe (由case类设置)，它的输入dataframe的列数可能比现有的要少/不同。我正在尝试使用case类将不存在的值设置为null。我使用这个case类来驱动要创建的新数据帧。输入数据帧(incomingDf)可能没有上面设置为null的所有变量字段。 case class existingSchema(source_key: Int , sequence_number: Int , subscriber_id: String

浏览 35提问于2019-04-17得票数 2

回答已采纳

1回答

获取具有map数据类型列的两个spark数据帧之间的差异

、、

我有两个具有map数据类型列的dataframe。我尝试使用传统的except方法来获取两个数据帧之间的差异，但是我得到了下面的错误。 scala> val outputDF = Seq( | (1, "Visa", 0, Map("Visa" -> 1)), | (2, "MC", 2, Map("Visa" -> 1, "MC" -> 1)), | (3, "Amex", 0, Map("Amex" -> 1)),

浏览 1提问于2020-10-28得票数 0

3回答

根据按特定列排序时的比率拆分数据帧

我需要在spark中根据给定比率使用scala拆分一个数据帧。这应该通过一个名为ts的特定列在dataframe的排序版本上完成。第一个比率用于训练，最后一个部分将用于验证。 val dataframe=//a sample dataframe val trainRatio=0.8; val training=//dataframe.rdd.orderBy("ts") val test=// 有人能给我一些提示吗？

浏览 1提问于2017-05-02得票数 0

3回答

将RDD[org.apache.spark.sql.Row]转换为RDD[org.apache.spark.mllib.linalg.Vector]

、、、、

我是Spark和Scala的新手。我从以下数据帧开始(由密集的双精度向量组成的单列)： scala> val scaledDataOnly_pruned = scaledDataOnly.select("features") scaledDataOnly_pruned: org.apache.spark.sql.DataFrame = [features: vector] scala> scaledDataOnly_pruned.show(5) +--------------------+ | features| +------------

浏览 0提问于2015-10-10得票数 10

1回答

线程"main“java.lang.NoSuchMethodError异常:scala.Predef$.longArrayOps([J])[J

、、

我有一个简单的Scala对象，它创建一个RDD，然后收集并打印出所有元素。我已经在Eclipse上创建了一个Maven项目，并将Scala库2.12.3添加到pom.xml中，我已经添加了spark 2.4.3依赖项，如下所示： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>2.4.3</version> </dependency

浏览 0提问于2019-06-30得票数 3

2回答

Spark，Scala中的数组操作

、、

我是scala和spark的新手，在尝试从一些玩具数据帧中学习时遇到了一个问题。我有一个数据帧，它有以下两列： Name_Description Grade Name_Description是一个数组，而Grade只是一个字母。我对Name_Description有意见。在Spark上使用scala时，我正在尝试更改这一列。名称描述不是固定大小的数组。它可能是这样的 'asdf_ Brandon'，'Ca%abc%rd‘ 唯一的问题是： 1. the first element of the array ALWAYS has 6 garbage

浏览 26提问于2019-08-31得票数 3

回答已采纳

2回答

Spark Cassandra连接器错误: java.lang.NoClassDefFoundError: com/datastax/spark/ Connector /TableRef

、、、

Spark version:3.00 scala:2.12 Cassandra::3.11.4 spark-cassandra-connector_2.12-3.0.0-alpha2.jar 我没有使用DSE。下面是我将数据帧写入Cassandra数据库的测试代码。 spark = SparkSession \ .builder \ .config("spark.jars","spark-streaming-kafka-0-10_2.12-3.0.0.jar,spark-sql-kafka-0-10_2.12-3.0.0

浏览 27提问于2020-06-27得票数 2

回答已采纳

1回答

Spark dataset和scala.ScalaReflectionException:类型V不是类

、、、

我有以下几个类： case class S1(value: String, ws: Map[Int, String]) case class S2(value: String, ws: Map[Int, String], dep: BS) 如上所示，这两个字段有一个不同的字段，即BS 下面的代码运行良好。 sparkSQL.createDataset(Seq(S1("heloo", Map(0 -> "0")))).foreach(x => println(x)) 下面的代码也很好用，它本身就是BS类。 sparkSQL.createDataset(

浏览 2提问于2018-01-25得票数 1

1回答

如何在Spark Scala中的Schema RDD [created of Case Class]中查找重复项以及相应的重复计数？

、、、

我有一个从Case类创建的Schema RDD。我需要在Spark Scala中查找所有列和重复计数的重复条目

浏览 20提问于2021-07-19得票数 0

1回答

sc.TextFile("")在Eclipse中工作，但不在JAR中工作

、、、、

我正在编写一段代码，它将位于hadoop集群中，但首先，我使用本地文件在本地测试它。代码在Eclipse中运行得很好，但是当我使用SBT (使用spark、lib等)制作一个巨大的JAR时，程序会一直工作到textFile(path)，我的代码是： import org.apache.spark.{SparkConf, SparkContext} import org.apache.log4j.{Level, Logger} import org.joda.time.format.DateTimeFormat import org.apache.spark.rdd.RDD import sca

浏览 3提问于2017-12-14得票数 1

回答已采纳

2回答

用Spark (字段名中的空格)将json映射到case类

、、、、

我试图用spark Dataset API读取json文件，问题是这个json在某些字段名中包含空格。这将是一场麻烦事。 {"Field Name" : "value"} 我的案例课需要这样 case class MyType(`Field Name`: String) 然后，我可以将文件加载到一个DataFrame中，它将加载正确的模式。 val dataframe = spark.read.json(path) 当我试图将DataFrame转换为Dataset[MyType]时，问题就出现了。 dataframe.as[MyType] 由StructSch

浏览 1提问于2017-10-27得票数 3

回答已采纳

1回答

火花:从嵌套DataFrame打印元素

、、

我试图从包含嵌套值的DataFrame中打印特定元素：这是我得到的Spark SQL DataFrame： scala>result org.apache.spark.sql.DataFrame = [P1: struct<t1:tinyint,t2:tinyint,t3:smallint,t4:int>, P2:struct<k1:tinyint,k2:int>] 它包括： scala>result.take(3).foreach(println) [[15,78,60,1111111],[10,7525619]] [[15,78,60,2222222]

浏览 4提问于2015-12-02得票数 0

回答已采纳

1回答

另存为配置单元中的表:失败，并出现异常:必须至少为表指定一列

、

我有一个简单的spark作业，它从文件中拆分单词并加载到hive中的表中。 public static void wordCountJava7() { // Define a configuration to use to interact with Spark SparkConf conf = new SparkConf().setMaster("local[4]").setAppName("Work Count App"); SparkContext sc = new SparkContext(conf); // Crea

浏览 1提问于2016-04-29得票数 1

1回答

如何在批处理模式下使用spark-cassandra连接器加载集合数据类型

、、

我正在尝试将spark数据帧加载到Cassandra表中，该数据帧具有两个具有集合数据类型的属性。在传入的提要文件中，这些属性是文本/字符串。我使用下面的代码将String类型分别转换为List和Map类型： spark.udf.register("getLst", (input: String) => input.split(",").toList) spark.udf.register("getMap", (input:String) => parse(input).values.asInstanceOf[M

浏览 18提问于2019-01-23得票数 0

回答已采纳

1回答

星星之火中的case类实现

、、

我试图在intellij idea中实现case类，我得到了以下错误。你能帮我解决这个问题吗？代码： val conf = new SparkConf().setMaster("local").setAppName("case class") val sc = new SparkContext(conf) case class Employee (empno: String, ename: String, job: String, mgr: String, hiredate: String, sal: String, comm: St

浏览 2提问于2019-12-17得票数 1

2回答

Scala :从csv读取具有空值的列的数据

、、

环境- spark-3.0.1-bin-hadoop2.7、eclipse 2.12.3、Scala、SparkSQL、eclipse-jee-oxygen-2-linux-gtk-x86_64 我有一个csv文件，它有3列数据类型:String，Long，Date。我已经将csv文件转换为数据帧，并想要显示它。但是它给出了以下错误 java.lang.ArrayIndexOutOfBoundsException: 2 at org.apache.spark.examples.sql.SparkSQLExample5$.$anonfun$runInferSchemaExample$2(Spar

浏览 1提问于2021-03-25得票数 0

2回答

为什么在Spark中使用自定义case类会导致序列化错误？

、、、

对于我的生活，我不明白为什么这是不可串行化的。我运行在下面的火花壳(粘贴模式)。我运行的星火1.3.1，卡桑德拉2.1.6，斯卡拉2.10 import org.apache.spark._ import com.datastax.spark.connector._ val driverPort = 7077 val driverHost = "localhost" val conf = new SparkConf(true) .set("spark.driver.port", driverPort.toString) .set("spark.

浏览 1提问于2015-08-31得票数 1

回答已采纳

1回答