如何让If语句返回DataFrame，而不是Scala Spark中的Any？_如何根据Spark Scala中的列数据类型返回DataFrame的列子集_如何从if-else块返回Int，而不是scala中的anyVal？ - 腾讯云开发者社区

java、scala、apache-spark

我正在实现一段代码，用于将多个列动态添加到行中具有空值的Dataframe中我在scala中找到了以下代码片段，其中使用了Dataframe对象的map函数。 import org.apache.spark.sql.catalyst.encoders.RowEncoder import org.apache.spark.sql.types.{DataTypes, NullType, StructType} import org.apache.spark.sql.{DataFrame, Encoders, Row, SparkSession} import org.apache.spark.s

浏览 1提问于2019-04-03得票数 0

2回答

简单sparksql联接查询中丢失的执行器

scala、apache-spark、apache-spark-sql

我正在运行一个简单的sparkSQL查询，它在两个数据集上进行匹配，每个数据集大约是500 is。所以整个数据都在1TB左右。 val adreqPerDeviceid = sqlContext.sql("select count(Distinct a.DeviceId) as MatchCount from adreqdata1 a inner join adreqdata2 b ON a.DeviceId=b.DeviceId ") adreqPerDeviceid.cache() adreqPerDeviceid.show() 作业工作良好，直到数据加载(10k任务分配

浏览 3提问于2016-10-17得票数 1

回答已采纳

1回答

在Spark-Scala中，如何将数组列表复制到DataFrame中？

scala、apache-spark

我熟悉Python，我正在学习Spark-Scala。我想构建一个DataFrame，它的结构由以下语法描述： // Prepare training data from a list of (label, features) tuples. val training = spark.createDataFrame(Seq( (1.1, Vectors.dense(1.1, 0.1)), (0.2, Vectors.dense(1.0, -1.0)), (3.0, Vectors.dense(1.3, 1.0)), (1.0, Vectors.dense(1.2, -0.5)

浏览 6提问于2016-09-25得票数 0

1回答

运行火花-使用Gradle从Intellij中移出红移

apache-spark、apache-spark-sql

我试图使用星火红移库，并且无法操作由sqlContext.read()命令创建的数据(从redshift读取)。这是我的代码： Class.forName("com.amazon.redshift.jdbc41.Driver") val conf = new SparkConf().setAppName("Spark Application").setMaster("local[2]") val sc = new SparkContext(conf) import org.apache.spark.sql._ val sqlContext

浏览 4提问于2015-11-04得票数 1

回答已采纳

5回答

在Scala中基于字符串选择case类

scala、apache-spark

如何基于case class值选择String？我的代码是 val spark = SparkSession.builder()... val rddOfJsonStrings: RDD[String] = // some json strings as RDD val classSelector: String = ??? // could be "Foo" or "Bar", or any other String value case class Foo(foo: String) case class Bar(bar: String) if (cla

浏览 4提问于2020-06-09得票数 1

回答已采纳

1回答

在码头集装箱齐柏林飞艇运行火花时未发现lzo

hadoop、apache-spark、cloudera-cdh、apache-zeppelin

我试图在齐柏林飞艇上运行星火代码，我得到了这样的信息: java.lang.ClassNotFoundException:类com.hadoop.compression.lzo.LzoCodec未找到同样的问题与齐柏林飞艇嵌入式火花和从我自己安装的火花外壳(1.6.3) Conf : 来自debian的码头集装箱:jessie 齐柏林飞艇版本: 0.6.2 (安装自tar，而不是从源代码构建) cdh版本: 5.9.0 liblzo2-dev和hadoop-lzo安装在容器上。 SPARK_HOME和HADOOP_HOME被设置为env var，在conf/zeppeli

浏览 0提问于2016-12-30得票数 2

回答已采纳

1回答

在Try块中从scala函数返回多个数据帧

scala、dataframe、apache-spark

我在scala中有一个函数，如下所示，如果有任何问题，需要返回两个dataframe和matcherror def createDF(dataFrame: DataFrame): DataFrame Or Every[Problem] = { val (p,d) = Try({ dataFrame .groupBy($"id", $"level", $"cust_id", $"p_type_id",$"P_Type") .agg(s

浏览 9提问于2019-08-08得票数 0

2回答

Scala火花数据集更改类类型

scala、apache-spark、apache-spark-sql、apache-spark-dataset

我有一个作为MyData1模式创建的dataframe，然后我创建了一个列，以便新的dataframe遵循MyData2的模式。现在，我希望将新的dataframe返回为Dataset，但有以下错误： [info] org.apache.spark.sql.AnalysisException: cannot resolve '`hashed`' given input columns: [id, description]; [info] at org.apache.spark.sql.catalyst.analysis.package$AnalysisErrorAt.f

浏览 2提问于2020-06-04得票数 0

回答已采纳

2回答

Python Spark查询配置单元仅返回架构

python、apache-spark、hadoop、hive、pyspark

当我从Hive中选择data时，它会返回一个dataframe，但我不能访问模式以外的任何内容。 from spark import HiveContext, SQLContext hive_context = HiveContext(sc) hive_context.sql("USE myDatabase") data = hive_context.sql("SELECT * FROM myTable") data.show() 当我检查它返回的"data“类型时： <class 'pyspark.sql.dataframe.DataF

浏览 1提问于2018-04-19得票数 0

1回答

无法将RDD转换为序列

scala、apache-spark

我有一个类型为rawData的变量DataFrame。我希望获取列的所有元素，并将它们转换为Scala Seq。 val res = rawData.map(x => x(0)).toSeq 但是，我得到了以下错误： Error:(114, 40) value toSeq is not a member of org.apache.spark.rdd.RDD[Any] val res = rawData.map(x => x(0)).toSeq 所以rawData.map(x => x(0))是RDD[Any]型的。如何将其转换为Seq

浏览 3提问于2016-07-12得票数 1

回答已采纳

2回答

星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“

hadoop、apache-spark、hive、apache-spark-sql

当创建一个列值默认值为NULL的表时，我在Spark(1.6) SQL中获得了下面的错误。示例:将表测试创建为select column_a，NULL作为column_b从test_temp创建；同样的东西在Hive中工作，并创建数据类型为"void“的列。我使用空字符串而不是NULL来避免异常和新列获取字符串数据类型。是否有更好的方法使用spark在hive表中插入空值？ 2017-12-26 07:27:59 ERROR StandardImsLogger$:177 - org.apache.hadoop.hive.ql.metadata.HiveException: jav

浏览 3提问于2017-12-27得票数 0

回答已采纳

2回答

将星火DataFrame转换为spark.rdd.RDD[(Array[Integer]，Array[Integer]) ]以计算平均精度

dataframe、apache-spark、multidimensional-array、rdd、average-precision

我有一个星火DataFrame：我必须使用Scala从中计算平均精度。我想，根据文档，我们必须使用RDD而不是DataFrame。我尝试了以下几点： var llist = df.select("predicted", "actual").rdd.map(x => (x.get(0), x.get(1))).collect() // It gave Array[(Any, Any)] var df_rdd =sc.parallelize(llist) // df_rdd is org.apache.spark.rdd.RDD[(Any, An

浏览 5提问于2021-06-17得票数 0

4回答

Spark在spark数据帧where子句中指定多个逻辑条件

scala、apache-spark、apache-spark-sql

在spark scala dataframe中定义多个逻辑/关系条件时，得到下面提到的错误。但同样的事情在scala中也能正常工作 Python代码： df2=df1.where(((col('a')==col('b')) & (abs(col('c')) <= 1)) | ((col('a')==col('fin')) & ((col('b') <= 3) & (col('c') > 1)) & (col('d')

浏览 12提问于2019-08-02得票数 0

2回答

如何在spark- java项目中进行info/debug级别的spark Dataset printSchema日志记录

java、sql、scala、apache-spark、apache-spark-sql

尝试将我的spark scala项目转换为spark-java项目。我在scala中有一个日志，如下所示 import org.slf4j.Logger; import org.slf4j.LoggerFactory; class ClassName{ val logger = LoggerFactory.getLogger("ClassName") ... val dataframe1 = ....///read dataframe from text file. ... logger.debug(&

浏览 38提问于2019-04-19得票数 1

回答已采纳

2回答

Spark DataFrame对数据集为空

scala、apache-spark

从MS SQL数据库导入数据时，可能会出现空值。在Spark中，DataFrames能够处理空值。但是，当我尝试将DataFrame转换为强类型Dataset时，收到编码器错误。下面是一个简单的例子： case class optionTest(var a: Option[Int], var b: Option[Int]) object testObject { def main(args: Array[String]): Unit = { import spark.implicits._ val df = spark.sparkContext.parallelize(

浏览 2提问于2017-03-31得票数 0

1回答

未找到:在spark scala中键入MultipleTextOutputFormat

scala、hadoop、apache-spark

我需要根据键输出分区。我正在尝试使用MultipleTextOutputFormat。我找到了这个但是当我试图在spark-shell中做同样的事情时，我得到了错误。 scala> import org.apache.hadoop.io.NullWritable import org.apache.hadoop.io.NullWritable scala> import org.apache.spark._ import org.apache.spark._ scala> import org.apache.spark.SparkContext._ import or

浏览 21提问于2018-03-01得票数 0

1回答

用嵌套的用户数据类型保存星火DataFrames

apache-spark、apache-spark-sql

我想将包含自定义类的星火DataFrame作为一个列保存(作为一个拼花文件)。该类由另一个自定义类的Seq组成。为此，我为这些类中的每个类创建了一个UserDefinedType类，方法类似于VectorUDT。我可以按我的意愿使用dataframe，但不能将它保存到磁盘上，作为块(或jason) --我把它报告为一个bug，但是我的代码可能有问题。我已经实现了一个简单的例子来说明这个问题： import org.apache.spark.sql.SaveMode import org.apache.spark.{SparkConf, SparkContext} import org.apac

浏览 2提问于2015-09-17得票数 8

回答已采纳

4回答

如何在Spark中强制DataFrame求值

scala、apache-spark

有时(例如，为了测试和标记)，我想强制执行在DataFrame上定义的转换。AFAIK调用像count这样的操作并不能确保所有的Columns都是实际计算的，show可能只计算所有Rows的一个子集(参见下面的示例) 我的解决方案是使用df.write.saveAsTable将DataFrame写到HDFS，但是这会“扰乱”我的系统，我不想再保存更多的表。那么触发DataFrame求值的最佳方式是什么呢编辑：请注意，在spark开发人员列表上还有一个最近的讨论：http://apache-spark-developers-list.1001551.n3.nabble.com/Will-

浏览 62提问于2017-03-10得票数 20

回答已采纳

2回答

从Scala中检索Spark DataFrame

scala、apache-spark、apache-spark-sql

我有一个来自Scala的DataFrame输出进入其中。我正在寻找从它找回火花DataFrame。我在databricks中有一个Azure SQL连接，我使用scala进行连接。我可以连接到数据库并输出查询。它为我提供了一个以下Scala格式的Spark DataFrame，我是新手，有人能帮我找回它吗?这样我就可以将它保存为配置单元表我的scala代码的结果： outputData: Either[org.apache.spark.sql.DataFrame,Boolean] = Left([Product: string, OrderNumber: string ... 27 mo

浏览 13提问于2019-10-17得票数 0

回答已采纳

1回答

Spark 1.4.0 org.apache.spark.sql.AnalysisException:无法解决给定输入列的“概率”

java、apache-spark

我目前正在使用Spark 1.4.0，并开始使用ML pipeline framework。我运行了示例程序"ml.JavaSimpleTextClassificationPipeline"，它使用LogisticRegression。但是我想做多类分类，所以我在org.apache.spark.ml.classification包中使用了org.apache.spark.ml.classification。使用'probability'方法对模型进行了适当的训练，但是当使用上面示例中的print语句测试模型时，我得到了以下错误:不存在fit列。本专栏仅提

浏览 4提问于2015-07-17得票数 1

3回答

为什么连接失败与"java.util.concurrent.TimeoutException:期货超时后[300秒]“？

scala、apache-spark、join、apache-spark-sql

我用的是火花1.5。我有两份表格的数据： scala> libriFirstTable50Plus3DF res1: org.apache.spark.sql.DataFrame = [basket_id: string, family_id: int] scala> linkPersonItemLessThan500DF res2: org.apache.spark.sql.DataFrame = [person_id: int, family_id: int] libriFirstTable50Plus3DF有766,151记录，linkPersonItemLessThan

浏览 5提问于2016-12-13得票数 71

回答已采纳

1回答

火花:从嵌套DataFrame打印元素

scala、apache-spark、dataframe

我试图从包含嵌套值的DataFrame中打印特定元素：这是我得到的Spark SQL DataFrame： scala>result org.apache.spark.sql.DataFrame = [P1: struct<t1:tinyint,t2:tinyint,t3:smallint,t4:int>, P2:struct<k1:tinyint,k2:int>] 它包括： scala>result.take(3).foreach(println) [[15,78,60,1111111],[10,7525619]] [[15,78,60,2222222]

浏览 4提问于2015-12-02得票数 0

回答已采纳

1回答

我如何将RDD[Map[String，Any]]转换为dataframe？

dataframe、apache-spark、apache-spark-sql、rdd、databricks

我有一个RDD[MapString，Any]，我正在尝试将它转换为Dataframe。我没有可以指定Dataframe的架构。我试着做了一个rdd.toDF，但是没有帮助。它出现了一个错误，如下所示。 Exception in thread "main" java.lang.ClassNotFoundException: scala.Any at java.net.URLClassLoader.findClass(URLClassLoader.java:382) at java.lang.ClassLoader.loadClass(ClassLoader.ja

浏览 2提问于2019-11-14得票数 2

1回答

使用“发现”参数获取com.sap.spark.vora.VoraConfigurationException

sap、hana、vora

我在SLES 11 SP3上安装了HDP 2.3.4集群和3台机器，并安装了Vora1.2 终于让发现号服务开始工作了。我可以在中验证它。另外，Vora Thriftserver也不会死。这样我就可以通过第34页上的"val =(Sc)“一行。但是，当我试图创建一个表时，我会得到以下内容： com.sap.spark.vora.VoraConfigurationException: Following parameter(s) are invalid: discovery at com.sap.spark.vora.config.ParametersValidator

浏览 3提问于2016-05-13得票数 0

回答已采纳

2回答

如何在org.apache.spark.sql.execution.datasources.orc.OrcColumnVector.getLong(OrcColumnVector.java:141)“上修复"java.lang.NullPointerException”

dataframe、apache-spark、orc

我试图将dataframe中的所有列合并到一个名为value的列中。 Mycode： val df = sparkSession.sql(sql) val dfwithValue = df.withColumn("value",df.col("topic")) dfwithValue.selectExpr("CAST(value AS STRING)").show() // no error import org.apache.spark.sql.functions._ val cols = df.

浏览 1提问于2019-07-29得票数 1

回答已采纳

1回答

星火不能读取文件路径中方括号‘[]的文件？

apache-spark

环境： Azure blob存储和本地文件系统斯卡拉2.12.10/火花3.0.1 在C：\path\to\any\ file -with-brkets.csv处存在一个文件， spark.read.csv("C:\\path\\to\\any\\file-with-[brackets].csv") 结果： org.apache.spark.sql.AnalysisException: Path does not exist: file:/C:/path/to/any/file-with-[brackets].csv; at org.apache.spar

浏览 3提问于2021-08-13得票数 2

1回答

为什么create table会产生一个空的数据帧？

apache-spark、apache-spark-sql

hc.sql("create table emp12(name String)"); res13: org.apache.spark.sql.DataFrame = [] scala> res13.printSchema root 当我在Hive数据仓库中签入时，为什么数据框是空的，但是在Hive中创建了表？ hive> describe emp12; OK name string 即使我从Spark加载数据，数据也不会进入Hive表。

浏览 3提问于2018-01-13得票数 0

1回答

线程“主”java.lang.IllegalArgumentException中的异常:需求失败

scala、spark-streaming、spark-dataframe

在这里，我试图将时间戳动态地添加到数据帧中， {“行动”：“事件”、"id":1173、"lat":0.0、"lon":0.0、"rollid":55、"event":"type“、"ccd":0、"fone":"ione”、"version":"10.1“、"item":"shack"} 在上面输入的数据中，im试图用下面的代码追加时间戳 foreachRDD(rdd=> 74

浏览 1提问于2017-01-17得票数 0

1回答

如何在scala中访问和合并未来类型的多个DataFrame

scala、apache-spark、parallel-processing、apache-spark-sql、spark-streaming

我有spark scala应用程序。我正在尝试使用它内部的Futures来并行化几个独立的操作集。我在期货中调用它们，它们返回给我未来类型的DataFrame，我如何在最后合并它们，并在任何未来类型无法计算的情况下抛出错误。下面是我的代码。当我尝试在onComplete块中应用数据帧的联合时，它显示以下错误 value union is not a member of scala.concurrent.Future[(scala.concurrent.Future[org.apache.spark.sql.DataFrame], scala.concurrent.Future[org.apac

浏览 2提问于2020-01-22得票数 0

3回答

HiveContext.sql()给出运行时没有这样的方法错误

java、maven、hadoop、apache-spark、hive

嗨，我正在尝试使用Apache和Apache运行一个简单的java程序。程序编译时没有任何错误，但在运行时我得到以下错误： Exception in thread "main" java.lang.NoSuchMethodError: org.apache.spark.sql.hive.HiveContext.sql(Ljava/lang/String;)Lorg/apache/spark/sql/DataFrame; at SparkHiveExample.main(SparkHiveExample.java:13) at sun.reflect.NativeMethodAc

浏览 0提问于2017-06-01得票数 1

回答已采纳

1回答

Apache注册一个UDF返回的数据

scala、apache-spark、user-defined-functions

我有一个返回数据的UDF。就像下面的那个 scala> predict_churn(Vectors.dense(2.0,1.0,0.0,3.0,4.0,4.0,0.0,4.0,5.0,2.0)) res3: org.apache.spark.sql.DataFrame = [noprob: string, yesprob: string, pred: string] scala> predict_churn(Vectors.dense(2.0,1.0,0.0,3.0,4.0,4.0,0.0,4.0,5.0,2.0)).show +------------------+------

浏览 3提问于2016-12-20得票数 3

回答已采纳

1回答

如何使用Scala访问Spark DataFrame中每个单元格的最后两个字符以对其值进行一些计算

scala、apache-spark

我在Scala中使用Spark。在将数据加载到Spark Dataframe之后，我想要访问Dataframe的每个单元格来执行一些计算。代码如下： val spark = SparkSession .builder .master("local[4]") .config("spark.executor.memory", "8g") .config("spark.executor.cores", 4) .config("spark.task.cpus",1) .appName("Spark SQL bas

浏览 23提问于2021-09-19得票数 1

1回答

Scala中的值减去不是org.apache.spark.sql.DataFrame的一个成员

scala、apache-spark、apache-spark-sql

在Scala中，尝试使用减法时，我得到以下错误 <console>:29: error: value subtract is not a member of org.apache.spark.sql.DataFrame 但是，从下面的链接中，我可以看到它在Python中存在斯派克·斯卡拉有减法吗？如果不是的话，它的替代品是什么？我的示例代码如下所示： scala> val myDf1 = sc.parallelize(Seq(1,2,2)).toDF myDf1: org.apache.spark.sql.DataFrame = [value: int] scala

浏览 5提问于2017-06-26得票数 1

回答已采纳

1回答

在scala dataframe中将字符串列转换为十进制

scala、dataframe、casting

我有一个dataframe ( scala ) --我在笔记本中同时使用了pyspark和scala。 #pyspark spark.read.csv(output_path + '/dealer', header = True).createOrReplaceTempView('dealer_dl') %scala import org.apache.spark.sql.functions._ val df = spark.sql("select * from dealer_dl") 如何在scala dataframe中将字符串列(amou

浏览 2提问于2020-10-27得票数 0

回答已采纳

1回答

Scala星火类型不匹配找到单位，必需的rdd.RDD

mysql、scala、apache-spark、type-mismatch、training-data

我正在读取一个用scala编写的spark项目中的MySQL数据库中的表。这是我的第一周，所以我真的不太适合。当我试图逃跑的时候 val clusters = KMeans.train(parsedData, numClusters, numIterations) 我收到了一个parsedData错误，上面写着：“类型错配；找到: org.apache.spark.rdd.RDD[MapString，Any] required: org.apache.spark.rdd.RDD 我分析过的数据如下所示： val parsedData = dataframe_mysql.map(_.get

浏览 1提问于2016-05-30得票数 0

回答已采纳

1回答

火花数据的中值计算

apache-spark、apache-spark-sql

我正在使用，我想从给定的数据中计算出中位数。 SparkContext sc = new SparkContext(new SparkConf().setAppName("sql").setMaster("local")); SQLContext sql = new SQLContext(sc); //HiveContext DataFrame df =sql.read().json("test.json"); df.registerTempTable("sample

浏览 1提问于2016-10-13得票数 0

1回答

Spark2.0.2似乎并不认为"groupBy“会返回一个DataFrame

scala、apache-spark、dataframe

这有点傻，但我要从Spark1.6.1迁移到Spark2.0.2。我正在使用Databrick库，现在正在尝试使用内置的CSV DataFrameWriter。以下代码： // Get an SQLContext val sqlContext = new SQLContext(sc) import sqlContext.implicits._ var sTS = lTimestampToSummarize.toString() val sS3InputPath = "s3://measurements/" + sTS + "/

浏览 2提问于2017-06-05得票数 1

回答已采纳

1回答

如何使用StopWordsRemover来转换json对象的数据？

java、json、apache-spark

我正在使用MLlib和Spark1.5.1。输入类型必须是ArrayType( StringType )，但获得StringType。我的密码怎么了？ StopWordsRemover remover = new StopWordsRemover() .setInputCol("text") .setOutputCol("filtered"); DataFrame df = sqlContext.read().json("file:///home/ec2-use

浏览 2提问于2015-11-07得票数 1

回答已采纳

4回答

在Kafka上通过JSON消息在Spark Streaming中创建Spark DataFrame

scala、apache-spark、dataframe、apache-kafka

我正在Scala中实现Spark Streaming，我从Kafka主题中提取JSON字符串，并希望将它们加载到dataframe中。有没有一种方法可以让Spark自己从RDDString中推断出模式

浏览 0提问于2015-06-26得票数 9

2回答

Scala对象应用方法从未在星火作业中调用

scala、apache-spark、apache-spark-sql、user-defined-functions

我正试图在星火应用程序中将我的逻辑解耦。我为UDF定义、和UDF声明创建了单独的类。 UDF声明： import OPXUdfDefinitions._ object OPXUdf extends Serializable { def apply(argsInput: Map[String, String]) = { OPXUdfDefinitions(argsInput) } val myUDF = udf(myDef _) } UDF定义： object OPXUdfDefinitions extends Serializable{ private var ar

浏览 2提问于2019-05-07得票数 0

3回答

Spark 1.6: java.lang.IllegalArgumentException: spark.sql.execution.id已设置

scala、apache-spark、apache-spark-sql、spark-dataframe

我使用的是spark 1.6，当我运行以下代码时遇到了上面的问题： // Imports import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SaveMode import scala.concurrent.ExecutionContext.Implicits.global import java.util.Properties import scala.concurrent.Future // Se

浏览 2提问于2016-01-11得票数 16

3回答

通过Spark读取保存在文件夹中的所有拼图文件

scala、apache-spark、apache-spark-sql

我有一个包含拼图文件的文件夹。如下所示： scala> val df = sc.parallelize(List(1,2,3,4)).toDF() df: org.apache.spark.sql.DataFrame = [value: int] scala> df.write.parquet("/tmp/test/df/1.parquet") scala> val df = sc.parallelize(List(5,6,7,8)).toDF() df: org.apache.spark.sql.DataFrame = [value: int] sca

浏览 0提问于2017-03-27得票数 13

回答已采纳

1回答

尝试对Spark数据帧进行计数时出现Keyerror

apache-spark、pyspark

我有一个包含以下示例条目的spark数据帧。当我尝试计算数据帧中的行数时，我得到了一个Keyerror。有人能告诉我为什么会出现这个错误吗？下面是展开的data bricks堆栈跟踪，它显示存在Keyerror。 --------------------------------------------------------------------------- Py4JJavaError Traceback (most recent call last) <ipython-input-42-c5195177

浏览 0提问于2016-06-04得票数 1

1回答

Spark DataFrame嵌套结构是否仅供选择？

apache-spark、apache-spark-sql

我有一个包含一些数据的json文件，我可以从中创建DataFrame，我感兴趣的特定部分的模式如下所示： val json: DataFrame = sqlc.load("entities_with_address2.json", "json") root |-- attributes: struct (nullable = true) | |-- Address2: array (nullable = true) | | |-- value: struct (nullable = true) | | | |-- Zi

浏览 1提问于2015-05-28得票数 23

回答已采纳

1回答

升级到Spark2.0 dataframe.map

apache-spark、elasticsearch-hadoop

我正在将一些Spark1.6代码更新为2.0.1，并且我正在使用map遇到一些问题。我在这样的问题上看到了其他问题，比如，但是我没有能够让这些技术发挥作用，在下面的场景中，它们看起来很可笑。 val df = spark.sqlContext.read.parquet(inputFile) df: org.apache.spark.sql.DataFrame = [device_id: string, hour: string ... 9 more fields] val deviceAggDF = df.select("device_id").distinct devic

浏览 4提问于2016-11-04得票数 0

回答已采纳

2回答

Bash脚本未捕获sbt命令返回错误

bash、sbt

在我们的bash脚本中，我们运行sbt命令。我想捕捉一个错误，以防sbt失败，但又不知道如何做。在谷歌搜索之后，我尝试了以下两种方法：方法1： sbt ${assemblyCmd} |tee ${TARGET}/assembly.log if [ "$?" -eq 0 ]; then echo "Build jar successfully" else echo "Failed to build jar" exit 1 fi 方法2 if sbt ${assemblyCmd} |tee ${TARGET}/assembly.

浏览 39提问于2019-04-12得票数 1

回答已采纳

2回答

火花放电中RDD到DF的不完全转换

python、apache-spark、pyspark

使用PySpark 1.6.3，我试图将RDD转换为Dataframe。这是在齐柏林飞艇笔记本上运行的测试代码。感兴趣的是rdd_ret。 >>> from pyspark.sql import Row >>> rdd_ret.count() 9301 >>> rddofrows = rdd_ret.map(lambda x: Row(**x)) >>> things = rddofrows.take(10000) >>> len(things) 9301 >>> [type(x) fo

浏览 0提问于2018-06-21得票数 2

1回答

Spark dataframe筛选器最小值(列)失败

scala、dataframe、apache-spark

我正在使用hadoop 3.0.0和spark 2.2.0中的以下scala代码处理数据帧。BAQ是ID列，AAA是日期YYMMDD的字符串列。 scala> val dtfAbnoFirs=dtfAbno.filter("AAA>='20201201' and BAQ<>'0'"). | groupBy("BAQ").agg("AAA"->"min"); dtfAbnoFirs: org.apache.spark.sql.DataFrame = [BA

浏览 34提问于2021-04-08得票数 0

回答已采纳

1回答

scala星星之火UDF ClassCastException :不能将WrappedArray$ofRef转换为[Lscala.Tuple2 ]

scala、apache-spark、user-defined-functions

因此，我执行必要的进口等 import org.apache.spark.sql.functions.udf import org.apache.spark.sql.types._ import spark.implicits._ 然后定义一些latlong点 val london = (1.0, 1.0) val suburbia = (2.0, 2.0) val southampton = (3.0, 3.0) val york = (4.0, 4.0) 然后，我创建了一个这样的星火Dataframe，并检查它是否工作： val exampleDF = Seq((List(lond

浏览 3提问于2021-02-15得票数 3

回答已采纳

1回答

迭代的列并更新指定的值

scala、apache-spark、hive、apache-spark-sql

为了迭代从Hive表创建的Spark列并更新所有所需的列值，我尝试了以下代码。 import org.apache.spark.sql.{DataFrame} import org.apache.spark.sql.functions._ import org.apache.spark.sql.functions.udf val a: DataFrame = spark.sql(s"select * from default.table_a") val column_names: Array[String] = a.columns val required

浏览 0提问于2018-05-06得票数 0

回答已采纳