val partitionsColumns = "idnum,monthnum"
val partitionsColumnsList = partitionsColumns.split(",").toList
val loc = "/data/omega/published/invoice"
val df = sqlContext.read.parquet(loc)
val windowFunction = Window.partitionBy (partitionsColumnsList:_*).orderBy(df("effecti
使用Spark SQL的窗口函数,我需要按多列分区来运行我的数据查询,如下所示:
val w = Window.partitionBy($"a").partitionBy($"b").rangeBetween(-100, 0)
我目前还没有测试环境(正在进行设置),但作为一个快速的问题,这是目前支持作为Spark SQL的窗口函数的一部分,或者这不会工作?
我正在尝试使用Spark 2.1创建一个包含多个分区的orc文件。我的代码看起来像这样:df.write.option("compression", "zlib").partitionBy("a, b").orc("s3a://bucket/")
其中a和b是我想要分区的两列。
我被org.apache.spark.sql.AnalysisException: Partition column "a, b" not found in schema卡住了!
我在partitionBy中尝试了几种组合,比如'a
我想创建一个带有分区的hive表。
该表的模式为:
val schema = StructType(StructField(name,StringType,true),StructField(age,IntegerType,true))
我可以使用Spark-SQL来做这件事,使用:
val query = "CREATE TABLE some_new_table (name string, age integer) USING org.apache.spark.sql.parquet OPTIONS (path '<some_path>') PARTITI
我试图运行一些火花作业,但通常执行者会耗尽内存:
17/02/06 19:12:02 WARN TaskSetManager: Lost task 10.0 in stage 476.3 (TID 133250, 10.0.0.10): ExecutorLostFailure (executor 12 exited caused by one of the running tasks) Reason: Container marked as failed: container_1486378087852_0006_01_000019 on host: 10.0.0.10. Exit statu
我有一个用Scala编写的Spark流媒体应用程序,在CDH中运行。应用程序从Kafka读取数据并将数据写入HDFS。在将数据写入HDFS之前,我执行了partitionBy,因此数据是分区写入的。每个分区在写入时都会得到3个文件。我还使用coalesce来控制数据的分区数量。我的预期是,由coalesce命令设置的分区数量将设置HDFS中输出目录中的文件数量,然而,尽管由coalesce命令设置了分区数量,文件数量始终是3。我尝试使用3个执行器和6个执行器运行,但每个分区中的文件数量仍然是3个。
这就是我将数据写入HDFS的方式:
//Some code
val ssc = new Stre
我在Kubernetes集群上运行Spark。在对具有多个分区的数据进行重新分区时,强制每个分区只能有一个文件,而我的pod却被逐出。 错误如下: The node was low on resource: ephemeral-storage. Container sosreport-spark-cluster-opendatahub-w was using 56291400Ki, which exceeds its request of 0. 我的Spark配置是: def create_spark_config(spark_cluster, executor_memory='16