spark scala中的合并_Spark Scala -带合并的滚动窗口_无法合并Scala Spark中的两个DataFrames - 腾讯云开发者社区

、、

/spark/sql/SQLQuerySuite.scala因此，让我们进行手动合并，然后添加它们： meld sql/catalyst/src/main&

浏览 3提问于2014-08-04得票数 0

回答已采纳

1回答

Spark中区分大小写的拼图模式合并

、

我正在试着用Spark加载和分析一些镶木地板文件。我使用schemaMerge加载文件，因为较新的文件有一些额外的列。此外，一些文件的列名是小写的，而其他文件的列名是大写的。integer,我遇到了一个关于ParquetFileFormat类的inferSchema方法的问题。模式合并被委托给spark sql的StructType merge方法

浏览 23提问于2019-07-31得票数 4

回答已采纳

1回答

星火卡桑德拉用区分大小写的名字写UDT失败

、、、

当使用区分大小写的字段名时，火花连接器写入失败时出现java.lang.IllegalArgumentException: udtId is not a field defined in this我需要卡桑德拉表中的字段来维护案件。所以我用引号来创建它们。my_keyspace.my_table ( "someCol" text,); 我<

浏览 7提问于2020-09-14得票数 2

回答已采纳

2回答

在加载SparkOutOfMemoryError桶时使用s3

、、、、

在代码中，合并用于加载数据和获取SparkOutOfMemoryError.The当前代码，这些代码使用了多个项目，并且看到了许多推荐的重新分区解决方案，它对我起了作用。即使它没有记录，合并也不起作用。有没有其他的方法来解决这个问题而不改变为重新划分？.compute(ZippedPartitionsRDD.scala:89) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:(

浏览 8提问于2020-06-11得票数 2

2回答

星星之火:如何将List<RDD>与RDD结合

、、

我对spark和scala语言非常陌生，我希望将列表中的所有RDDs合并如下(List<RDD> to RDD)： }.distinct() val ret = SparkCommon.sc.parallelize(data).reduce(_ ++ _)

浏览 6提问于2015-05-25得票数 8

回答已采纳

1回答

来自sbt scala的google dataproc上的星星之火-sql

、

使用集群，我的sbt构建的程序集jar可以通过SparkContext访问Cassandra。然而，当我试图通过sqlContext访问时，我会得到远程集群上找不到的spark类--尽管我认为dataproc集群应该为spark提供服务。$$anonfun$fromJavaDriverRow$1.apply$mcVI$sp(CassandraSQLRow.scala:50) at scala.collection.immutable.Range.fore

浏览 5提问于2015-11-04得票数 2

回答已采纳

2回答

Elasticsearch支持scala 2.12的spark 2.4.2

、、

我无法在maven repo中找到任何ES 6.7.1支持spark 2.4.2和scala 2.12的jar，只有jar支持scala 2.11和2.10。></dependency> 对于我的应用程序，我们使用的是spark 2.4.2，它只支持Scala2.12版本。下面是使用“ElasticSearch-Spark<

浏览 0提问于2019-09-03得票数 3

回答已采纳

1回答

如何在scala中访问和合并未来类型的多个DataFrame

、、、、

我有spark scala应用程序。我正在尝试使用它内部的Futures来并行化几个独立的操作集。我在期货中调用它们，它们返回给我未来类型的DataFrame，我如何在最后合并它们，并在任何未来类型无法计算的情况下抛出错误。下面是我的代码。当我尝试在onComplete块中应用数据帧的联合时，它显示以下错误 value union is not a member of scala.

浏览 2提问于2020-01-22得票数 0

2回答

如何在org.apache.spark.sql.execution.datasources.orc.OrcColumnVector.getLong(OrcColumnVector.java:141)“上修复

、、

我试图将dataframe中的所有列合并到一个名为value的列中。:636) at org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.write:99) at org.apache.spark.scheduler

浏览 1提问于2019-07-29得票数 1

回答已采纳

1回答

声明类型为Edge Graphx的空数组

、、、

我正在从文件中读取数据来创建图形的边缘。我已经声明了一个数组，并一个一个地在其中添加边。我不需要用虚拟值声明额外的边，而是声明一个空数组，如下所示：edgeArray = edgeArray<：org.apache.spark.graphx.Edge_ [org.apache.spark.graphx.Edge_ >：(Long，Long，Object)，需要:org.apache

浏览 0提问于2018-05-05得票数 0

回答已采纳

1回答

Apache火花MLLib -运行带IDF向量的KMeans . Java堆空间

、、、、

无论我使用的并行化程度如何(通过合并函数)，KMeans.train总是在下面返回一个OutOfMemory异常。对如何解决这个问题有什么想法吗？$mcD$sp(SparseVector.scala:48)at org.apache.spark.

浏览 0提问于2014-10-19得票数 4

1回答

如何使用内置的spark* 2.3.2构建zeppelin 0.8.0*

、

我希望在内置spark 2.3.2的情况下构建zeppelin 0.8.0，并在相同版本的spark上运行它，而不是在没有设置SPARK_HOME的情况下在本地运行，这样我就不需要在zeppelin节点上安装SPARK。我已经尝试过文档https://zeppelin.apache.org/docs/0.8.0/setup/basics/how_to_build.html中给出<em

浏览 20提问于2019-01-16得票数 0

1回答

在PySpark中合并具有不同列的Parquet文件

、、、

我试图通过使用PySpark合并位于HDFS中的多个拼花文件。... 8 more |-- MONTH: string (nullable = true)我希望最终输出是指定位置中的一个合并文件PySpark是我唯一要做的选择。我正在尝试运行一

浏览 1提问于2019-02-18得票数 0

1回答

Apache Spark* Dataframe在使用groupBy时如何关闭部分聚合？*

、、、、

在Spark 3.1.1中，我在DataFrame上做了一个没有distinct的groupBy。我尝试使用以下命令关闭部分聚合 spark.conf.set("spark.sql.aggregate.partialaggregate.skip.enabled", "true") 然后运行查询 df.groupBy("method").agg(sum("request_body_len")) Spark最终仍

浏览 51提问于2021-09-23得票数 3

回答已采纳

1回答

Scala & Spark & sql合并行以生成HTML

、、、

我正在学习Scala & Spark，我有一个带有ID的"tablaTemporal“。在Scala中，我想逐行合并文本，如下所示： SELECT '<a href=https://www.myPage.com/visitID_' || _id || '>VisitID</a>'，我需要合并多行结果中的文本(在<

浏览 1提问于2018-02-07得票数 0

1回答

不能将星火UnionRDD转换为HasOffsetRanges

、、、、

因为我接收到来自服务器不同的StreamingContext.union topics.So的消息，所以我需要使用streams.But方法来合并streams.But，我在尝试将streams.Butat com.qingqing.spark.util.KafkaManager.updateZKOffsets(KafkaManager.scala:75) at com.qingqing.spark.BinlogConsumerorg.apache.spark.stre

浏览 3提问于2017-06-24得票数 0

2回答

星星之火:如果DataFrame有一个模式，DataFrame如何成为Dataset[Row]？

、、、

声称Spark中的DataFrame等同于Dataset[Row]，但是显示DataFrame有一个模式。以博客文章中关于将RDD转换为DataFrame的例子:如果DataFrame与Dataset[Row]相同，那么将RDD转换为DataFrame应该是一样简单的。sparkSession.createDataFrame(rddStringToRowRDD,dfschema)显然，dataframe实际上是

浏览 0提问于2016-10-07得票数 6

回答已采纳

1回答

使用Dataframes处理星火中的数据差(Deltas)

、、、、

我在hdfs中有一个拼花文件作为数据的初始加载。接下来的所有parquets都是这些数据集，它们每天都会更改初始负载(按时间顺序排列)。这些是我的三角洲。我想阅读所有或几个拼花文件，以获得某一特定日期的后期数据。三角洲也可以包含新的记录。:/path/spezific_data/20180102/") 现在，我必须合并这些数据集(“更新”，我知道火花RDDs或dataframes不能进行更新)，并加载另一个合并。将所有数

浏览 0提问于2019-11-22得票数 0

1回答