如何在scala spark中持久化我们从dataFrame动态生成的列表

、

def getAnimalName(dataFrame: DataFrame): List[String] = { } 我基本上会调用这个函数2次，以获取不同目的的列表。我只想知道是否有一种方法可以将列表保留在内存中，并且我们不必一次又一次地调用相同<e

浏览 29提问于2020-05-31得票数 2

回答已采纳

1回答

Spark :基于s3文件中的字段动态生成查询

、、

Approach：考虑到模式少的特性，由于每次运行时s3文件中的字段数可能不同，只需添加/删除几个字段，这就需要在SQL中每一次进行手动更改，因此我计划探索Spark/Scala，这样我们就可以直接从s3中读取数据，并根据字段动态生成SQL。查询:如何在scala/spark/dataframe</

浏览 7提问于2020-03-19得票数 1

5回答

如何检查是否缓存了我的RDD或dataframe？

我已经创建了一个dataframe，比如df1。我通过使用df1.cache()来缓存它。如何检查这是否已缓存？还有一种方法，使我能够看到所有缓存的RDD或数据文件。

浏览 9提问于2015-09-07得票数 22

回答已采纳

3回答

createOrReplaceTempView在Spark中是如何工作的？

、、

我是Spark和Spark SQL的新手。如果我们将对象的RDD注册为表，spark会将所有数据保存在内存中吗？

浏览 87提问于2017-05-17得票数 74

回答已采纳

2回答

scala.MatchError:在Dataframes

、、、、

在其中，我试图将一个Java bean RDD JavaRDD<Message>转换为Dataframe，它有许多不同数据类型的字段(整数、字符串、列表、地图、双数据)。但是当我在执行我的代码的时候。:244) at org.apache.spark.sql.SQLContext.getSch

浏览 6提问于2015-06-12得票数 0

回答已采纳

2回答

如何向DataFrame动态添加列？

、、

我正在尝试从字符串的Seq中动态地向DataFrame添加列。下面是一个示例:源dataframe如下：|id | A | B | C | D ||1 |||3 |b | c | a | d |我还有一个字符串Seq，它包含我想要添加的列的<

浏览 4提问于2020-01-20得票数 2

回答已采纳

1回答

如何在scala中访问和合并未来类型的多个DataFrame

、、、、

我有spark scala应用程序。我正在尝试使用它内部的Futures来并行化几个独立的操作集。我在期货中调用它们，它们返回给我未来类型的DataFrame，我如何在最后合并它们，并在任何未来类型无法计算的情况下抛出错误。下面是我的代码。当我尝试在onComplete块中应用数据帧的联合时，它显示以下错误 value union is not a member

浏览 2提问于2020-01-22得票数 0

2回答

将星星之火DataFrame写入表

、、

我正在尝试理解名为DataFrame的火花saveAsTable API方法。我有以下问题如何检查一个表是Hive表还是非Hive表？(我是大数据处理

浏览 8提问于2020-12-22得票数 2

1回答

在任务节点上使用自动标号时，内存中的数据会发生什么情况？

、、、

我正在使用AWS EMR和Spark/Scala。假设我有一个大的DataFrame，我选择持久化。持久化()方法可能很懒，但假设我在使用.show()之后立即激活它df.show()如果我执行了一个df.select，在任务节点被终止之后

浏览 0提问于2019-08-01得票数 0

回答已采纳

2回答

将OFF_HEAP存储与Spark* 1.4.0和Tachyon 0.6.4配合使用时出现错误*

、、

我尝试使用spark 1.4.0和tachyon 0.6.4上的堆存储来持久化我的RDD，如下所示：a.persist: Block rdd_10_3 not found at org.apache.spark.storage.BlockManager.getBlockData(BlockManager.scala$ofRef.map(ArrayOps

浏览 96提问于2015-05-07得票数 70

3回答

字符串列包含通过spark* scala进行精确匹配的单词*

、、

我有两个数据帧，第一个数据帧包含实际数据(从CSV文件读取)，第二个数据帧包含一个具有多个关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方)：数据帧-2：我想要的输出：我在这里使用spark scala。我想要一个与dataframe-1中的dataframe-2完全匹配的单词。我使用了like、rlike

浏览 1提问于2021-02-12得票数 0

2回答

天蓝色火花SSD

、

根据官方的，使用本机火花缓存，即使是磁盘持久化，也不会利用本地SSD。我怀疑，为了从中受益，我们需要在持久化RDD时使用OFF_HEAP选项。但是如何配置它，使其使用本地SDD (在/mnt下挂载为SDB1 )和用于内存中的内容的Alluxio？我知道开关--conf spark

浏览 1提问于2019-07-23得票数 2

1回答

数据过滤给NullPointerException

、、、、

在Spark1.6.0中，我有一个包含职务描述的列的数据框架，如：bartenderemployee...我使用以下方法从该列检索唯一值列表： val jobs = people.select("Description").distinct().rdd.map(r => r(0).asInstanceOf[peoplewithjob = people.filter($&q

浏览 2提问于2016-02-21得票数 5

回答已采纳

1回答

Spark中多个数据帧上的大量转换

、

我有一个基于spark的转换引擎，它是元数据驱动的。我在Scala MapString DataFrame中对内存中存储的多个数据帧执行一组转换。我遇到一种情况，我使用84种转换生成数据帧，包括(withColumn、Join、union等)。在这些之后，输出数据帧被用作另一组转换的输入。如果我在前84次转换后写入中间转换结果，然后将数据帧从输出路径加载到Map中。下一组转换可以正

浏览 11提问于2020-06-27得票数 0

3回答

如何将火花结构流DataFrame插入到Hive外部表/位置？

、、

一个关于星火结构流与HIVE表集成的查询。 val spark =SparkSession.builder().appName("StatsAnalyzer") .config", "hdfs://pp/apps/hive/warehouse/ab.db") .getOrCre

浏览 0提问于2018-12-28得票数 13

3回答

并行化/避免spark中的foreach循环

、、、

我写了一个类，它得到一个DataFrame，在它上面做一些计算，并可以导出结果。数据帧由密钥列表生成。that is saved to HDFS我认为在Scala列表中的foreach是不平行的，那么我如何避免在这里使用foreach呢？DataFrames的计算可以并行进行，因为计算结果不是下一个DataFrame的输入-我如何实现这一点？null 编辑2:好吧，我不

浏览 1提问于2016-06-28得票数 12

3回答

我正在尝试合并一些脚本；让我们只读一次DB，而不是每个脚本从Hive读取相同的数据。因此，转移到只读一次；处理多个模型。我持久化了数据帧并在每次聚合后重新划分输出；但我需要它更快，如果有什么不同的话，那就是这些东西减慢了它的速度。我们每天都有20TB+的数据，所以我认为如果数据要被多次读取，那么持久化数据会让事情变得更快，但事实并非如此。此外，我有很多工作发生在相同的数据，如下图所示。我们可以并行

浏览 0提问于2020-04-23得票数 0

1回答

使用Apache Spark的代理键

、、

我们有基于事件的框架，我们使用Kafka和Spark streaming，最后将数据持久化到数据库中。我来自数据仓库世界。我想使用为我们正在使用的一些维度数据生成的代理键。在spark world中，它通常是如何实现的？surrogate key是现代大数据架构中的相关主题吗？我在哪里可以获得关于从</

浏览 4提问于2018-11-13得票数 1

1回答

Spark如何处理超出其容量的内存

假设我的Spark集群有100G内存，在Spark计算过程中，会生成更多大小为200G的数据(新数据帧、缓存)。在这种情况下，Spark会将部分数据存储在磁盘上，还是只会使用OOM

浏览 235提问于2020-07-14得票数 0

回答已采纳

1回答

如何从Scala自定义对象列表创建数据帧

、、、

我们可以使用以下命令从Java对象列表创建一个dataframe：对于Java，Spark可以直接从类推断模式，在本例中是Example.class。有没有办法在Scala中做同样的事情？

浏览 0提问于2018-04-11得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark :基于s3文件中的字段动态生成查询

如何检查是否缓存了我的RDD或dataframe？

createOrReplaceTempView在Spark中是如何工作的？

scala.MatchError:在Dataframes

如何向DataFrame动态添加列？

如何在scala中访问和合并未来类型的多个DataFrame

将星星之火DataFrame写入表

在任务节点上使用自动标号时，内存中的数据会发生什么情况？

将OFF_HEAP存储与Spark* 1.4.0和Tachyon 0.6.4配合使用时出现错误*

字符串列包含通过spark* scala进行精确匹配的单词*

天蓝色火花SSD

数据过滤给NullPointerException

Spark中多个数据帧上的大量转换

如何将火花结构流DataFrame插入到Hive外部表/位置？

并行化/避免spark中的foreach循环

PySpark数据帧性能调整

使用Apache Spark的代理键

Spark如何处理超出其容量的内存

如何从Scala自定义对象列表创建数据帧

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐