在分流之前在spark中进行缓存_在创建fpdf之前缓存页面_在Spark中对行进行分组 - 腾讯云开发者社区

我在20个表中有大约1000万行数据，我每月处理一次。为此，我将这些表复制到一个新的模式(数据库)中，然后进行更改，这样更新就不会针对被查询的表运行。为了使新的数据成为现实，我尝试了：更改应用程序中编码的数据库名，以指向运行一个大型重命名表语句的新数据，该语句向活动表添加前缀，例如旧表，并将新表移动到活动数据库中。使用这两种方法，服务器负载从大约0.1增加到50以上，然后逐渐恢复正常。如果可能的话，我想避免这种情况。查询缓存被关闭，我已经尝试刷新表并在更改后立即重新启动MySQL。数据只从我的站点读取(而不是更新)，所以我想可能是Linux (我们使用read 5.3)缓冲了5GB

浏览 0提问于2009-07-09得票数 0

回答已采纳

2回答

如何在Java中并行运行spark程序

、、、、

所以我有一个java应用程序，它有spark maven依赖项，在运行它的时候，它会在运行它的主机上启动spark server。服务器实例有36个核心。我正在指定SparkSession实例，其中我并行地提到了内核的数量和其他配置属性，但是当我使用htop查看统计数据时，它似乎并没有使用所有的内核，而只使用了1个内核。 SparkSession spark = SparkSession .builder() .master("local") .appName("my

浏览 6提问于2018-10-06得票数 0

1回答

火花-1.6.0+：spark.shuffle.memoryFraction被否决-什么时候会发生泄漏？

、、

基于Spark的最新版本，已经发生了很大的变化。 stopped ：SparkUI已经停止显示spill是否发生了(&到底发生了多少)。在我的一个实验中，我试图模拟这样一种情况，即在执行程序上的洗牌写入将超过“JVM Heap Size” * spark.shuffle.memoryFraction * spark.shuffle.safetyFraction (基于)，但没有看到任何相关的磁盘溢出日志。有办法获取这些信息吗？ PS：如果这听起来像是理论问题，请原谅。

浏览 1提问于2016-05-06得票数 2

回答已采纳

1回答

SnappyData : java.lang.OutOfMemoryError:超过GC开销限制

、、、、

我在S3上有1.2GB的orc数据，并且我试图用相同的方法执行以下操作： 1)缓存snappy集群snappydata 0.9上的数据 2)在缓存的数据集上执行groupby查询 3)与Spark2.0.0的性能比较。我使用的是64 GB/8核心计算机，Snappy集群的配置如下所示： $ cat locators localhost $cat leads localhost -heap-size=4096m -spark.executor.cores=1 $cat servers localhost -heap-size=6144m localhost -heap-size=6144m

浏览 3提问于2017-10-04得票数 1

回答已采纳

1回答

在Spark中，对象和变量是如何保存在内存中和不同执行程序之间的？

、、

在Spark中，对象和变量是如何保存在内存中和不同执行程序之间的？我正在使用：火花3.0.0 斯卡拉2.12 我正在用一个自定义的流源编写一个Spark结构化的流作业。在执行spark查询之前，我创建了一组元数据，这些元数据是由我的星火流作业使用的我试图了解这些元数据是如何跨不同的执行器保存在内存中的？示例代码： case class JobConfig(fieldName: String, displayName: String, castTo: String) val jobConfigs:List[JobConfig] = build(); //build t

浏览 3提问于2020-11-29得票数 0

回答已采纳

1回答

使用jdbc触发执行

、、、、

在Spark dataframe中，假设我从oracle获取数据，如下所示。查询会完全在oracle中发生吗？假设查询很大。那么，这对oracle来说是一种开销吗？更好的方法是读取单独的dataframe中的每个过滤表数据，并使用Spark SQL或dataframe连接它，以便在spark中进行完整的连接？你能帮个忙吗？ df = sqlContext.read.format('jdbc').options( url="jdbc:mysql://foo.com:1111", dbtable="(SELECT * FROM abc,bcd....

浏览 8提问于2020-09-17得票数 0

2回答

java.util.ConcurrentModificationException: KafkaConsumer对于多线程访问是不安全的。

、、、、

我有一个Scala Spark Streaming应用程序，它从3个不同的Kafka producers接收来自同一主题的数据。星火流应用程序在主机0.0.0.179的机器上，卡夫卡服务器在主机0.0.0.178上，Kafka producers在机器上，0.0.0.180，0.0.0.181，0.0.0.182上。当我试图运行Spark Streaming应用程序时出错线程“主”org.apache.spark.SparkException中的异常:由于阶段失败而中止作业:阶段19.0中的任务0失败1次，最近的失败:阶段19.0中丢失的任务0.0 (TID 19，(本地主机)：org

浏览 3提问于2018-01-15得票数 2

回答已采纳

1回答

按时间戳列过滤Pyspark DataFrame时出现问题(IndexError:列表索引超出范围)

、

我在一个Pyspark数据帧中有一个时间戳列，我正在尝试过滤它，并且我一直得到一个索引超出范围的错误。这似乎是一个非常简单的任务，而且我以前在其他多个数据帧上也做过，所以我不理解这个问题。也没有null/None值... 当我将它转换为Pandas DataFrame并在那里执行操作时，它也可以很好地工作。我很困惑 df.show() +-------------------+--------------+ | time| data | +-------------------+--------------+ |2019-04-15 11:04:0

浏览 45提问于2019-04-25得票数 0

1回答

Spark独立模式:Worker未正确停止

、、

在spark (0.7.0)中停止整个集群时 $SPARK_HOME/bin/stop-all.sh 并不是所有的工作进程都被正确停止。更具体地说，如果我想用以下命令重新启动集群 $SPARK_HOME/bin/start-all.sh 我得到了： host1: starting spark.deploy.worker.Worker, logging to [...] host3: starting spark.deploy.worker.Worker, logging to [...] host2: starting spark.deploy.worker.Worker, logging t

浏览 0提问于2013-06-18得票数 2

回答已采纳

1回答

在SparkML转换器中缓存数据集

、、、

我试图在管道中使用Spark变压器。此管道中的一项任务是使用join键将传入的数据集连接到现有的引用数据。引用数据很大，但可以在join键上预分区.如果我想多次使用这个转换器，但只想将引用数据加载到内存中一次，那么在转换器的生命周期中，可以缓存引用数据吗？(可以假设引用数据在某个地方)

浏览 1提问于2018-07-19得票数 0

2回答

无法使用允许模式保留已损坏的行

、、、

我已经获得了一个csv文件，我需要在该文件上执行某些清理任务。在清理之前，我正在进行一些模式验证检查。下面是我的密码。 # schema for the input data def get_input_schema(): return StructType([StructField("Group ID", StringType(), True), StructField("Start Date", DateType(), True),

浏览 4提问于2021-03-02得票数 2

回答已采纳

2回答

如果在数据加载后在执行过程中删除源数据，如何保留加载到pyspark中的转换数据帧？

、、

我正在执行以下步骤，在此过程中，虽然对数据使用了cache()，但我正在丢失转换后的数据。步骤-1 :从CASSANDRA:读取数据 data = spark_session.read \ .format('org.apache.spark.sql.cassandra') \ .options(table=table, keyspace=keyspace) \ .load() data_cached = data.cache() 步骤2:从AWS S3桶读取数据，比方说S3_data_path s3_fu

浏览 2提问于2021-02-26得票数 0

1回答

在星火中，正在计算RDD任务中的记录吗？

、、

在Hadoop中，当我使用输入格式阅读器(作业级别的日志)报告读取了多少条记录时，它还显示字节计数等。在Spark中，当我使用相同的输入格式读取器时，我得到的不是这些指标。所以我想我应该使用inputformat阅读器来填充rdd，然后在rdd (rdd的大小)中发布记录的数量。我知道rdd.count()返回rdd的大小。但是，我不清楚使用count()的成本是多少？例如：它是一个分布式函数吗？每个分区是否会报告其计数和计数，并进行汇总和报告？还是把所有的rdd都带进司机里面算了？在执行count()之后，rdd是否仍然保留在内存中，还是必须显式地缓存它？是否有更好

浏览 1提问于2016-04-19得票数 10

回答已采纳

2回答

apache-缓存()/持久化()的火花内存消耗

、、

当我尝试缓存()或持久化(MEMORY_ONLY_SER())我的RDD时，火花集群挂起。它工作得很好，计算结果在7分钟左右。如果我不使用cache()。我有6个c3.x大型EC2实例(4个核，每个7.5GBRAM)，总共提供了24个核心和37.7GB。我在master上使用以下命令运行我的应用程序： ./uber-offline.jar:/root/spark/assembly/target/scala-2.10/spark-assembly_2.10-0.9.0-incubating-hadoop1.0.4.jar SPARK_MEM=5g MEMORY_FRACTION="0

浏览 2提问于2014-03-29得票数 3

回答已采纳

1回答

Apache火花中的持久化选项

、、

嗨，我是Apache的新手，我正在使用java中的查询蜂箱表。这是我的密码 SparkConf sparkConf = new SparkConf().setAppName("Hive").setMaster("local"); JavaSparkContext ctx = new JavaSparkContext(sparkConf); HiveContext sqlContext = new org.apache.spark.sql.hive.HiveContext(ctx.sc()); org.apache.spa

浏览 0提问于2015-07-27得票数 0

回答已采纳

1回答

组装Spark1.2.0时未解决的依赖关系

我试图在ubuntu上构建Spark1.2.0，但是我遇到了依赖性问题。我基本上下载了文件，解压缩文件夹并运行sbt/sbt/程序集 sbt = 0.13.6 scala = 2.10.4 org.apache.spark#spark-network-common_2.10;1.2.0:的sbt.ResolveException:未解决的依赖关系:org.apache.spark-network-sbt.ResolveException_2.10；1.2.0:配置在“测试”中不公开。这是org.apache.spark#spark-network-shuffle_2.10;

浏览 4提问于2015-01-22得票数 6

1回答

使用Spark BigQuery连接器查询BigQuery视图时未启用缓存

、、、、

我正在使用Spark BigQuery连接器从Dataproc集群中查询表和视图，我看到的是，当请求未使用缓存的视图时，连接器会为每个读取的视图创建一个新的临时表： df = spark.read.format('bigquery').option('table', view_name).option('viewsEnabled', 'true').load() 当我从一个表中读取数据时，情况并非如此，这里使用的是缓存： df = spark.read.format('bigquery').option('

浏览 0提问于2021-01-13得票数 2

1回答

Rdd持久性如何支持容错

、

我想了解spark的rdd持久性是如何帮助容错的。假设我的集群中有3个节点，即N1、N2、N3。我以Rdd1->Rdd2->Rdd3的形式执行spark任务(转换映射)。我已经持久化了rdd2(在rdd3计数上它是第一次成功)。在持久化方面，假设它有6个分区，我的每个节点都有2个分区，在持久化方面，它们在RAM(内存中)中。现在，在第二次调用Rdd3.count()时，N3宕机了，在这种情况下，Spark如何计算Rdd3计数？根据文档：“Spark的缓存是容错的--如果RDD的任何分区丢失，它将使用最初创建它的转换自动重新计算。” 现在，当N3失败时，spark将尝试从Rdd

浏览 0提问于2018-01-31得票数 1

3回答

Spark是否支持对拼图文件进行分区修剪

、、、

我正在处理一个大型数据集，该数据集由两列组成-- plant_name和tag_id。第二个tag_id - tag_id有200000个唯一值，我主要通过特定的partition值访问数据。如果我使用以下Spark命令： sqlContext.setConf("spark.sql.hive.metastorePartitionPruning", "true") sqlContext.setConf("spark.sql.parquet.filterPushdown", "true") val df = sqlContext.sq

浏览 2提问于2016-05-12得票数 19

1回答

持久化比非持久化调用慢

、

我的设置是:星火2.1在一个3节点纱线集群，160 GB，48 vcore。启动动态分配。spark.executor.memory=6G，spark.executor.cores=6 首先，我正在读取蜂窝表: orders (329 am )和lineitems (1.43GB)，并执行左外部联接。接下来，我根据连接的数据集(比如var line1 = joinedDf.filter("linenumber=1")、var line2 = joinedDf.filter("l_linenumber=2")等)应用了7种不同的过滤条件。因为我对已连接的数据集进行

浏览 0提问于2017-09-07得票数 1

回答已采纳

2回答

apache spark内部的批处理API调用？

我是Apache Spark的初学者，我有以下任务：我正在读取数据源中的记录-在spark转换中-需要通过调用外部they服务的数据来增强，然后才能进一步处理它们。 webservice会在一定程度上接受并行调用，但一次只允许发送几百条记录。此外，它相当慢，所以尽可能多地批量处理和并行请求在这里肯定是有帮助的。有没有办法用spark以一种合理的方式做到这一点？我想到了读取记录，将它们预处理到另一个数据源，然后一次读取"API-Queue“数据源500个记录(如果可能，使用多个进程)，并将这些记录写入下一个数据源，然后使用这个结果数据源进行最终转换。唯一需要遵守这些奇怪限制的地方

浏览 1提问于2016-02-03得票数 12

回答已采纳

1回答

与多个源和操作相结合的火花缓存

、

我读了很多文章、博客和堆叠溢出的文章，但我仍然无法理解save如何在我的特定用例中缓存数据集，其中涉及大量的转换，但只有很少人读取和保存操作。下面是伪代码中的用例 val ds1 = spark.loadFromDatabase("table_1") // Action (1) val ds2 = spark.loadFromDatabase("table_2") // Action (2) val ds3 = spark.loadFromDatabase("table_3") // Action (3) val intermediateDs1

浏览 4提问于2022-04-21得票数 0

1回答

点亮纱线部署vs普通部署vs嵌入式部署

在最新的Ignite发行版(2.4)中，Ignite的嵌入式部署已被弃用，我指的是最初的论坛链接。 1)然而，文档中并没有明确说明纱线部署与嵌入式相比有什么优势。如果这可以解释的话。YARN部署难道不会有与嵌入式类似的缺点吗？ 2)我的用例涉及在Spark中计算时使用Ignite创建分布式缓存。在不同/相同的集群中部署Ignite会比在我的spark集群中部署YARN更有意义吗？

浏览 1提问于2018-04-01得票数 0

1回答

我们可以复制星火的.cache()行为，但可以通过保存拼花文件来复制吗？

、、、

假设我有4块火花指令，表示为Dataframe A、B、C和D。 dataframe具有依赖关系： C要求进行A&B D要求做B 现在我想同时保存C和D输出。为了不重新计算B两次，我使用 B = B.cache() 也就是说，如果我首先保存C，我有A&B并行运行，然后是C，然后当我保存D时，只需要计算D，这就足够好的调度了。现在的问题是:，如果我没有缓存B，而是像这样将它保存在地板上 B.write.mode("overwrite").parquet(CacheLocation) B = spark.read.parquet(CacheLoca

浏览 2提问于2019-06-14得票数 2

1回答

火花洗牌阶段堆空间发生了什么？

基于火花配置页面的信息，我发现在从Spark1.5切换到Netty之后，堆外缓冲区用于减少混叠和缓存块传输过程中的gc。那么，我的问题是，在今天的星火中，在洗牌阶段堆空间会发生什么呢？

浏览 1提问于2017-04-11得票数 2

回答已采纳

2回答

如何提高csv到拼花文件格式的性能？

、、、

我有一个大的数据集，我需要转换从csv到拼板格式，使用吡火花。大约有500 is的数据散落在数千个csv文件中。我最初的实现很简单..。 spark = SparkSession.builder \ .master("local") \ .appName("test") \ .getOrCreate() df = spark.read.csv(input_files, header=True, inferSchema=True) df.repartition(1).write.mode('overwrite').par

浏览 2提问于2021-01-28得票数 1

2回答

正确使用.cache()和.unpersist()

、、、

我有一个脚本，多个数据帧的联合和插入会导致CSV文件。我需要优化它的执行速度。我最近学习了缓存和取消持久化。这是我所做的： val grc = Tables.getGRC(spark) // This is my first df. val grc_cache = grc.cache() var sigma = Tables.getSIGMA(spark, use_database_sigma(0)) // Second DF var sigma_cache = sigma.cache() for(i <- 1 until use_database_si

浏览 43提问于2019-09-06得票数 0

回答已采纳

2回答

为什么火花sql查询的执行时间在第一次和第二次执行之间是不同的？

、

我正在使用spark在parquet数据源上运行一些聚合查询。我的拼花数据源包括一个列: int、时间戳、location、counter_1 long、counter_2 long、.、counter_48。总数据大小约为887 MB。我的火花版本是2.4.0。我在一台机器上运行一个主程序和一个从机(4个核，16G内存)。使用spark，我运行了spark命令： spark.time(spark.sql("SELECT location, sum(counter_1)+sum(counter_5)+sum(counter_10)+sum(counter_15)+sum(cou

浏览 0提问于2019-04-06得票数 3

2回答

火花数据处理中的操作错误

、、

我是星火框架的新手，在我的本地机器上做一些小任务来练习。我的任务是:我在S3中存储了365个压缩的csv文件，其中包含每天的日志。我想要建一个全年的数据集。我的方法是从桶中检索密钥，构建每日数据格式，将它们统一为月份数据，对它们进行同样的操作，并作为回报获得全年数据。它适用于我检索到的用于测试的一些样本数据。在构建DataFrames之前，我对文件进行解压缩，将未压缩的csv文件写入磁盘，并使用它创建DataFrame。问题是:如果我从磁盘中删除csv文件(使其成为临时文件)，在创建dataframe之后，我无法对dataframe执行任何操作(例如year_df.count())。抛出S

浏览 0提问于2017-01-09得票数 1

回答已采纳

2回答

ASP.NET MVC视图引擎解析序列

、、

我创建了一个简单的ASP.NET MVC1.0版应用程序。我有一个ProductController，它有一个动作索引。在视图中，我在Product子文件夹下创建了一个相应的Index.aspx。然后，我引用了Spark dll并在相同的Product视图文件夹下创建了Index.spark。Application_Start看起来像这样 protected void Application_Start() { RegisterRoutes(RouteTable.Routes); ViewEngines.Engines.Clear();

浏览 1提问于2010-03-08得票数 10

回答已采纳

2回答

火花缓存RDD不会出现在星火历史记录WebUI -存储中

、、

我在CDH-5.4.4中使用CDH-5.4.4。我使用rdd.cache()函数，但它在Storage tab中没有显示在Spark History WebUI上。有人有同样的问题吗？怎么修呢？

浏览 2提问于2015-07-30得票数 2

回答已采纳

1回答

火花垃圾收集调优-减少内存缓存使用spark.memory.fraction -为什么？

、、

我读了一本书“垃圾收集调优的权威傻笑”，书上说：如果在任务完成之前多次调用完整的垃圾回收，这意味着没有足够的内存可用于执行任务，因此您应该减少Spark用于缓存(即spark.memory.fraction )的内存量还有星火的文件上说，如果OldGen已接近满，则通过降低spark.memory.fraction来减少用于缓存的内存量；与其减慢任务执行速度()，不如缓存更少的对象。问题--为什么我们应该减少spark.memory.fraction以减少缓存的内存？难道我们不应该减少spark.memory.storageFraction --即对驱逐免疫的存储内存的数量，用sp

浏览 2提问于2021-11-17得票数 0

1回答

中的缓存表

、、

星火官方网站上写道： Spark可以通过调用sqlContext.cacheTable("tableName")或dataFrame.cache()来使用内存中的列格式来缓存表。然后，Spark将只扫描所需的列，并将自动调整压缩，以尽量减少内存使用和GC压力。您可以调用sqlContext.uncacheTable("tableName")从内存中删除表。使用内存内列格式的缓存表真正意味着什么？把整张桌子放进记忆里？正如我们所知道的那样，缓存也是惰性的，表在查询的第一个操作之后被缓存。如果选择不同的操作或查询，会对缓存的表产生什么影响吗？我搜索了几次这

浏览 3提问于2016-02-15得票数 5

2回答

将PySpark Dataframe导出到Azure数据湖将永远使用

、、

当输入数据的大小(约6GB)很小时，下面的代码在Mac上的PySpark 2.4独立版本(Python3.7)上运行得非常好。但是，当我在HDInsight集群(HDI4.0，即Python3.5，PySpark 2.4 )上运行代码时，有4个工作节点，每个节点有64核和432 GB内存，两个报头节点，每个节点都有4核和28 GB内存，第二代数据池)，有更大的输入数据(169 GB)，最后一步，即向数据池写入数据，要花费很长时间(我在执行24小时后将其杀死)。考虑到HDInsight在云计算社区中不受欢迎，我只能参考那些抱怨将数据写入S3时速度较低的帖子。有些人建议重新划分数据集，我这样做了，

浏览 4提问于2019-12-07得票数 0

回答已采纳

1回答

SEO URL和在一个域上重写规则强制

、、、

我有一个重写规则，强制用户从example.com转到www.example.com。这是SEO的原因，所以我没有重复的网站和内容在我的谷歌结果。 # BEGIN Spark AddDefaultCharset UTF-8 <IfModule mod_rewrite.c> RewriteEngine On RewriteCond %{HTTP:Authorization} ^(.*) RewriteRule .* - [e=HTTP_AUTHORIZATION:%1] RewriteCond %{REQUEST_FILENAME} !-d RewriteRule ^(.*)/

浏览 2提问于2021-11-20得票数 1

回答已采纳

1回答

星星之火: Dataframe序列化

、、、、

我有两个关于星火串行化的问题，我可以简单地通过谷歌找不到答案。如何打印当前使用的序列化程序的名称；我想知道spark.serializer是Java还是Kryo。我有下面的代码，它应该使用Kryo序列化；用于dataframe的内存大小变为21 same，这是在没有序列化的情况下缓存时的四分之一；但是当我删除Kryo配置时，大小保持相同的21 same。这是否意味着Kryo从一开始就没有被使用过？可能是因为dataframe中的记录只是行，Java和Kryo序列化都是相同的大小吗？ val conf =新的SparkSession.builder.master("local

浏览 1提问于2017-12-26得票数 5

1回答

IntelliJ Idea 2016.2.4无法解析符号spark_2.11

、、

我在Apache-Spark2.11的build.sbt文件中创建了下面的依赖项。 name := "Project1" version := "1.0" scalaVersion := "2.11.8" libraryDependencies += "org.apache.spark" % "spark-core_2.11" % "2.0.1" libraryDependencies ++= Seq( "org.scala-lang" % "scala-compi

浏览 3提问于2016-10-22得票数 1

1回答

Apache缓存在衍生数据上工作吗？

、、

我正在使用Apache进行一些工作，但我不太确定dataframe "frame3“是否会使用来自"frame1”的缓存数据。从概念上描述场景的代码如下： frame1 = spark.read.csv("hdfs:....") frame1.cache() frame2 = frame1.select("name", "price").filter("price > 20") frame2.show() #Data is being cached so this action takes longer fr

浏览 1提问于2022-05-16得票数 0

2回答

Spark文件格式转义\n正在加载CSV

、、

我正在使用spark读取CSV管道分隔的数据文件。这是有资格引用的。一个文本块中有一个/n，它会导致读取损坏。我不明白的是，它是引用限定文本，所以它肯定应该跳过它！？行本身是CR+LN分隔的。不管怎么说，它不是。我该如何解决这个问题呢？我可以在extract上清除它们，但对我来说似乎不是那么优雅。这就是我用来加载数据的代码 val sch = spark.table("db.mytable").schema val df = spark.read .format("csv") .schema(sch) .option("header

浏览 2提问于2018-08-10得票数 0

回答已采纳

1回答

databricks群集上的2G csv文件在20分钟后无法获取与计数(1)一样少的内容

、、

该文件是一个2.6Gig csv文件，有30列，不相信任何超过50个左右的字符。 I spark.read这个文件，没有错误我createOrReplaceTempView并选择了前1000个，没有错误。然后从tempView中选择count(1)。 20分钟后，我取消了计数(1)，因为我仍然没有得到行数。在似乎是5分钟的时候，我可以看到49兆的阅读量和大约250万条记录，但Spark UI似乎一直停留在这一点，直到被取消。我是这个生产级集群中唯一一个拥有8个节点和256G内存的集群。你觉得我应该追求什么。如果我至少可以得到一个计数，我可能会觉得我可以在保存到带有分区的增量后继续。

浏览 1提问于2021-05-12得票数 0

2回答

理解火花中的持久性

、、

我对星火相当陌生，我在这里玩了一会儿，对此我有些怀疑：- 下面是我正在试用的代码：- import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.Function; import org.apache.spark.api.java.function.Function2; /** * Computes an appr

浏览 1提问于2017-11-08得票数 3

回答已采纳

1回答

星火搜索空间数据分区剪枝

、、

我有大量的地理标记行-数亿行-我需要使用Spark查询所有点的距离计算。SQL使用基本的摩擦学和一个haversine距离函数可以正常工作。返回的结果集中，一个纬度点在+/-米之间的纬度与经度的纬度相同；按距离DESC排序，我做一个top-n来查找最近的点。到目前一切尚好。数据是全局的，因此将所有点存储在内存中是效率低下的。我的问题：通过将数据划分为纬度范围和经度子范围，使用分区剪枝可以实现多大的好处？这将使搜索区域减少到1-3纬度分区，以及< 10经度子分区。这是一个少得多的数据，但我不知道Spark优化器是否可以修剪分区和子分区。我也不清楚在缓存的RDD上进行分区剪枝是否特别

浏览 1提问于2015-11-01得票数 0

1回答

如何删除Spark DAG中的冗余交换

、、

我有两个中等大小的表(tableA和tableB)，在这两个表中，我在同一个连接键上两次连接tableB和tableA。 ... from tableA A left join tableB B1 on A.col1 = B1.col1 left join tableB B2 on A.col2 = B2.col1 我看到tableB在spark DAG中被交换了两次。由于交换是在同一个连接密钥(col1)上进行的，我很好奇第二次交换是否可以避免？

浏览 0提问于2020-07-01得票数 1

1回答

确保变量始终缓存在Spark中，并且永远不会被逐出

、、

我有一个不可序列化的对象，我需要这个对象一直100%地缓存在内存中。然而，由于spark job由于负载增加而需要更多的执行内存，它试图将缓存的对象逐出到磁盘中，并且由于对象不可序列化，我将得到"task not serializable“异常。有没有办法强制spark将我的对象一直保存在缓存中？

浏览 6提问于2017-02-22得票数 0

1回答

如何对数据进行物理分区以避免Spark SQL连接中的混洗

我需要连接5个中等大小的表(每个表大约80 gb )和大约800 gb的大型输入数据。所有数据都驻留在配置单元表中。我使用Spark SQL 1.6.1来实现这一点。Join需要40分钟的时间才能完成--num-executors 20 --driver-memory 40g --executor-memory 65g --executor-cores 6。所有联接都是排序合并外部联接。也看到了大量的洗牌发生。我将hive中的所有表存储到相同数量的存储桶中，以便所有表中的相似键在一开始加载数据本身时都将转到相同的spark分区。但spark似乎并不理解bucketing。有没有其他方法可以

浏览 3提问于2016-10-25得票数 1

2回答

如何管理Spark Streaming中动态变化的全局缓存

、

我想在Spark Streaming中创建一个全局缓存。此缓存将包含24小时的元素。由于缓存将由所有的执行器更新，我们如何维护缓存的全局状态，其中缓存是动态更新和刷新的。我是否可以创建缓存在MEMORY_AND_DISK中的全局RDD，并跨每个Spark Streaming批处理进行刷新。

浏览 2提问于2017-06-16得票数 1

1回答

Dataset#persist()是终端操作吗？

、

当org.apache.spark.sql.Dataset#persist()被调用时，spark是否真的缓存了Dataset？或者，当在Dataset上调用某些终端操作(如count)时，它将被延迟缓存。

浏览 11提问于2017-03-01得票数 1

2回答

在Spark中对可变集合建模

、

我们现有的应用程序在启动时将大约一千万行从数据库加载到对象集合中。该集合存储在GigaSpaces缓存中。当应用程序接收到新消息时，将检查缓存以查看该消息的条目是否已经存在。如果不是，则根据消息中的数据将新实体添加到缓存中。(同时，新实体被持久化到数据库中)。我们正在研究使用Spark和Scala重新设计应用程序的可行性和附加值。问题是，在Spark中建模的正确方式是什么。我的第一个想法是从数据库加载到Spark RDD中。查找现有条目显然很简单。但是，因为RDD是不可变的，所以向缓存添加新条目需要进行转换。考虑到大量的数据集，我的假设是这将不会有很好的表现。另一个想法是将缓存创建为一

浏览 2提问于2016-01-25得票数 2

2回答

慢慢来加入火星雨，尝试重新划分

、、

我试图离开Spark 3上的join 2表，其中有17M行(事件)和400M行(详细信息)。有一个1+15x64核心实例的EMR集群。(r6g.16xlarge尝试使用类似的r5a)源文件是从S3加载的无分区的拼花。这是我用来加入的代码： join = ( broadcast(events).join( details, [ details["a"] == events["a2"], (unix_timestamp(events["date"]) - uni

浏览 8提问于2021-08-23得票数 3

回答已采纳

1回答

在Amazon上使用Spark时如何分配驱动程序内存和执行器内存

、、、、

我使用AWSEMR5.2实例m4.2x和10个节点运行我的Spark应用程序，使用Spark2.0.2。我使用了maximizeResourceAllocation=true的属性。我在spark-defaults.conf中看到了以下属性： spark.executor.instances 10 spark.executor.cores 16 spark.driver.memory 22342M spark.executor.memory 21527M spark.default.parallelism

浏览 2提问于2017-01-25得票数 2