与spark中的所有其他任务相比，最后2/3的任务需要大量的时间

、、、、

我正在尝试对评论做感伤的分析。程序在Spark上成功运行，但我面临的问题是在70个分区中，68个分区的时间比最后2个分区的时间缩短了约20%。我已经检查了我的数据在所有分区上是否均匀分布，甚至还检查了不同的样本数据。另外，我使用persist(StorageLevel.MEMORY_AND_DISK_SER)为所有数据帧运行了代码，并在不再<em

浏览 29提问于2016-09-26得票数 1

1回答

YARN申请的资源处于非活动状态，其他作业会使用吗？

、、

我运行了一个spark任务，在纱线上分配了大量的资源，而且这个任务持续了很长时间。最后，spark作业的任务只是活动的一个核心和两个核心。我想知道不活跃的资源是不是可以被其他spark工作或mr工作使用。或者只完成第一个spark作业，资源就可以被其他作业使用。

浏览 12提问于2021-08-09得票数 0

回答已采纳

2回答

火花分区中的数据何时真正实现？

、

(func3).count() 我有一个由2个节点组成的集群，每个节点上有8个核心。我观察到每个线程上至少有一个任务(通常只有一个任务)(总共16个任务)，比其他任务花费的时间要长得多。例如，在一次运行中，与在一秒钟或更短时间内运行的其他任务相比，这些任

浏览 7提问于2020-01-20得票数 1

回答已采纳

1回答

Python多处理工具vs Py(Spark)

、、、、

我意识到如果我用pyspark划分我的数据，我不能再把每个分区当作一个独立的pandas数据框架，需要学习如何使用pyspark.sql的行/列函数来操作，并修改很多现有的代码，再加上我一定会触发mllib库，而不能充分利用更成熟的scikit-learn包。那么，如果我可以使用多处理工具进行集群计算并并行现有数据帧上的任务，那么我为什么还需要使用Spark呢？

浏览 2提问于2017-06-15得票数 6

1回答

Spark中几个任务中的重新分区数据瓶颈

、

我有一个简单的spark工作，它做以下工作 val dfIn = spark.read.parquet(PATH_IN)dfOut.write.mode(SaveMode.Append).partitionBy(col1, col2, col3).parquet(PATH_OUT) 我注意到这份工作的表现有很大的恶化检查Spark

浏览 31提问于2021-11-04得票数 2

1回答

输入流数据在任务之间分布不均匀

、、、

我已经编写了从s3读取数据的火花流作业。>>> stateDstream3 = stateDstream2 .mapToPair(s -> s); 我将spark.default.parallelism设置为6。我看到第一个和最后一个maptopair阶段已经足够快了。第二个和第三个map

浏览 1提问于2016-03-30得票数 0

1回答

不使用所有可用的CPU

、

查询：这工作一开始一切都很好。随着~190 k任务的进行，火花将逐渐从使用2800 CPU下降到两位数(通常是在20个CPU左右的底部)。这使得最后190 k任务的完成时间比之前的800 k要

浏览 1提问于2020-12-10得票数 0

回答已采纳

1回答

洗牌最后一项任务花了太多时间才能完成

、、

我有大约80 it的数据，一切都很顺利，直到最后的洗牌任务出现，所有的任务都在30分钟内完成，但是最后的任务需要超过2个小时才能完成。Joins：(左连接)连接3个表，其中一个表相对较小(2MB)数据，对于那个设置广播变量，即使我删除了第3个表，它也没有解决我的问题。下面是配置的参数。spark</e

浏览 8提问于2022-03-02得票数 1

回答已采纳

3回答

Adobe Premiere脚本

、、

我想自动化的Adobe Premiere Pro CS6上的任务序列，这是所有重复的任务，而手动做消耗了大量的时间，:)，从:导入视频文件，图像文件，文档文件->使序列->添加文件与预定义的高度，宽度->插入脚本->分析它们->添加标记在元数据上的特定字->，最后导出它。我想让所有这些任务自动

浏览 12提问于2012-08-08得票数 3

3回答

在spark中确定分区/任务执行的优先级

、、、

我有一份关于倾斜数据的工作。需要根据列对数据进行分区。我想告诉spark首先开始处理最大的分区，这样我就可以更有效地使用可用资源。原因如下:我总共有10000个分区，其中9999个分区只需要1分钟处理，1个分区需要10分钟处理。如果我先得到较重的分区，我可以在11分钟内完成这项工作，如果我最后得到它，则需要18分钟。有没有办法区分分区的优先级？这对你来说有意义吗？

浏览 2提问于2018-08-17得票数 6

4回答

Spark任务似乎分配得不太好

、

我正在运行一个Spark作业，似乎任务分配得不太好(见附件)。有没有办法让任务分布得更均匀呢？谢谢! 

浏览 1提问于2015-06-17得票数 6

2回答

投机性处决Mapreduce/火花

、、

我知道Hadoop/Spark框架将检测出故障或缓慢的机器，并在不同的机器上执行相同的任务。如何(基于什么基础)框架识别运行缓慢的机器。有什么统计数据可供框架决定吗？有人能在这里亮点光吗？

浏览 8提问于2017-07-23得票数 1

回答已采纳

4回答

Spark写拼花木板到S3最后一个任务永远要用

、、

我正在编写一个从DataFrame到S3的拼图文件。当我查看Spark UI时，我可以看到除了一个快速完成的编写阶段(例如199/200)之外的所有任务。最后一项任务似乎永远需要花费很长时间才能完成，而且经常会因为超出executor内存限制而失败。我想知道在最后一个任务中发生了什么。如何优化？谢谢。

浏览 3提问于2015-08-05得票数 10

2回答

集项目管理、日常事务和日常工作于一体的软件。

、、

最近，我一直在寻找一个软件来更好地组织我的生活。我发现了大量的项目管理软件，todolist软件和其他东西。我真正需要的是一个处理我每天需要做的三种事情的软件：我例行公事中的任务因此，我

浏览 0提问于2014-04-15得票数 7

1回答

火花:减速器的理想数目是多少？

、

我的数据大约是300克。如果我使用Hadoop在它上执行一个约简作业，那么180个减少插槽就可以了，并且队列中没有任务等待。如果我使用同样的减少槽数的星火，它会在洗牌阶段被卡住，而如果我使用更多的插槽，比如说4000，这不会发生，但这将以低效率结束。有什么我可以做的吗，比如调优参数，以便我可以使用与hadoop相同的插槽？顺便说一下，我的集群有15个节点，每个节点有12个核心。

浏览 2提问于2016-08-24得票数 1

1回答

火花任务反序列化时间

、

我正在运行一个Spark作业，当查看主UI时，任务反序列化时间可能需要12秒，计算时间为2秒。让我给出一些背景：3-我必须为Postgres使用JDBC驱动程

浏览 2提问于2015-07-16得票数 2

回答已采纳

1回答

SQLite查询优化:任务选择重叠给定时间窗口

、、、、

我的应用程序中有一个SQLite DB，用于存储时态任务数据(带有“开始”和“结束”时间戳的事件)。我需要优化与给定时间窗口重叠的任务的查询(包括部分或完全重叠窗口的任务)。请注意，对所有完全适合窗口的任务的简单查询非常快，但是由于我也需要获得部分和完全重叠的任务</

浏览 0提问于2018-03-28得票数 1

回答已采纳

2回答

Memcacheq与cronjob的内存消耗

、、、

与crontab执行后台任务的方式相比，在php上编写一个守护进程(侦听/处理队列)是否会消耗大量内存？我在一个引擎下的一台服务器上有大约600家商店。店主运行的一些任务需要很多时间，所以分叉它们是合理的。把一个任务放到cron中效果很好，我只是不喜欢长达59秒的启动延迟(cron的限制)。所以我想试试排队系统。我只

浏览 0提问于2012-02-06得票数 0

回答已采纳

1回答

我们有在WCF基础设施上运行的服务。WCF服务客户端是.net窗口表单应用程序。对于一些时间和资源密集型任务，我们正在尝试将WCF服务与Apache Spark集成。WCF服务应该调用Apache Spark来执行任务。Apache Spark支持java而不是C#。我们需要一些方法来从WCF服务调用Spark来进行数据处理。我们正在尝试以插入式山墙方式添加spark。如果在不久的

浏览 0提问于2015-12-23得票数 2

1回答

是否可以在火花阶段重新排序任务？

、、、

在我的dataframe上运行它的计算时，我在Spark中看到(我还做了一些测试以确保是这样的)，任务index对应于分区id，与上面通过mapPartitionsWithIndex获得的id完全相同。因此，任务的执行顺序是增加给定执行器上分区的id。我看到分区中的行数与任务的执行时间之间存在明显的<

浏览 2提问于2019-07-26得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

YARN申请的资源处于非活动状态，其他作业会使用吗？

火花分区中的数据何时真正实现？

Python多处理工具vs Py(Spark)

Spark中几个任务中的重新分区数据瓶颈

输入流数据在任务之间分布不均匀

不使用所有可用的CPU

洗牌最后一项任务花了太多时间才能完成

Adobe Premiere脚本

在spark中确定分区/任务执行的优先级

Spark任务似乎分配得不太好

投机性处决Mapreduce/火花

Spark写拼花木板到S3最后一个任务永远要用

集项目管理、日常事务和日常工作于一体的软件。

火花:减速器的理想数目是多少？

火花任务反序列化时间

SQLite查询优化:任务选择重叠给定时间窗口

Memcacheq与cronjob的内存消耗

WCF与Spark的集成

是否可以在火花阶段重新排序任务？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐