如果有在加载阶段拥有'maxRecordsPerFile‘的好方法，就会产生火花

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、

我已经按存储在s3上的空间列(四键)数据进行了分区。假设将150个分区中的5000个文件加载到我的spark应用程序中时，我希望将数据分解为15,000个分区，但我希望保留已存在的分区。例如，通常我现在每个分区有200mb，所以我想将这些分区分解到50mb，对于已经少于50mb的分区，我希望保持原样。当然，这方面有很多工作要做，但可能会有一些优雅的解决方案，比如Spark在保存阶段： preExportRdd.toD

浏览 48提问于2020-03-25得票数 1

1回答

Apache编写器partitionBy导致OOM

、、、

使用一些JSON辅助方法对此数据进行转换。完成后，有几个列的dataframe是可用的。除了日期(YYYY)之外，还有其他列，原始数据也仍然可用。在写作中，我执行一个partitionByRange("date“、"col1”、"col2")、sortWithinPartitions("date“、"col1")和一个col1我的小型星火库集群(然而，在写作的时候，总是有一个oom。我的</e

浏览 1提问于2022-05-21得票数 0

1回答

在星火应用程序中，最优阶段数是多少？

在火花作业中是否有经验法则或最佳实践？你什么时候考虑把工作分解成小块？我发现较小的工作更易于分析和优化，但另一方面，在每个作业之间加载/提取数据是有代价的。

浏览 0提问于2021-01-01得票数 0

回答已采纳

2回答

控制并行执行

、

Haskell提供了一个par组合器，它将一个“火花”排队，以便与当前线程并行进行可能的评估。它还提供了一个pseq组合器，强制按特定顺序计算纯代码。Haskell似乎没有提供一种方法来产生几个火花，然后等待它们全部完成。使用显式并发来实现这一点是非常微不足道的，但如果使用纯火花，这似乎是不可能的。在某种程度上，这可能是因为设计的火花用例。它们似乎是为投机性评估而设计的。也就是说

浏览 3提问于2012-08-06得票数 12

回答已采纳

5回答

申请、工作、阶段和任务的概念是什么？

我的理解对吗？任务:这是一个单元操作。每个任务一个转换。

浏览 3提问于2017-02-16得票数 73

3回答

设计:从两种文件格式之一加载数据的方法？

、

假设我有个班主任：{ int Age;我需要从一个纯文本文件中加载一个人的列表。文本文件可以是两种格式之一。我想要一个方法，比如LoadFromFile(string )，它将检测文件格式，2)适当解析文件类型，3)返回Person列表。快速而肮脏的解决方案是有一个方法LoadFromFile，在这里我读取文件的头，我可以确定它是哪种文件类型，然后，保持文件打开，打开类型并适当地读取它。另一方面，它是两种不同<e

浏览 0提问于2011-07-23得票数 4

回答已采纳

2回答

如何在Apache Pig中处理空的或丢失的输入文件？

、

我们的工作流程使用AWS弹性map reduce集群来运行一系列Pig作业，以将大量数据操作到聚合报告中。不幸的是，输入数据可能不一致，并且可能导致没有输入文件或0字节文件被提供给流水线，甚至由流水线的某些阶段产生。在LOAD语句中，如果Pig找不到任何输入文件，或者任何输入文件都是0字节，那么Pig就会非常失败。有什么好方法可以解决这个问题(希望在Pig配置或脚本或Hadoop集群配置中，而不是编写自定义加

浏览 3提问于2011-04-21得票数 6

回答已采纳

1回答

有效利用SailsJS中的关联种群

在应用程序开发的早期阶段，关联汽车群体是很吸引人的。一旦相关模型产生大量相关记录，api调用就会受到严重的性能影响。SailsJS提供了一种全局切换的方法。module.exports.blueprints.populate = true / false; 理想的应用程序是全局禁用此选项，并按需加载相关模型，这是可能的吗(基本用例是Laravel如何使用急切加载<

浏览 3提问于2015-07-18得票数 1

1回答

为什么斯派克会选择在一个节点上完成所有的工作？

、、

我有困难的火花作业，大约一半的时间，将选择处理所有的数据在一个单一的节点，然后耗尽内存和死亡。集群的使用似乎不影响我<em

浏览 1提问于2019-01-28得票数 8

2回答

RTF求职林特

、、

有没有人知道RTF文件的linter？我正在为文字处理器编写一个简单的RTF导出工具。我已经到了将生成的文件加载到OpenOffice中并且似乎可以工作的阶段-只是我刚刚发现，如果我在OpenOffice中编辑它，保存它，然后再将它加载回OpenOffice中，它就会神秘地发生变化。我的假设是我的样式表和list表布局不正确，在OpenOffice中产生了奇怪<

浏览 3提问于2011-05-30得票数 15

2回答

淡出并卸载带有React的加载屏幕组件。

、

我正努力用淡出一个加载屏幕，然后卸载它。目前还没有react-spring标签，如果有人可以创建一个，我认为这将是有帮助的。

浏览 0提问于2018-06-18得票数 2

回答已采纳

1回答

发生onStop时完全终止活动

、

根据活动生命周期onCreate在第一阶段发生，在我的应用程序中，我在onCreate中执行一些重要的代码。我希望一旦调用了onStop方法，应用程序就会自毁，这样在下一次启动时，它就会从onCreate开始。如果有用的话，我的应用程序只有一个活动。(我之所以需要这样做，是因为在onResume中复制必要的代码会产生错误)

浏览 0提问于2016-07-26得票数 0

1回答

我如何等待某些东西不是空的，然后运行函数？

、、、

因此，目前这个函数highlight在ngOnInit上被调用，但是放入DOM中的文本需要一秒钟左右的时间才能写入DOM。我试过几种不同的方法，但都没有用。如果有人有

浏览 1提问于2018-07-30得票数 2

1回答

将元素追加到VoltRb中的页中

、、、

我试图通过opal浏览器将一个元素添加到Volt项目中的一个页面中，如下所示： require 'browser'end不幸的是，我收到了一个错误： (an

浏览 2提问于2015-06-22得票数 1

回答已采纳

1回答

如何分析spark应用程序以检查应用程序在每个阶段所花费的时间

、、

我正在尝试对我的一个spark作业运行性能测试，该作业将数据加载到内存中，然后对数据执行spark-sql操作，最后将结果返回给用户。我想知道作业在每个阶段需要多少时间:即spark作业将数据加载到内存所需的时间，以及作业完成其执行所需的时间。有没有什么好的分析工具可以用来做这个。或者，如果有任何其他方法来获得这些数据。请注意，我是Spark的新手，所以请原谅任何不合逻辑

浏览 0提问于2016-05-09得票数 0

1回答

错误与第一()步中的火花

、

data=sc.textFile("fileToRead.csv") data.count()data.first()有人能告诉我我在哪里做错了吗？Py4JJavaError Traceback (most recent call last)

浏览 1提问于2016-05-20得票数 1

回答已采纳

1回答

一个应用程序可以拥有多少SparkSessions？

、、

我已经发现，随着星火运行，表的大小(通过连接)增长，火花执行器最终将耗尽内存，整个系统崩溃。但是，通过实验，我意识到，如果我将问题分解成更小的部分，编写临时结果到单元表，并停止/启动Spark会话(并触发上下文)，那么系统的资源就会被释放。我能够使用这种方法连接1,000多个列。但是我找不到任何文档来理解这是否被认为是一个好的实践(我知道您不应该一次获得多个会话)。大多数系统在开始时获取会话，最后关闭会话。我还可以将应用程序

浏览 3提问于2017-12-08得票数 9

回答已采纳

2回答

keras验证之字形原因

、

我正在训练一个神经网络，并得到关于损失和验证损失的结果：这些是200个时期，批量大小为16,500个训练样本和200个验证样本。正如你所看到的，在大约20个时期之后，验证损失开始做一个非常夸张的Z字形。我试图增加验证样本的数量，但这只会增加之字形，并使其更加夸张。我在寻找另一种方法来改善它。你知道哪个是“之字形”的原因吗?我怎样才能最小化它？

浏览 0提问于2019-07-29得票数 1

1回答

火花的洗牌排序合并连接。一个DataFrame是桶状的。斯派克会利用这个机会吗？

我记得在使用RDD时，如果一个键值RDD (rdd1)有一个已知的分区，那么使用不同的、不分区的键值RDD (rdd2)执行一个连接就会提高性能。这是因为1)只有rdd2的数据需要在网络上传输，2) rdd2的每个元素只需要传输到一个节点，而不是所有节点，方法是将rdd1的密钥划分到rdd2的密钥上。该示例试图演示如何从联接操作中消除Exchange阶段，因此，在连接之前，两个Da

浏览 2提问于2020-08-06得票数 0

回答已采纳

1回答

使用svn作为汞主分支的镜像存储库

、、

我想要设置一个SVN存储库，它将充当我的主要汞存储库的镜像，是否有一种方法可以自动完成此操作。能让它两全其美吗？因此，如果有人把东西推到mercurial上的主要开发分支，它就会被提交到SVN主干，如果有人向SVN主干提交什么东西，它就会被推送到mercurial主分支。能办到吗？编辑:，我想避免让我所有的变化多端的分支被提交到主干，而只承诺我的主要hg分支被提交给SVN。这样，我们仍然可以拥有m

浏览 4提问于2012-01-18得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云