火花读取分区avro比指向精确位置慢得多

文章/答案/技术大牛

发布

1回答

、、、

我正在尝试读取分区的Avro数据，该数据是根据年、月和日进行分区的，这似乎比直接指向路径要慢得多。在物理计划中，我可以看到分区筛选器正在传递，因此它不会扫描整个目录集，但它仍然非常慢。例如，像这样读取分区的数据 profitLossPath="abfss://raw@"+datalakename+".dfs.core.windows.net/

浏览 13提问于2020-06-23得票数 1

回答已采纳

2回答

使用火花红移插入红移

、、

但通过连接器的火花红移，它需要大约7分钟。有任何建议来改善使用火花红移的时间吗？

浏览 0提问于2018-02-07得票数 3

回答已采纳

3回答

星火SQL数据存储生命周期

、、、

我在中读取了一个包含数十亿条记录的蜂巢表，这导致了高磁盘利用率导致作业失败，但是在添加AWS卷之后，作业没有出现任何问题。当spark SQL读取一个单元表时，如果我没有显式地指定任何内容，那么数据最初存储的位置以及数据的存储的整个生命周期是什么？添加EBS卷是如何解决这个问题的？

浏览 9提问于2021-11-03得票数 1

回答已采纳

2回答

由于这个参数是依赖于实现的(纱线和火花独立有不同的策略分配核心)和情景(它可能会波动，因为动态分配和长期作业运行)。我不能用其他方法来估计这一点。(如TaskContext，SparkEnv)1)运行一个包含多个分区的1阶段作业( >> defaultParallelism )，并计算每个executorID，因为每个火花执行器都使用一个过度配置的线程池。2)与1类似，但n= defaultParallesim除外，我在每个任务中都添加了一个延迟，以防止资源协商器不平衡地分片(快速

浏览 5提问于2017-07-20得票数 7

4回答

与其他格式相比，地板格式的优缺点是什么？

、、、、

Apache Parquet的特点如下：与Avro，Sequence Files，RC文件等相比较，我想要一个关于格式的概述。为什么拼花比其他的更有优势？

浏览 14提问于2016-04-24得票数 190

回答已采纳

2回答

为什么Spark认为索引的支持不重要？

、、、

我知道索引有一些缺点，比如插入/更新速度慢、空间需求等等。但是在我的用例中，我首先处理大量数据并将其加载到Spark中，然后在不作进一步修改的情况下作为一个整体来研究这些数据。Spark对于数据的初始分布式处理和加载非常有用，但是缺乏索引使得交互探索比我预期的要慢和麻烦。那么，我想知道为什么Spark团队认为索引在某种程度上不重要，以至于超出了他们的路线图。

浏览 1提问于2016-04-29得票数 55

回答已采纳

1回答

如何为消费者设置卡夫卡补偿？

、

因此，我有3个问题：如果Flink使用者崩溃并在几分钟后恢复。

浏览 1提问于2018-10-31得票数 2

回答已采纳

4回答

SQL nvarchar性能

、、、、

大多数字符串都很短，可以用varchar(200)表示，而大约10%的字符串要长得多，需要使用varchar(5000)这样的字符串。对比：这些数据很少被更新，我只关心读取

浏览 0提问于2009-07-13得票数 0

回答已采纳

1回答

当数据在工作节点上可用，但现在有可用于执行任务的计算资源时，在Spark中会发生什么？

、、、

我是星火的初学者，我正在努力理解它的架构。我了解到，在理想的情况下，集群管理器将任务分配给运行在处理所需数据的同一节点上的执行器。但是，如果存在数据的节点没有任何可用的执行程序怎么办？

浏览 0提问于2021-04-15得票数 0

回答已采纳

2回答

如何将SQL映像列链接到外部数据库？

、、

法比安

浏览 3提问于2017-03-22得票数 0

回答已采纳

3回答

为什么有些LUKS教程提到用随机数据覆盖分区？

、、

在很多关于luks加密的教程中，人们都说要用随机数据覆盖分区，这样加密后数据就无法恢复。我不明白这点。随机数据会被附加到自由空间吗？否则数据就会丢失，不是吗？我有一个未加密的根分区和交换分区，为了用luks加密，我需要一个未加密的参数，其中安装了引导，以便加载initrd并解密系统的其余部分/ 顺便说一下，我用的是Ubuntu区

浏览 0提问于2012-01-05得票数 1

1回答

为什么这个perl脚本的运行速度比它的c++要慢得多呢？

、

a1; printf("GP %d\n", a4); }}对于这个问题，perl真的比C慢那么多(至少200倍)吗？

浏览 2提问于2013-10-07得票数 0

回答已采纳

1回答

S3并行读写性能？

、、、

考虑一个场景，其中Spark (或任何其他Hadoop框架)从S3读取一个大文件(比如1TB)。多个火花执行器如何从S3并行读取非常大的文件。这将大大降低读取吞吐量/性能。类似地，HDFS中的大文件写入也应该比S3快得多，因为HDFS中的写入将分布在多个主机上，而所有数据都必须通过S3中的一个主机(为简洁而忽略复制)。因此，这是否意味着与大数据世界中的HDFS相比，S3的性能要差得多。

浏览 2提问于2019-01-15得票数 12

回答已采纳

1回答

铅笔纸加密技术的几点思考

、

一个现成的垫子，精确地穿过纸的分布。所需要的只是索引行和列。在拼图中有洞，黑色区域，这些可以揭示出垫的结构，给出足够多的加密单词。但这些能被接受吗。这让我掌握了真正的加密技术。明文，“以我的名字买”在网格或表格中找到一个字母b，将纸的角放在网格上，这样它就可以对角指向b，沿着纸的边缘指向两个索引，并读取识别带有b的方块的字符。重复一遍。空格可以索引为黑色的方格。为了破译，获取填字游戏的解决方案，以确定正确的日期和时间，将索引行和列放在适当的位置，使用一张纸从网格读取明文。显然，“纽约时

浏览 0提问于2021-01-31得票数 0

1回答

Mongodb数组vs对象

、

新的Mongodb，我不知道在使用数组和对象之间有什么含义或好处。如上所述，数组和对象的使用之间的含义和好处是什么？比如我的案子。这样做的目的是存储一个带有“捕获”时间的文档，以及一个2000个“数据包”计数器的插槽。我使用object来存储数据包看看这个，但显然使用数组似乎更好。应该考虑哪些因素来确定数组或对象是否更合适(例如)？

浏览 0提问于2013-05-31得票数 2

6回答

额外列会破坏MySQL性能

、

我有一张仓库桌子，看起来像这样： id BIGINT(20) UNSIGNED NOT NULL AUTO_INCREMENT, groupId BIGINT(20) NOT NULL, ... many more ids, "txtProperty2" VARCHAR(2

浏览 14提问于2010-10-01得票数 6

2回答

如何将Javascript作为HTML代码存储在网站中

、、

我在MS中使用Web和Asp.Net。在这里我的想法，我想请你的意见： 04使用文本文件和类将管理存储在缓存这

浏览 2提问于2010-12-16得票数 1

回答已采纳

4回答

C++向量和列表插入

、、、

有人知道为什么在列表中间插入元素比在向量中间插入元素更快吗？我更喜欢使用向量，但如果可以的话，我被告知要使用列表。有人能解释为什么吗？并且总是推荐使用list而不是vector吗？

浏览 0提问于2013-04-25得票数 1

回答已采纳

2回答

关于大量使用的文件存储服务器中的驱动器的问题

、、

它的峰值在320 to /S左右的随机读取，它看起来仍然有一些空间来推动更多。当我查看各种驱动基准时，我看到大多数现代SSD都可以进行50 of /S的随机读取。这是否意味着它的比例或多或少是线性的？那么，如果我在raid0中有12个这样的，我可以做大约600 do /S的随机读取？raid5降低性能有多严重？我还听说，如果使用RAID，TRIM就会被禁用，因此性能会下降得更快。我是这么说的？

浏览 0提问于2010-12-08得票数 2

回答已采纳

2回答