为什么我的计数，Distinct和Distinct计数在spark中的巨大集群中非常慢

在Spark中，计数、Distinct和Distinct计数在巨大集群中执行缓慢的原因可能有以下几点：

数据规模过大：当数据规模非常庞大时，计算和处理这些数据会变得更加耗时。在巨大集群中，数据量可能非常大，导致计算时间增加。
网络通信延迟：在分布式计算中，数据需要在集群中的不同节点之间传输。如果网络通信延迟高，数据传输速度就会变慢，从而导致计算速度变慢。
数据分布不均匀：如果数据在集群中的分布不均匀，即某些节点上的数据量远大于其他节点，那么计算任务就会在这些节点上变得更加耗时，从而导致整体计算速度变慢。
算法复杂度高：某些计算任务可能需要较复杂的算法来完成，这些算法的计算复杂度较高，导致计算时间增加。

针对以上问题，可以采取以下措施来优化计数、Distinct和Distinct计数的性能：

数据分区优化：通过合理的数据分区策略，将数据均匀地分布在集群中的不同节点上，避免数据倾斜问题，从而提高计算效率。
数据压缩和序列化：可以使用压缩和序列化技术来减小数据的传输量，降低网络通信开销，提高计算速度。
使用缓存机制：对于一些频繁使用的数据，可以将其缓存在内存中，避免重复计算，提高计算效率。
并行计算：利用Spark的并行计算能力，将计算任务划分为多个子任务并行执行，提高计算速度。
硬件优化：使用高性能的硬件设备，如高速网络、高性能的存储设备等，可以提升计算和数据传输的速度。

对于Spark中的计数、Distinct和Distinct计数操作，腾讯云提供了一系列适用于大规模数据处理的产品和服务，例如：

腾讯云EMR（Elastic MapReduce）：提供了弹性、高性能的大数据处理服务，支持Spark等多种计算框架，可用于处理大规模数据集。
腾讯云CVM（云服务器）：提供了高性能的计算资源，可用于部署Spark集群，提供计算和存储能力。
腾讯云COS（对象存储）：提供了高可靠、高扩展性的对象存储服务，可用于存储和管理大规模数据。

更多关于腾讯云相关产品和服务的介绍，请参考腾讯云官方网站：https://cloud.tencent.com/

相关·内容

为什么在实际的 kaggle 比赛中 gbdt 和 random forest 效果非常好？

这是一个非常好，也非常值得思考的问题。换一个方式来问这个问题：为什么基于 tree-ensemble 的机器学习方法，在实际的 kaggle 比赛中效果非常好？...现在的问题就是，为什么 tree-ensemble 在实际中的效果很好呢？区别就在于 “模型的可控性”。...在 tree-ensemble 模型中，通过加 tree 的方式，对于模型的vcdimension 的改变是比较小的。...我真的见过有些机器学习的库实现某种算法是错误的。而高效的实现意味着可以快速验证不同的模型和参数。 2、系统具有灵活、深度的定制功能。 3、系统简单易用。...在可扩展性方面，xgboost 提供了分布式训练（底层采用 rabit 接口），并且其分布式版本可以跑在各种平台之上，例如 mpi, yarn, spark 等等。

1K3 0

Spark 性能优化——和 shuffle 搏斗

（下面这幅图来自《Spark Architecture: Shuffle》） 为什么说 shuffle 是 Spark job 的大 boss，就是因为 Spark 本身的计算通常都是在内存中完成的...这两步计算，都可以在 local 完成，而事实上也是在内存中操作完成的，换言之，不需要跑到别的 node 上去拿数据，因此执行的速度是非常快的。...但是，如果对于一个大的 rdd，shuffle 发生的时候，就会因为网络传输、数据序列化/反序列化产生大量的磁盘 IO 和 CPU 开销。这个性能上的损失是非常巨大的。...但是如果牵涉到 shuffle，这里面有网络传输和序列化的问题，就有可能非常慢。类似地，还有 filter 等等操作，目的也是要先对大的 RDD 进行 “瘦身” 操作，然后在做其他操作。...不均匀的 shuffle 在工作中遇到这样一个问题，需要转换成这样一个非常巨大的 RDD A，结构是 (countryId, product)，key 是国家 id，value 是商品的具体信息。

2621 0

【Java】大文本字符串滤重的简单方案

今天来说一个Java中处理大文本字符串虑重的两个解决方案。相信大家在实际工作中都遇到过数据重复的问题，当然也就存在虑重的工作。...利用Spark的distinct去解决。 1，布隆过滤器原理如果想判断一个元素是不是在一个集合里，一般想到的是将集合中所有元素保存起来，然后通过比较确定。...布隆过滤器不需要存储元素本身，在某些对保密要求非常严格的场合有优势。缺点但是布隆过滤器的缺点和优点一样明显。误算率是其中之一。随着存入的元素数量增加，误算率随之增加。...我们很容易想到把位数组变成整数数组，每插入一个元素相应的计数器加 1, 这样删除元素时将计数器减掉就可以了。然而要保证安全地删除元素并非如此简单。首先我们必须保证删除的元素的确在布隆过滤器里面....Spark过滤后的行数都是相差无几的，这里我还是更推荐使用Spark，毕竟现在比较流行大数据，有时间我也会继续探究大数据的相关内容。

1.8K7 0

Presto 在有赞的实践之路

不过这类业务通常数据量不是非常大，而且通常都是大宽表，也就不需要再去 Join 别的数据，Group By 形成的 Group 基数和产生的聚合数据量不是特别大，查询时间主要消耗在数据扫描读取时间上。...在 Spark，Hive ETL 层面引入 Adaptive Spark 和小文件合并工具去解决这个小文件问题。...然而查看性能的时候会发觉这种语句特别慢，后来发觉，就算我手动将这个查询语句分成多个语句，每个语句去执行一个 count distinct 时，也比合起来要快。...于是深入调研了下，Spark，Hive TEZ，Calcite 之类的发觉 count distinct 在 SQL 优化器那边会被优化掉，来解决数据倾斜的问题。...4.4 HDFS Namenode 导致有少数查询会相对慢一点在我们给用户做专用presto集群独立的性能测试时，我们发现同样的SQL会有很少数查询慢一点，后来研究了下发现 Presto Coordinator

8592 0

.NETC# 在代码中测量代码执行耗时的建议（比较系统性能计数器和系统时间）

.NET/C# 在代码中测量代码执行耗时的建议（比较系统性能计数器和系统时间）发布于 2018-11-06 15:33...不过传统的在代码中编写计时的方式依然有效，因为它可以生产环境或用户端得到真实环境下的执行耗时。如果你希望在 .NET/C# 代码中编写计时，那么阅读本文可以获得一些建议。...这样，前后两次获取的时间差即为方法 Foo 的执行耗时。这里我不会提到性能测试工具或者基准性能测试这些方法，因为这些测试代码不会运行于用户端。...由于 QPC 的高精度特性，所以非常适合在单个设备上测量一个小段时间的时间间隔。而这也符合我们本文一开始说到的方法执行耗时测量需求。...这里我只能拿英文来说话了。

3.2K3 0

Hive企业级性能优化（好文建议收藏）

这是简单统计年龄的枚举值个数，为什么不用distinct？...Parquet是一种列式数据存储格式，可以兼容多种计算引擎，如MapRedcue和Spark等，对多层嵌套的数据结构提供了良好的性能支持，是目前Hive生产环境中数据存储的主流选择之一。...在共享集群中，需要注意下，如果job中并行阶段增多，那么集群利用率就会增加。...推测执行优化在分布式集群环境下，因为程序bug（包括Hadoop本身的bug），负载不均衡或者资源分布不均等原因，会造成同一个作业的多个任务之间运行速度不一致，有些任务的运行速度可能明显慢于其他任务（...如果用户因为输入数据量很大而需要执行长时间的map或者reduce task的话，那么启动推测执行造成的浪费是非常巨大的。

8871 0

BIGO 使用 Flink 做 OLAP 分析及实时数仓的实践和优化

落地实践 & 特色改进 OneSQL OLAP 分析平台实践和优化 OneSQL OLAP 分析平台是一个集 Flink、Spark、Presto 于一体的 OLAP 查询分析引擎。...；统一查询语法：集 Flink、Spark、Presto 等多种查询引擎于一体，不同查询引擎通过适配 Hive SQL 语法来执行用户的 SQL 查询任务；智能路由：在选择执行引擎的过程中...； Flink 作为 OLAP 分析引擎的一部分，实时计算集群的资源利用率提升了 15%; 实时数仓建设和优化为了提升 BIGO 大数据平台上某些业务指标的产出效率，以及更好的管理 Flink...另外，在计算任务中还存在有比较多的 count distinct 计算，类似如下： select count(distinct if(events['a'] = 1, postid, null)) as...key 上需要进行计数，0 表示不需要计数；当计算聚合结果的时候，则将所有 key 第 n 位的数字相加，即为第 n 个 count distinct 的取值，这样一来，就更进一步节约了状态的存储空间

9932 0

Hive重点难点：Hive原理&优化&面试(下)

Spark是用于大规模数据处理的统一分析引擎，基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量硬件之上，形成集群。...所以在实际工作中，Spark在批处理方面只能算是MapReduce的一种补充。 4．兼容性 Spark和MapReduce一样有丰富的产品生态做支撑。...，为什么不用distinct？...在共享集群中，需要注意下，如果job中并行阶段增多，那么集群利用率就会增加。...如果用户对于运行时的偏差非常敏感的话，那么可以将这些功能关闭掉。如果用户因为输入数据量很大而需要执行长时间的map或者Reduce task的话，那么启动推测执行造成的浪费是非常巨大大。

1.4K2 0

MySQL 怎么用索引实现 group by？

使用临时表实现 group by，成本高，执行慢。如果能够利用索引中记录已经排好序的特性，使用索引来实现 group by，那就是鸟枪换炮了。...如果当前记录的分组前缀和上一条记录的分组前缀一样，说明还是同一个分组，只需要进行分组求和、分组计数，不需要计算平均值。...松散索引扫描自带去重功能，不需要借助临时表，和包含 distinct 关键字的聚合函数天生更匹配。紧凑索引扫描则需要借助临时表对记录进行去重。...MySQL 把紧凑索引扫描中使用的顺序读取记录嵌入到松散索引扫描的逻辑里，当评估紧凑索引扫描成本比松散索引扫描低时，对于包含 distinct 关键字的聚合函数，就会用顺序读取记录代替跳着读取记录，并且在顺序读取记录的过程中完成记录去重...对于松散索引扫描的这个变种，到写完本文为止，我还没有在哪里看到官方有正式的命名，为了方便记忆，估且把它命名为顺序松散索引扫描吧。

6.2K6 0

MySQL 怎么用索引实现 group by？

4.9K2 0

每天数百亿用户行为数据，美团点评怎么实现秒级转化分析？

这种解法的问题是没有足够的筛选手段，这意味着几亿用户对应的几亿条数据都需要遍历筛选，在性能上也难以接受。那么这个问题的难点在哪里？为什么上述两个解法在实际应用中变得越来越不可行？...另一方面，还是能够从问题的分析中得到一些“好消息”, 这些也是在设计和优化中可以利用的点。计算需求非常单一。...漏斗分析这类需求一般由运营或者产品同学手动提交，查询结果用于辅助决策，因此并发度不会很高，这样可以在一次查询时充分调动整个集群的资源。数据不可变。...其中Spring的应用非常广泛，在实际案例和文档上都非常丰富，很容易落地实现；Spark本身是一个非常优秀的分布式计算框架，目前团队对Spark有很强的掌控力，调优经验也很丰富，这样只需要专注在计算逻辑的开发即可...这种用法在很多系统中也被广泛采用，比如Presto和Spark都有类似的优化方法。 ?

1.3K10 0

Spark入门

Spark中RDD概念以及RDD操作 Spark入门 1.什么是Sark Apache Spark是一个开源集群运算框架。...Spark在存储器内运行程序的运算速度能做到比Hadoop MapReduce的运算速度快上100倍，即便是运行程序于硬盘时，Spark也能快上10倍速度。...Spark允许用户将数据加载至集群存储器，并多次对其进行查询，非常适合用于机器学习算法。 2. Spark部件 ?...Driver Program：一个独立的进程，主要是做一些job的初始化工作，包括job的解析，DAG的构建和划分并提交和监控task Cluster Manager：一个进程，用于负责整个集群的资源调度...，以数组的形式返回 saveAsTextFile：将RDD保存为一个文件 countByKey：分组计数

3742 0

大数据计算：如何仅用1.5KB内存为十亿对象计数

结果如下：该表显示，我们统计这些单词只用了512 bytes，而误差在3%以内。相比之下，HashMap的计数准确度最高，但需要近10MB的空间，你可以很容易地看到为什么基数估计是有用的。...在实际应用中准确性并不是很重要的，这是事实，在大多数网络规模和网络计算的情况下，用概率计数器会节省巨大的空间。线性概率计数器线性概率计数器是高效的使用空间，并且允许实现者指定所需的精度水平。...如线性计数器的Hyper LogLog计数器允许设计人员指定所需的精度值，在Hyper LogLog的情况下，这是通过定义所需的相对标准差和预期要计数的最大基数。...这个算法已经处理碰撞，所以我们可以得到一个基数估计所需的精密，即使我们从来没有把所有的输入数据到一台机器。这是非常有用的，节省了我们在网络中移动数据的大量时间和精力。...Next Steps 希望这篇文章能帮助你更好地理解这个概念和概率计数器的应用。

5001 0

count(distinct) 玩出了新花样

HASH 索引中的记录不是按照字段内容顺序存放的，而是乱序的，其优点在于查找时间复杂度是 O(1)，按单个值查找记录速度非常快，但不能用于范围查询。...合并缓冲区会分成 N 份（N = 磁盘文件中数据块的数量），每一份对应一个数据块，用于存放从数据块中读取的一批记录。合并缓冲区 7. 红黑树怎么去重和分组计数？...介绍完了前置知识点，重头戏来了，该说说红黑树去重和分组计数的过程了。...i1) from t_group_by group by e1 在调试过程中，我给 t_group_by 表的 e1 字段建了索引，所以 SQL 执行时就不需要先对表中记录进行排序了。...红黑树写满过，部分数据在磁盘文件中，部分数据在内存中。需要先把内存中红黑树所有结点数据写入到磁盘文件中，组成最后一个数据块。所有数据都写入磁盘文件之后，就可以开始进行合并去重和分组计数了。

1.5K2 0

Spark如何定位数据倾斜

在大数据处理过程中常常出现数据倾斜（Data Skew）。那么，数据倾斜会造成什么问题呢？为什么要处理数据倾斜？什么是数据倾斜？...2 运行速度慢,特别慢，非常慢，极端的慢，不可接受的慢。 ? 我们以 100 亿条数据为列子。个别 Task(80 亿条数据的那个 Task)处理过度大量数据。导致拖慢了整个 Job 的执行时间。...这可能导致该 Task 所在的机器 OOM,或者运行速度非常慢。数据倾斜是如何造成的在 Shuffle 阶段。同样 Key 的数据条数太多了。...比如我们在 Spark Web UI 或者本地 log 中发现，stage1 的某几个 task 执行得特别慢，判定 stage1 出现了数据倾斜，那么就可以回到代码中定位出 stage1 主要包括了...如下示例，我们可以先对 pairs 采样 10%的样本数据，然后使用countByKey 算子统计出每个 key 出现的次数，最后在客户端遍历和打印样本数据中各个 key的出现次数。

2.6K2 0

Spark你一定学得会（一）No.7

我是小蕉。上一篇大家说没有干货，妈蛋回南天哪来的干货你告诉我！！！还好这几天天气还不错，干货来了。首先祭上今天关键代码，要做的事情就是从Hive表中取得年龄数据，然后去重，统计每个年龄的人数。...集群的安装我就不介绍了大家自己上某搜索引擎去搜跟着做就可以了，今天主要介绍如何开始玩Spark。...例子中按每个PERSON的age值进行分组，那么结果我们将会得到根据年龄分组的数据，也就是我们想要的分组功能了。至于说为什么不能分段统计，当然可以了，这个留给你们自己玩，你先做个转换呗。...为什么要collect，因为RDD分布在集群中，而日志只能出现在Driver，你不collect没法打印啊。...在spark集群上提交命令： spark-submit --master local[*] --class Some bigjiao.jar

6765 0

Hive参数与性能企业级调优（建议收藏）

这是简单统计年龄的枚举值个数，为什么不用distinct？...我们先不管数据量特别大这个问题，就当前的业务和环境下使用distinct一定会比上面那种子查询的方式效率高。...Parquet是一种列式数据存储格式，可以兼容多种计算引擎，如MapRedcue和Spark等，对多层嵌套的数据结构提供了良好的性能支持，是目前Hive生产环境中数据存储的主流选择之一。...在共享集群中，需要注意下，如果job中并行阶段增多，那么集群利用率就会增加。...谓词下推后，过滤条件在map端执行，减少了map端的输出，降低了数据在集群上传输的量，节约了集群的资源，也提升了任务的性能。

1K3 0

浅谈离线数据倾斜

01 数据倾斜的基本概念在今年的敏捷团队建设中，我通过Suite执行器实现了一键自动化单元测试。Juint除了Suite执行器还有哪些执行器呢？...导致绝大多数TASK执行得都非常快，但个别TASK执行的极慢，原本能正常执行的作业，某天突然爆出OOM（内存溢出）异常。任务进度长时间维持在99%（或100%）。...可以查看具体job的reducer counter计数器协助定位。...2）大小表Join，开启mapjoin mapjoin原理：MapJoin 会把小表全部读入内存中，在map阶段直接拿另外一个表的数据和内存中表数据做匹配，由于在map是进行了join操作，省去了reduce...操作步骤：步骤一，对KEY赋值为1，便于下一步进行计数；步骤二，对KEY进行累计；步骤三，对KEY和VALUE交换；步骤四，针对KEY按照字典进行倒排；步骤五，将KEY和VAlUE位置交换，还原到真实的

3893 0

HyperLogLog函数在Spark中的高级应用

当这个问题遇上大数据，就会产生新的挑战：计算过程所需的内存和 distinct count 的结果数量是成正比的。...在 Spark 中使用近似计算，只需要将 COUNT(DISTINCT x) 替换为 approx_count_distinct(x [, rsd])，其中额外的参数 rsd 表示最大允许的偏差率，默认值为...中 Finalize 计算 aggregate sketch 中的 distinct count 近似值值得注意的是，HLL sketch 是可再聚合的：在 reduce 过程合并之后的结果就是一个...这在大数据业务中基本相当于是免费的午餐：带来巨大性能提升的同时，又不会对大部分业务端的用户造成负面影响。...这样的架构可以带来巨大的受益： 99+%的数据仅通过 Spark 进行管理，没有重复在预聚合阶段，99+%的数据通过 Spark 处理交互式查询响应时间大幅缩短，处理的数据量也大幅较少总结总结一下

2.5K2 0

一篇文章让你了解Hive调优

，为什么不用distinct？...（2）案例2.11中，distinct的命令会在内存中构建一个hashtable，查找去重的时间复杂度是O(1)；案例2.10中，group by在不同版本间变动比较大，有的版本会用构建hashtable...图2.9 案例2.11的程序流程图对比上面两个执行计划的逻辑我们可以知道，案例2.10是将去重（distinct）和计数放到两个MapReduce作业中分别处理；而案例2.11是将去重和计数放到一个...这一点在YARN的日志中也会看到。这两个案例的时间差主要集中在数据传输和中间任务的创建下，就是图2.10中的虚线框部分，因此通过distinct关键字比子查询的方式效率更高。...而案例2.11，经过Map阶段处理的数据还非常多时，所有的数据却都需要交给一个Reduce节点去处理，就好比千军万马过独木桥一样，不仅无法利用到分布式集群的优势，还要浪费大量时间在等待，而这个等待的时间远比案例

2.1K2 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么我的计数，Distinct和Distinct计数在spark中的巨大集群中非常慢

相关·内容

为什么在实际的 kaggle 比赛中 gbdt 和 random forest 效果非常好？

Spark 性能优化——和 shuffle 搏斗

【Java】大文本字符串滤重的简单方案

Presto 在有赞的实践之路

.NETC# 在代码中测量代码执行耗时的建议（比较系统性能计数器和系统时间）

Hive企业级性能优化（好文建议收藏）

BIGO 使用 Flink 做 OLAP 分析及实时数仓的实践和优化

Hive重点难点：Hive原理&优化&面试(下)

MySQL 怎么用索引实现 group by？

MySQL 怎么用索引实现 group by？

每天数百亿用户行为数据，美团点评怎么实现秒级转化分析？

Spark入门

大数据计算：如何仅用1.5KB内存为十亿对象计数

count(distinct) 玩出了新花样

Spark如何定位数据倾斜

Spark你一定学得会（一）No.7

Hive参数与性能企业级调优（建议收藏）

浅谈离线数据倾斜

HyperLogLog函数在Spark中的高级应用

一篇文章让你了解Hive调优

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐