首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >Pig: Slow Group By operator

Pig: Slow Group By operator
EN

Stack Overflow用户
提问于 2013-08-18 11:16:23
回答 1查看 343关注 0票数 1

在对Hive和Pig进行基准测试后,我发现Pig中的Group By运算符比Hive慢得多。我想知道是否有人经历过同样的情况?人们是否有任何技巧来提高这个操作的性能?(在这里添加一个之前的帖子建议的DISTINCT并没有帮助。我目前正在重新运行基准测试,并启用了LZO压缩)。

EN

回答 1

Stack Overflow用户

发布于 2013-09-04 11:50:35

看起来你看错方向了。Group By只是以某种方式对数据进行分组,这一点非常重要。在尝试分析Pig中的性能时,您应该牢记以下几点:

1)多个语句可以合并到一个MR作业中,所以不要看这些语句,而要看生成的MR作业的性能。

2)性能上的巨大差异应该是有原因的。这可能是:

2.1不同的输入格式,基准测试Pig和Hive时的其他情况。

2.2Combiner由于某种原因被禁用:http://pig.apache.org/docs/r0.9.1/perf.html#When+the+Combiner+is+Used这在大多数情况下都是我的瓶颈。

根据我的经验,Pig/Hive的表现没有明显的区别。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/18298486

复制
相关文章
Where SLOW
对应结果依次是:正常、网络慢、客户端慢、服务端慢,如果使用 Wireshark,那么可能会发现时间显示格式有差异,改成相对时间就好了。
LA0WAN9
2021/12/14
5210
Where SLOW
Slow ReadProcessor&Error Slow BlockReceiver错误日志分析
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.总结 ---- "Slow ReadProcessor" 和"Slow BlockReceiver"往往是因为集群负载比较高或者某些节点不健康导致的,本文主要是帮助你确认是因为集群负载高导致的还是因为某些节点的硬件问题。 2.症状 ---- 1.作业比以前运行的时间变长 2.Job的日志中有以下WARN的
Fayson
2018/07/12
6.4K1
让Pig在风暴中飞驰——Pig On Storm
1以PigOnStorm直面实时应用开发面的挑战 在TRC(Tencent Realtime Computing)系统中TDProcess负责为各个应用提供实时计算的能力和服务,Storm是TDProcess的核心部件,虽然Storm已经成为开源流式计算领域的实际标准,但其生态系统远没有Hadoop完善,在Storm之上没有像Hive、Pig这类解放应用开发人员的效率提升工具,所以当你决定使用Storm来实现某个应用时,必须首先去熟悉Storm的原理以及API,然后才能基于API编写程序。 熟悉Hadoop
腾讯大数据
2018/01/26
8450
Apache Pig
Apache Pig是MapReduce的一个抽象,它是一个工具/平台(所以说它并不完全是一门语言),用于分析较大数据集,并将其表示为数据流;
HoLoong
2021/01/21
8150
pig用法_animals
student = load ‘/pig/input/student.data’ using PigStorage(‘,’) as (id:long,name:chararray,class:int,state:int);
全栈程序员站长
2022/09/20
4650
Hadoop Pig 安装
exportPIG_CLASSPATH=$HADOOP_INSTALL/conf/
星哥玩云
2022/06/28
4010
Operator1初识Operator
接触kubernetes也好多年了,开始就各种听说Operator的,但是从来没有深入了解动手写过Operator。开始体验一下简单的Operator。
对你无可奈何
2022/06/30
8550
Logstash 处理 Mysql Slow Log
logstash 可以处理各类日志,对于Apache和Nginx的访问日志,由于遵循统一标准,在 grok patterns 中已经有现成定义, 一条 COMBINEDAPACHELOG 就可以匹配
franket
2022/01/20
8220
operator new与new operator
operate new 是一个分配原始内存的函数——至少在概念上,它与 malloc() 没有太大区别。例如:
公众号guangcity
2021/12/20
1.4K0
operator Type() vs Type operator()
比如 int operator() vs operator int(),这两者有什么区别?
ClearSeve
2022/02/11
8670
pig基本语法——join
pig基本语法——join
Java架构师必看
2021/05/14
2760
pig基本语法——join
==============================================
Java架构师必看
2021/04/22
4000
How Slow is Reflection in Android?
(So far we’ve analyzed a lot of apps and discovered a handful of issues that significantly slow down many apps. Starting from this post, we’ll describe these issues one by one.)
用户9732312
2022/05/13
2890
How Slow is Reflection in Android?
hive与pig对比
1、SQL vs 脚本语言:Hive使用类SQL语言(HQL)进行数据处理和查询,类似于传统的关系型数据库,而Pig使用Pig Latin这种脚本语言。
司夜
2023/03/31
6520
group by 报错_group by null
mysql bug #8652 有可能不成功,依赖于生成的两次虚拟表的主键不同引发报错
全栈程序员站长
2022/11/11
1.3K0
group by 报错_group by null
使用shell-operator实现Operator
在本文我们(Flant)将介绍简化 Kubernetes Operator 创建的方法,并展示如何使用 shell-operator 轻松实现自己的 Operator。本文基于我们在 KubeCon Europe 2020上的最新演讲,这是此演讲的完整视频[1]
CNCF
2020/09/22
4.1K0
使用shell-operator实现Operator
使用 shell-operator 实现 Operator
在本文我们将介绍简化 Kubernetes Operator 创建的方法,并展示如何使用 shell-operator 轻松实现自己的 Operator。本文基于我们在 KubeCon Europe 2020上的最新演讲,这是此演讲的完整视频[1]
我是阳明
2020/09/22
1.3K0
使用 shell-operator 实现 Operator
Pig安装及简单使用(pig0.12.0 Hadoop2.2.0)
我们用MapReduce进行数据分析。当业务比较复杂的时候,使用MapReduce将会是一个很复杂的事情,比如你需要对数据进行很多预处理或转换,以便能够适应MapReduce的处理模式,另一方面,编写MapReduce程序,发布及运行作业都将是一个比较耗时的事情。
星哥玩云
2022/06/30
1K0
Pig的cogroup详解
A = load '$file' as (date, web, name, food);
星哥玩云
2022/07/03
5120
How to Tell if the I/O of the Database is Slow - 2
        单块IO,指一次只读一个块。例如,当一个session等待一个单块IO时,典型的等待事件就是“db file sequential read”,表明正在等待需要的块。
bisal
2022/12/01
4350
How to Tell if the I/O of the Database is Slow - 2

相似问题

Pig Distinct vs Group By

21

对于大型表,SELECT COUNT(*) with GROUP BY slow

20

OR operator too slow_should I rewrite to IF_ELSE?

10

apache pig group by and -删除"(“和"{”

36

Apache Pig Group / Flatten / Join

11
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文