腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

社区首页 >问答首页 >Pig: Slow Group By operator

问Pig: Slow Group By operator
EN

Stack Overflow用户

提问于 2013-08-18 11:16:23

回答 1查看 343关注 0票数 1

在对Hive和Pig进行基准测试后，我发现Pig中的Group By运算符比Hive慢得多。我想知道是否有人经历过同样的情况？人们是否有任何技巧来提高这个操作的性能？(在这里添加一个之前的帖子建议的DISTINCT并没有帮助。我目前正在重新运行基准测试，并启用了LZO压缩)。

hadoop

apache-pig

腾讯云大数据新春特惠

从基础引擎到开发治理平台，再到数据应用，赋能企业数字化转型。大数据产品9.9元起！

回答 1

Stack Overflow用户

发布于 2013-09-04 11:50:35

看起来你看错方向了。Group By只是以某种方式对数据进行分组，这一点非常重要。在尝试分析Pig中的性能时，您应该牢记以下几点：

1)多个语句可以合并到一个MR作业中，所以不要看这些语句，而要看生成的MR作业的性能。

2)性能上的巨大差异应该是有原因的。这可能是：

2.1不同的输入格式，基准测试Pig和Hive时的其他情况。

2.2Combiner由于某种原因被禁用：http://pig.apache.org/docs/r0.9.1/perf.html#When+the+Combiner+is+Used这在大多数情况下都是我的瓶颈。

根据我的经验，Pig/Hive的表现没有明显的区别。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/18298486

复制

Where SLOW

package wireshark 服务端客户端

对应结果依次是：正常、网络慢、客户端慢、服务端慢，如果使用 Wireshark，那么可能会发现时间显示格式有差异，改成相对时间就好了。

LA0WAN9

2021/12/14

5210

Slow ReadProcessor&Error Slow BlockReceiver错误日志分析

其他

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github：https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.总结 ---- "Slow ReadProcessor" 和"Slow BlockReceiver"往往是因为集群负载比较高或者某些节点不健康导致的，本文主要是帮助你确认是因为集群负载高导致的还是因为某些节点的硬件问题。 2.症状 ---- 1.作业比以前运行的时间变长 2.Job的日志中有以下WARN的

Fayson

2018/07/12

6.4K1

让Pig在风暴中飞驰——Pig On Storm

机器学习 hadoop 数据库 apache

1以PigOnStorm直面实时应用开发面的挑战在TRC（Tencent Realtime Computing）系统中TDProcess负责为各个应用提供实时计算的能力和服务，Storm是TDProcess的核心部件，虽然Storm已经成为开源流式计算领域的实际标准，但其生态系统远没有Hadoop完善，在Storm之上没有像Hive、Pig这类解放应用开发人员的效率提升工具，所以当你决定使用Storm来实现某个应用时，必须首先去熟悉Storm的原理以及API，然后才能基于API编写程序。熟悉Hadoop

腾讯大数据

2018/01/26

8450

Apache Pig

mapreduce node.js hadoop shell grunt

Apache Pig是MapReduce的一个抽象，它是一个工具/平台（所以说它并不完全是一门语言），用于分析较大数据集，并将其表示为数据流；

HoLoong

2021/01/21

8150

pig用法_animals

https 网络安全 java html

student = load ‘/pig/input/student.data’ using PigStorage(‘,’) as (id:long,name:chararray,class:int,state:int);

全栈程序员站长

2022/09/20

4650

Hadoop Pig 安装

hadoop linux

exportPIG_CLASSPATH=$HADOOP_INSTALL/conf/

星哥玩云

2022/06/28

4010

Operator1初识Operator

kubernetes

接触kubernetes也好多年了，开始就各种听说Operator的，但是从来没有深入了解动手写过Operator。开始体验一下简单的Operator。

对你无可奈何

2022/06/30

8550

Logstash 处理 Mysql Slow Log

sql apache 数据库云数据库 SQL Server

logstash 可以处理各类日志，对于Apache和Nginx的访问日志，由于遵循统一标准，在 grok patterns 中已经有现成定义，一条 COMBINEDAPACHELOG 就可以匹配

franket

2022/01/20

8220

operator new与new operator

c++malloc 内存

operate new 是一个分配原始内存的函数——至少在概念上，它与 malloc() 没有太大区别。例如：

公众号guangcity

2021/12/20

1.4K0

operator Type() vs Type operator()

function int

比如 int operator() vs operator int()，这两者有什么区别？

ClearSeve

2022/02/11

8670

pig基本语法——join

grunt node.js

pig基本语法——join

Java架构师必看

2021/05/14

2760

pig基本语法——join

grunt node.js

==============================================

Java架构师必看

2021/04/22

4000

How Slow is Reflection in Android?

android

(So far we’ve analyzed a lot of apps and discovered a handful of issues that significantly slow down many apps. Starting from this post, we’ll describe these issues one by one.)

用户9732312

2022/05/13

2890

hive与pig对比

hive 数据处理工具数据类型性能

1、SQL vs 脚本语言：Hive使用类SQL语言（HQL）进行数据处理和查询，类似于传统的关系型数据库，而Pig使用Pig Latin这种脚本语言。

司夜

2023/03/31

6520

group by 报错_group by null

数据库 sql serverless

mysql bug #8652 有可能不成功，依赖于生成的两次虚拟表的主键不同引发报错

全栈程序员站长

2022/11/11

1.3K0

使用shell-operator实现Operator

shell kubernetes https 网络安全 bash

在本文我们（Flant）将介绍简化 Kubernetes Operator 创建的方法，并展示如何使用 shell-operator 轻松实现自己的 Operator。本文基于我们在 KubeCon Europe 2020上的最新演讲，这是此演讲的完整视频[1]

CNCF

2020/09/22

4.1K0

使用 shell-operator 实现 Operator

shell kubernetes https 网络安全 bash

在本文我们将介绍简化 Kubernetes Operator 创建的方法，并展示如何使用 shell-operator 轻松实现自己的 Operator。本文基于我们在 KubeCon Europe 2020上的最新演讲，这是此演讲的完整视频[1]

我是阳明

2020/09/22

1.3K0

Pig安装及简单使用(pig0.12.0 Hadoop2.2.0)

mapreduce hadoop 面向对象编程

我们用MapReduce进行数据分析。当业务比较复杂的时候，使用MapReduce将会是一个很复杂的事情，比如你需要对数据进行很多预处理或转换，以便能够适应MapReduce的处理模式,另一方面，编写MapReduce程序，发布及运行作业都将是一个比较耗时的事情。

星哥玩云

2022/06/30

1K0

Pig的cogroup详解

data distinct dump flatten guid

A = load '$file' as (date, web, name, food);

星哥玩云

2022/07/03

5120

How to Tell if the I/O of the Database is Slow - 2

vr 视频解决方案

单块IO，指一次只读一个块。例如，当一个session等待一个单块IO时，典型的等待事件就是“db file sequential read”，表明正在等待需要的块。

bisal

2022/12/01

4350

How to Tell if the I/O of the Database is Slow - 2

相似问题

Pig Distinct vs Group By

对于大型表，SELECT COUNT(*) with GROUP BY slow

OR operator too slow_should I rewrite to IF_ELSE？

apache pig group by and -删除"(“和"{”

Apache Pig Group / Flatten / Join

活动推荐

提供大模型在企业的应用构建、高效便捷

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例