pig操作与注意事项

grunt> A = load 'hdfs://192.168.0.118:9000/user/hadoop/data.txt' as (name:chararray, id:int, age:int);

grunt> B = group A by id;

grunt> C = foreach B generate count A.age;(注意要带括号,并且count必须为大写)

2012-09-11 20:20:12,831 [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1200: <line 7, column 29>  mismatched input 'A' expecting SEMI_COLON

Details at logfile: /home/hadoop/pig-0.10.0/logs

grunt> C = foreach B generate COUNT(A.id);

grunt> EXPLAIN C;

grunt> B = filter A by age >= 20;(注意>=前后要有空格)

类型

操作

描述

加载与存储

LOAD

将数据从外部文件或其它存储中加载数据,存入关系

STORE

将一个关系存放到文件系统或其它存储中

DUMP

将关系打印到控制台

过滤

FILTER

从关系中删除不需要的行

DISTINCT

从关系中删除重复的行

FOREACH…  GENERATE

对于集合的每个元素,生成或删除字段

STREAM

使用外部程序对关系进行变换

SAMPLE

从关系中随机取样

分组与连接

JOIN

连接两个或多个关系

COGROUP

在两个或多个关系中分组

GROUP

在一个关系中对数据分组

CROSS

获取两个或更多关系的乘积(叉乘)

排序

ORDER

根据一个或多个字段对某个关系进行排序

LIMIT

限制关系的元组个数

合并与分割

UNION

合并两个或多个关系

SPLIT

把某个关系切分成两个或多个关系

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏mathor

莫队算法

 莫队算法是由莫涛提出的算法,可以解决一类离线区间询问问题,适用性极为广泛。同时将其加以扩展,便能轻松处理树上路径询问以及支持修改操作。

3093
来自专栏null的专栏

数据结构和算法——旋转打印链表

1、问题描述 输入参数nnn为正整数,如输入n=5n=5n=5,则按行打印如下的数字: ? 2、问题的理解 这个问题是将数字1…n21…n21\dots n^2...

3063
来自专栏王硕

原 PostgreSQL的系统函数分析记录

1503
来自专栏TungHsu

这或许是对小白最友好的python入门了吧——8,初识for语句

有时候我们想要使用列表中所有元素,但是如果手打又不现实,这时候我们可以用for语句来遍历整个列表,我们先举个例子,还是昨天的列表 ? 现在我们用for语句来遍历...

2966
来自专栏我是攻城师

Apache Pig学习笔记(二)

3589
来自专栏博客园

Mongo字符串类型的数值查询---$Where查询介绍

​        在Mongo中都知道字符串类型大小比较都是以ASCII进行比较的,所以无法真实比较字符串类型的数值大小

4044
来自专栏康怀帅的专栏

PHP PDO MySQL

连接 // 数据源 $dsn='mysql:host=localhost;dbname=imooc'; // uri 形式 $dsn='uri:file:...

3784
来自专栏Java3y

Mybatis【关联映射】

Mybatis【多表连接】 我们在学习Hibernate的时候,如果表涉及到两张的话,那么我们是在映射文件中使用<set>..<many-to-one>等标签将...

2663
来自专栏Python、Flask、Django

Python partition使用技巧

932
来自专栏博客园

Core官方DI解析(4)--CallSiteRuntimeResolver

​ CallSiteRuntimeResolver类型是一个创建或获取服务实例的类型,这个类型继承了CallSiteVisitor<TArgument, TRe...

991

扫码关注云+社区

领取腾讯云代金券