grunt> A = load 'hdfs://192.168.0.118:9000/user/hadoop/data.txt' as (name:chararray, id:int, age:int);
grunt> B = group A by id;
grunt> C = foreach B generate count A.age;(注意要带括号,并且count必须为大写)
2012-09-11 20:20:12,831 [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1200: <line 7, column 29> mismatched input 'A' expecting SEMI_COLON
Details at logfile: /home/hadoop/pig-0.10.0/logs
grunt> C = foreach B generate COUNT(A.id);
grunt> EXPLAIN C;
grunt> B = filter A by age >= 20;(注意>=前后要有空格)
类型 | 操作 | 描述 |
---|---|---|
加载与存储 | LOAD | 将数据从外部文件或其它存储中加载数据,存入关系 |
STORE | 将一个关系存放到文件系统或其它存储中 | |
DUMP | 将关系打印到控制台 | |
过滤 | FILTER | 从关系中删除不需要的行 |
DISTINCT | 从关系中删除重复的行 | |
FOREACH… GENERATE | 对于集合的每个元素,生成或删除字段 | |
STREAM | 使用外部程序对关系进行变换 | |
SAMPLE | 从关系中随机取样 | |
分组与连接 | JOIN | 连接两个或多个关系 |
COGROUP | 在两个或多个关系中分组 | |
GROUP | 在一个关系中对数据分组 | |
CROSS | 获取两个或更多关系的乘积(叉乘) | |
排序 | ORDER | 根据一个或多个字段对某个关系进行排序 |
LIMIT | 限制关系的元组个数 | |
合并与分割 | UNION | 合并两个或多个关系 |
SPLIT | 把某个关系切分成两个或多个关系 |