Apache Pig Distinct和计数

文章/答案/技术大牛

发布

0回答

我认为我的加入和过滤器是正确的，但我不能计算出不同的计数部分已经尝试了下面的许多版本。a = load '/user/pig/movie' AS (userid:int, movieid:int, rating:int, timestamp:chararray); b = load '/user/pig/reviewer' using PigStorage('|') AS (userid:int, age

浏览 6提问于2017-06-09得票数 0

回答已采纳

2回答

Apache分配&计数解析问题

、、

目前，使用Hadoop学习Apache，并使用6200万个巨大的数据集。只是尝试做一个正常的计数函数，并不断地得到错误。、org.apache.pig.builtin.、org.apache.pig.impl.builtin解析计数。、org.apache.pig.impl.builtin解析计数。错误1070:无法使用imports：、java.lang.、org.apache.pig<

浏览 3提问于2016-08-24得票数 0

回答已采纳

1回答

访问日志Pig作业。计数和非重复计数

我正在尝试获取每天的独立访问者(IP)数量和每天的点击量。如果这是在MySQL中，我会这样做：SELECT COUNT(DISTINCT(ip)) from access_logschararray,ip:chararray,date:chararray,time:chararray,uri:chararray,ua:chararray);Z = COUNT(DISTINCT

浏览 1提问于2013-10-04得票数 0

1回答

猪的工作总是失败

、、、

我使用的是用kerberos和pig版本0.13.0保护的hadoop-2.6.0。我在hdfs中有一个文件如下所示1,ck猪脚本b = distinct a;异常- 100% complete 2015-02-03 11:34:45,431 [main] ERROR org.apache.pig.tools.pigst

浏览 2提问于2015-02-03得票数 0

1回答

为什么在Pig中DISTINCT比GROUP BY/FOREACH快

、、

我不知道为什么在Pig中DISTINCT比GROUP BY/FOREACH快，它们在MapReduce框架中应该是一样的，但请参考：Pig wiki说：“要从关系中的列中提取唯一值，可以使用DISTINCT或GROUP BY/GENERATE。DISTINCT是首选方法；它更

浏览 3提问于2013-01-16得票数 1

1回答

阅读Apache中的Snappy压缩蜂窝RCFile

、、

尝试使用http://pig.apache.org/docs/r0.8.1/api/org/apache/pig/piggybank/storage/HiveColumnarLoader.html读取Pig中的Hive文件 Fies的开头有RCF、SnappyCodec和hive.io.rcfile.column.number三个单词，它们都是二进制文件。然而，加载、分组

浏览 2提问于2014-07-17得票数 0

3回答

在袋子里数清楚的元素

假设我有一个别名transactions，其中包含以下数据：A S 3.3B S 1.2我想知道每个商店有多少人去过，他们在那里花了多少钱：S 2 9.2我真希望我能一步一步做到： gro

浏览 7提问于2013-12-17得票数 2

回答已采纳

1回答

Hadoop猪计数数

、、

所以我想知道这个文件里有多少个“真”和“假”。count = foreach groups generate count('true');" 2013-08-07 16:32:36,677主要错误org.apache.pig.tools.grunt.Grunt-错误1070:无法使用imports：、org.apache.pig.builtin.、org.apache.pig.imp

浏览 3提问于2013-08-07得票数 6

回答已采纳

1回答

Apache Pig中的IN运算符

是否有与Apache Pig等效的IN运算符？我当前使用的是Apache Pig 0.10.0 我想做一些类似的事情： select count(distinct(o.order_id)),count(od.prod_id),count(od.prod_id)/count(distinct(o.order_id)) inner join order_details od on od.order_id

浏览 24提问于2020-10-23得票数 0

1回答

如何在DataBag中找到不同的值？

PigStorage(',') AS (a:int, b:chararray); distinct_bs= DISTINCT GROUPED.b; group AS a ;(无论是否为FLATTEN，或者如果我包含group as a，我都会收到一个 ERROR 1200: org.<e

浏览 0提问于2014-03-13得票数 0

1回答

无法使用Azure powershell执行猪脚本

、、、、

chararray,col6 chararray,col7 int,col8 int);" +"unique_user = DISTINCT179)at org.apache.pig.PigServer$Graph.access) at org.a

浏览 0提问于2015-04-14得票数 0

回答已采纳

1回答

如何从一袋元组中提取不同的成分？

我如何将它限制为一个名称，比如SQL中的DISTINCT？

浏览 3提问于2016-11-16得票数 0

回答已采纳

1回答

哪个类解析Hive & Ping成Map Reduce

、、

哪个类将pig和hive命令解析为Map Reduce作业，这种解析背后的算法是什么？

浏览 0提问于2013-06-06得票数 1

1回答

PIG HBASE失败；存储CSV

、、

temps_present: int，direction_du_vent: int，force_du_vent: int，压力:int)加载'/ user / hduser / data.csv‘；以下是我的错误: 2013-07-22 22:30:31,870主要错误org.a

浏览 0提问于2013-07-23得票数 1

回答已采纳

1回答

错误2997:使用CSVExcelStorage时无法从后台错误重新创建异常

、

代码和错误： grunt> STORE logs INTO '/home/cloudera/workspace/Test_log.csv' USING org.apache.pig.piggybank.storage.CSVExcelStorage10:50:49,056主要信息org.apache.pig.data.SchemaTupleFrontend -设置带反序列化类的关键pig.schematuple.clas

浏览 0提问于2015-12-24得票数 2

1回答

Hadoop:猪错误

、、

/user/root/总计事务，输出:未能生成“/user/root/合计事务”作业DAG: job_1396637732046_0008 2014-04-06 10:28:30,463:400) at org.<

浏览 1提问于2014-04-06得票数 3

回答已采纳

2回答

猪瘟目录无法从蜂巢表读取数据

、、、、

grunt> table_load = load ‘test_table_one’ USING org.apache.hive.hcatalog.pig.HCatLoader();输入:无法从“test_table_one”读取数据输出:未能在“hdfs:&#

浏览 3提问于2016-10-05得票数 0

1回答

关于Pig* job Jar fie*

、

但在完全分布式的Hadoop集群中，总是会出现如下错误消息：(请参阅最后几行)2012-11-23 22:00:09,992 [main] ERROR org.apache.pig.tools.pigstats.SimplePigStats -ERROR 6015

浏览 3提问于2012-11-24得票数 2

1回答

在没有主键的情况下使用猪删除重复项

、、

我是hadoop的新手，我有一个用例，其中有3列--名称、值、时间stamp.The数据是分开的，逗号是分开的，并且是csv格式的--我需要检查副本并使用pig.How删除它们--我能做到这一点吗？

浏览 0提问于2015-11-28得票数 0

回答已采纳

1回答

使用Pig拉丁语计算唯一值的出现次数

、、

我正在尝试使用Apache Pig拉丁语在2019年12月1日(来自)找出下载量最大的5个RStudio包。我需要的列是'r_os‘和'package’。下面是我的代码： A = load '2019-12-01.csv' USING org.apache.pig.piggybank.storage.CSVExcelStorage(',', 'NO_MULTILINE', 'UNIX', 'SKI

浏览 11提问于2020-02-14得票数 0

回答已采纳

点击加载更多