展开

关键词

首页关键词apache pig

apache pig

相关内容

  • 如何给Apache Pig自定义UDF函数?

    核心代码如下: Java代码 package com.pigudf; import java.io.IOException; import org.apache.pig.EvalFunc; importorg.apache.pig.data.Tuple; import org.apache.pig.impl.util.WrappedIOException; ** * 自定义UDF类,对字符串转换大写Total records proactively spilled: 0 Job DAG: job_1419419533357_0147 2014-12-30 18:10:24,394 INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncherInstead, use fs.defaultFS 2014-12-30 18:10:24,396 INFO org.apache.pig.data.SchemaTupleBackend - Key- Total input paths to process : 1 2014-12-30 18:10:24,405 INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil
    来自:
    浏览:585
  • Apache Pig的前世今生

    最近,散仙用了几周的Pig来处理分析我们网站搜索的日志数据,感觉用起来很不错,今天就写篇笔记介绍下Pig的由来,除了搞大数据的人,可能很少有人知道Pig是干啥的,包括一些是搞编程的,但不是搞大数据的,还包括一些既不是搞编程的,也不是搞大数据的,而是从事其他行业的朋友,所以很有可能望文生义,一看标题,就乐了,心里就开始默默的翻译了===》 Apache 猪的笔记,看起来Apache的猪,比较厉害啊,都能写笔记了。Pig最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache(一个开源软件的基金组织)的一个项目,由Apache来负责维护,Pig是一个基于 Hadoop的大规模数据分析平台最后告诉大家一个好消息,在最新的Pig(0.14)发行版里,有两个重要的特性: (1)支持Pig运行在Tez上 (2)支持Orc格式的存储 如果你已经迫不及待想了解Pig了,那么请不要客气,直接点击Pig官网链接http:pig.apache.org,里面有很全,很丰富的介绍和学习资料等着你的加入!
    来自:
    浏览:682
  • 广告
    关闭

    50+款云产品免费体验

    提供包括云服务器,云数据库在内的50+款云计算产品。打造一站式的云产品试用服务,助力开发者和企业零门槛上云。

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到
  • Apache Pig入门学习文档(一)

    : (1)hadoop 下载地址: http:hadoop.apache.orgcommonreleases.html 可以同时运行不同版本的Pig只要设置相对应的HADOOP_HOME即可,如果你没有设置注意以下几点: 1,下载最近的而且是稳定版本的Apache Pig 2,然后解压下载Pig,注意下面二点: pig的主脚本文件,pig位于bin目录(pig.n.n.nbinpig),这里面包括了pig的源代码 svn co http:svn.apache.orgreposasfpigtrunk 2,进入pig的根目录下,执行ant命令,编译pig 3,校验pig.jar,运行一个单元测试ant test分割查询字符串组成一个words 上面的这些UDF是一些比较典型的例子,散仙建议初学者可以先看一看,看不懂也无所谓,UDF使用的几率也不是特别大,最重要的还是基础语法的使用,关于配置环境的安装,如果你用的是原生的ApacheHadoop,则按照上面的步骤来,是非常有效的,因为这个文档,就是参照apache官方的文档翻译的,英文好的,可以直接点击这个链接http:pig.apache.orgdocsr0.12.0start.html
    来自:
    浏览:580
  • Apache Pig如何与Apache Lucene集成?

    在文章开始之前,我们还是简单来回顾下Pig的的前尘往事: 1,Pig是什么?Pig最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache(一个开源软件的基金组织)的一个项目,由Apache来负责维护,Pig是一个基于 Hadoop的大规模数据分析平台,它提供的SQL-like语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。2,Pig用来干什么? 要回答这个问题,还得回归到雅虎当初使用Pig的目的: 1)吸收和分析用户的行为日志数据(点击流分析、搜索内容分析等),改进匹配和排名算法,以提高检索和广告业务的质量。,Pig版本是否兼容?)。
    来自:
    浏览:393
  • 使用 Apache PIG 统计积累型数据的差值

    现在要求使用PIG来统计某个时间段(1 hour)内,多个进程此项数据的变化量汇总。可以看到数据形如以下形式。进程会通过GrpID分组,每个组内有多个进程,需要计算的是各组VALUE值的总的变化量。但如果需要用PIG任务来写,第3个步骤就没有这么容易实现了。不过好在PIG脚本可以调用其他语言编写的UDF(User Define Function)来完成某些复杂的计算逻辑,我们就采用此种方案。如何使用Jython实现PIG UDF请参考官方文档 https:pig.apache.orgdocsr0.9.1udf.html 先来看PIG脚本代码: REGISTER pycalccalc_lost_pkg.py;REGISTER datagdatapig-0.16.0thirdpartyKVLoader-0.5.1.jar A = LOAD data.log USING com.tencent.gdata.pig.KVLoaderlost_pkg_cnt; H = FILTER G BY lost_pkg_cnt is not null;STORE H INTO pigtesttest.result.7 USING org.apache.pig.piggybank.storage.DBStorage
    来自:
    浏览:351
  • CDH-Hadoop2.6+ Apache Pig0.15安装记录

    1,使用CDH的hadoop里面有对应的组件Pig,但版本较低,所以放弃使用了,直接下载 Apache Pig0.15最新的版本(支持Tez,比Hive更容易集成) 下载地址:http:archive.apache.orgdistpigpig-0.15.0pig-0.15.0.tar.gz 直接下载二进制包即可 2,配置Pig的环境变量如下: #Pig export PIG_HOME=ROOTserverpig export PIG_CLASSPATH=$HADOOP_HOMEetchadoop export PATH=ROOTserverpigbin:$PATH 3,直接执行pig命令,启动程序,会报如下异常 ERROR org.apache.pig.Main可参考:https:cwiki.apache.orgconfluencedisplayHiveHive+on+Spark%3A+Getting+Started里面的解释 解决方法: 删掉hadoop的yarnlib下的那个jline版本较高的包,将piglib下的jline-1.0.jar包拷贝到yarnlib下,然后 重新执行pig命令,可正常启动。
    来自:
    浏览:418
  • Apache Pig如何通过自定义UDF查询数据库(五)

    ok,业务上的分析大致如此,下面就看下,技术上如何实现,其实就是需要Pig的一个自定义UDF函数,在遍历每一行的recoder时,去查询oracle只读库,获取gmv的值,并将最终结果存储起来,以图形化方式展示Pig里面对UDF函数非常丰富,比较常用的是转化函数和加载存储函数,这一点在Hive里,也是如此,之前的文章中,散仙介绍过,通过自定义UDF将pig分析的结果直接存储到数据库或索引中,便于检索和发挥不同框架之间的组合优势核心代码如下: Java代码 package com.pig.dhgate.getgvmbyrfxno; import java.io.IOException; import org.apache.pig.EvalFunc; import org.apache.pig.data.Tuple; import org.slf4j.Logger; import org.slf4j.LoggerFactory; ** * 自定义最后来看下如下在pig脚本里,使用自定义的函数: (1)使用ant打包自定义的udf函数的jar (2)在pig脚本里,注册相关的jar包,注意如果有依赖关系,依赖的jar包,也需要注册,例如本例中的oracle
    来自:
    浏览:451
  • Apache Pig和Solr问题笔记(一)

    记录下最近两天散仙在工作中遇到的有关Pig0.12.0和Solr4.10.2一些问题,总共有3个,如下: (1)问题一: 如何在Pig中使用ASCII和十六进制(hexadecimal)的分隔符进行加载注意关于这个问题,在Pig中,会反应到2个场景中, 第一: 在Pig加载(load)数据时候 。 第二: 在Pig处理split,或则正则截取数据的时候。b = group a by len; --统计各个长度下的数量 c = foreach b generate group, COUNT($1); --输出打印 dump c; (2)问题二:如何在ApacheINFO - 2015-04-01 21:08:36.101; org.apache.solr.core.SolrCore; SolrIndexSearcher has not changed - notre-opening: org.apache.solr.search.SolrIndexSearcher INFO - 2015-04-01 21:08:36.102; org.apache.solr.update.DirectUpdateHandler2
    来自:
    浏览:533
  • Apache Pig学习笔记(二)

    主要整理了一下,pig里面的一些关键词的含义和用法,pig虽然是一种以数据流处理为核心的框架,但数据库的大部分关键词和操作,在pig里面基本上都能找到对应的函数,非常灵活与简洁,春节前的最后一篇文章了,1,pig里所有的保留关键字: -- A assert, and, any, all, arrange, as, asc, AVG -- B bag, BinStorage, by, bytearraymatches, MAX, MIN, mkdir, mv -- N not, null -- O onschema, or, order, outer, output -- P parallel, pig类似一行行row,可以有多个field Fields,具体的数据 5,列名引用,在关系数据库中我们可以使用列名来定位到某一行数据的某个字段的值,在JDBC中,我们既可以通过列名引用,也可以通过索引下标引用,在pig
    来自:
    浏览:509
  • 玩转大数据系列之Apache Pig高级技能之函数编程(六)

    已总结Pig系列的学习文档,点击末尾处,阅读原文即可查看所有,希望对大家有用,感谢关注!在Hadoop的生态系统中,如果我们要离线的分析海量的数据,大多数人都会选择Apache Hive或Apache Pig,在国内总体来说,Hive使用的人群占比比较高, 而Pig使用的人相对来说,则少的多,这并不是因为Pig不成熟,不稳定,而是因为Hive提供了类数据库SQL的查询语句,使得大多人上手Hive非常容易,相反而Pig则提供了类Linux shell的脚本语法,这使得大多数人不喜欢使用。Pig作为类shell的语言,也支持了函数的方式,封装某个功能,以便于我们重用,这一点相比Hive来说,是一个很好的优势。下面先看下定义Pig函数(也叫宏命令)定义的语法: DEFINE (macros) : 支持的参数: alias pig的标量引用 整形(integer) 浮点型(float) 字符串(String)
    来自:
    浏览:431
  • Apache Pig

    来自:
    浏览:110
  • Apache Pig性能优化怎么做?

    我已经写了几个pig脚本,我已经使用RUN将其包含在一个Pig Master Script中。在Pig Master Script中包含所有脚本的原因是,我们正在对所有变量(变量 - >每个脚本中投影的模式)进行最后一次左连接以创建一个大文件。 问题:执行需要很长时间才能完成。
    来自:
    回答:1
  • Apache Pig学习笔记之内置函数(三)

    1 简介 Pig附带了一些的内置函数,这些函数包括(转换函数,加载和存储函数,数学函数,字符串函数,以及包和元组函数),在Pig里面主要有二种函数分别是内置函数和自定义的UDF函数,他们区别在于 第一:内置函数不需要被注册,因为Pig本身知道他们在哪里 第二:内置函数不需要定义引用路径,因为Pig本身知道在哪里能找到他们 2 动态调用 Java里面已经存在大量的工具类库,那么在Pig里面,我们也可以通过反射来灵活的定义某一类你需要用到的函数或者字符串的最小值(字典排序),同count一样需要Group支持 3.9 pluckTuple 用法: ,给指定关系加一个字符串前缀 3.10 Size 用法:size(expression)计算任何pig4 加载存储函数 Load和store函数决定了数据怎样加载到pig里和怎么从pig里输出,pig提供了一系列load和store函数,当然你可以通过udf函数重写你自己定制的加载和存储函数。4.1 处理压缩 压缩的支持是通过pig的加载和存储函数来决定的 PigStorage和TextLoader支持gzip和bzip压缩包括读和写,BinStorgae不支持压缩,为了处理gzip压缩的文件
    来自:
    浏览:724
  • Pig passwd指的是什么?

    我是Hadoop和Pig的新手,所以我很难理解这一行 grunt> A = load passwd using PigStorage(:): 变量passwd是指什么?如果我去 grunt> DUMP A; 终端输出 2019-07-13 19:51:07,300 ERROR org.apache.pig.tools.grunt.Grunt - ERROR 2118
    来自:
    回答:1
  • 如何使用Pig集成分词器来统计新闻词频?

    本篇呢,散仙会使用Ansj分词器+Pig来统计中文的词频,Pig的TOKENIZE只支持对英文句子的切分,为什么呢?java.util.List; import org.ansj.domain.Term; import org.ansj.splitWord.analysis.ToAnalysis; import org.apache.pig.EvalFunc; import org.apache.pig.backend.executionengine.ExecException; import org.apache.pig.data.BagFactory;import org.apache.pig.data.DataBag; import org.apache.pig.data.DataType; import org.apache.pig.data.Tuple; import org.apache.pig.data.TupleFactory; import org.apache.pig.impl.logicalLayer.schema.Schema; **
    来自:
    浏览:417
  • 对比Pig、Hive和SQL,浅看大数据工具之间的差异

    虽然SQL仍然占据着绝对的统治地位,企业对于大数据的兴趣使得Apache Pig和Hive这样的开源语言获得了不少机会。谈到大数据,Apache Pig、Apache Hive和SQL是目前比较主流的工具,三者在合适的情况下都能体现出自己的优势。Apache Pig对Multi-query的支持减少了数据检索循环的次数。Pig支持map、tuple和bag这样的复合数据类型以及常见的数据操作如筛选、排序和联合查询。什么时候用Apache Pig当你需要处理非格式化的分布式数据集时,如果想充分利用自己的SQL基础,可以选择Pig。什么时候用Apache Hive有时我们需要收集一段时间的数据来进行分析,而Hive就是分析历史数据绝佳的工具。要注意的是数据必须有一定的结构才能充分发挥Hive的功能。
    来自:
    浏览:1429
  • 【数据工具】对比Pig、Hive和SQL,浅谈大数据工具差异

    虽然SQL仍然占据着绝对的统治地位,企业对于大数据的兴趣使得Apache Pig和Hive这样的开源语言获得了不少机会。谈到大数据,Apache Pig、Apache Hive和SQL是目前比较主流的工具,三者在合适的情况下都能体现出自己的优势。Apache Pig对Multi-query的支持减少了数据检索循环的次数。Pig支持map、tuple和bag这样的复合数据类型以及常见的数据操作如筛选、排序和联合查询。1.什么时候用Apache Pig当你需要处理非格式化的分布式数据集时,如果想充分利用自己的SQL基础,可以选择Pig。2.什么时候用Apache Hive有时我们需要收集一段时间的数据来进行分析,而Hive就是分析历史数据绝佳的工具。要注意的是数据必须有一定的结构才能充分发挥Hive的功能。
    来自:
    浏览:514
  • pig中load文件时报错

    grunt> A=load data.txt as (name: chararray, id: int, age: int);  2012-09-11 18:06:32,072 ERROR org.apache.pig.tools.grunt.Grunt
    来自:
    浏览:505
  • 让Pig在风暴中飞驰——Pig On Storm

    2Pig On Storm的实现2.1 Pig On Storm VS Hive On StormPig和Hive对开发人员分别提供Pig Latin和Hive SQL编程语言,Hive SQL跟标准的2.3 Pig On Storm编译Pig代码流程1) IDE编辑书写Pig脚本:用户在支持Pig语法高亮的IDE中,根据业务实际需求书写Pig脚本,每一个Pig语句独占一行。包含Foreach、Window、Partition、Filter、Tap、Stream等运算符,兼容Apache Pig语法。2.4Pig On Storm编码示例以经典的Word Count为例,使用Apache开源的Pig Latin编写的程序为:a = load userhueword_count_text.txt;bPig On Storm在语法上兼容Pig Latin(Pig On Storm仅对Pig Latin进行了少量的扩展),因此对于有Pig开发经验的程序员几乎是零学习成本;由于Pig Latin语法简单
    来自:
    浏览:301
  • pig操作与注意事项

    id;grunt> C = foreach B generate count A.age;(注意要带括号,并且count必须为大写)2012-09-11 20:20:12,831 ERROR org.apache.pig.tools.grunt.Grunt
    来自:
    浏览:391

扫码关注云+社区

领取腾讯云代金券