首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Apache Hadoop入门

$ hdfs dfs -mv songs.txt songs/ 从HDFS中删除目录 $ hdfs dfs -rm -r songs 热提示:您可以键入hdfs dfs而不用任何参数来获取可用命令的完整列表...图4:Hadoop集群上的HDFS和YARN守护程序布置。 YARN应用 YARN只是一个资源管理器,它知道如何将分布式计算资源分配给在Hadoop集群上运行的各种应用程序。...开发人员还可以实现扩展Pig核心功能的自己的功能(UDF)。 像Hive查询一样,Pig脚本被转换为调度在Hadoop集群上运行的MapReduce作业。...我们使用Pig找到最受欢迎的艺术家,就像我们在前面的例子中与Hive一样。 在top-artists.pig文件中保存以下脚本 ? 在Hadoop集群上执行Pig脚本: ?...阅读输出目录的内容: 热提示:在开发Pig脚本时,您可以在本地模式下迭代,并在将作业提交到群集之前捕获错误。 启用本地模式add -x本地选项到pig命令。

1.6K50

让Pig在风暴中飞驰——Pig On Storm

2.3 Pig On Storm编译Pig代码流程 1) IDE编辑书写Pig脚本:用户在支持Pig语法高亮的IDE中,根据业务实际需求书写Pig脚本,每一个Pig语句独占一行。...每个节点(RAW_DATA或DATA)描述一条pig语句,包含数据输入、输出关系,UDF函数名称,函数的输出参数,数据类型等信息。...2.4Pig On Storm编码示例 以经典的Word Count为例,使用Apache开源的Pig Latin编写的程序为: a = load '/user/hue/word_count_text.txt...(int)count+1 : 1);⑤ 第①行:tap为Pig On Storm新扩展的运算符,用于从流式数据源读取数据,LocaFileTap是从本地文件读取数据的UDF函数....第②行:分割从文件中读取出来的每一行数据(这行代码与Pig完全一样)。

843100
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Hadoop:pig 安装及入门示例

    pig是hadoop的一个子项目,用于简化MapReduce的开发工作,可以用更人性化的脚本方式分析数据。...一、安装 a) 下载 从官网http://pig.apache.org下载最新版本(目前是0.14.0版本),最新版本可以兼容hadop 0.x /1.x / 2.x版本,直接解压到某个目录即可。...注:下面是几个国内的镜像站点 http://mirrors.cnnic.cn/apache/pig/ http://mirror.bit.edu.cn/apache/pig/ http://mirrors.hust.edu.cn.../apache/pig/ 本文的解压目录是:/Users/jimmy/app/pig-0.14.0 b) 环境变量 export PIG_HOME=/Users/jimmy/app/pig-0.14.0...' AS (value:int); 先将输入文件加载到a中,由于输入文件每行只有一个数字,最后的AS部分表示创建了一个列,名称为value,为整型,其值就是这个数字的值。

    1.2K90

    如何给Apache Pig自定义UDF函数?

    一旦你学会了UDF的使用,就意味着,你可以以更加灵活的方式来使用Pig,使它扩展一些为我们的业务场景定制的特殊功能,而这些功能,在通用的pig里是没有的,举个例子: 你从HDFS上读取的数据格式,如果使用默认的...把打包完成后的jar上传到HDFS上 pig运行时候需要加载使用 5 在pig脚本里,注册我们自定义的udf的jar包 注入运行时环境 6 编写我们的核心业务pig脚本运行 测试是否运行成功 项目工程截图如下...; import org.apache.pig.data.Tuple; import org.apache.pig.impl.util.WrappedIOException; /** *...tmp/udf/pudf.jar 1295 hdfs://dnode1:8020/tmp/udf/s.txt 36 grunt> 最后,我们看下pig脚本的定义...HDFS上,可以在pig脚本的末尾,去掉dump命令,加入 store e into '/tmp/dongliang/result/'; 将结果存储到HDFS上,当然我们可以自定义存储函数,将结果写入数据库

    1.1K60

    如何给Apache Pig自定义UDF函数?

    一旦你学会了UDF的使用,就意味着,你可以以更加灵活的方式来使用Pig,使它扩展一些为我们的业务场景定制的特殊功能,而这些功能,在通用的pig里是没有的,举个例子: 你从HDFS上读取的数据格式,如果使用默认的...jar上传到HDFS上 pig运行时候需要加载使用 5 在pig脚本里,注册我们自定义的udf的jar包 注入运行时环境 6 编写我们的核心业务pig脚本运行 测试是否运行成功 项目工程截图如下:... org.apache.pig.data.Tuple;  import org.apache.pig.impl.util.WrappedIOException;  /**   * 自定义UDF类,对字符串转换大写...脚本的定义: Pig代码  --注册自定义的jar包  REGISTER pudf.jar;    --加载测试文件的数据,逗号作为分隔符  a = load 's.txt' using PigStorage...HDFS上,可以在pig脚本的末尾,去掉dump命令,加入  store e into '/tmp/dongliang/result/'; 将结果存储到HDFS上,当然我们可以自定义存储函数,将结果写入数据库

    46310

    玩转大数据系列之Apache Pig高级技能之函数编程(六)

    在Hadoop的生态系统中,如果我们要离线的分析海量的数据,大多数人都会选择Apache Hive或Apache Pig,在国内总体来说,Hive使用的人群占比比较高, 而Pig使用的人相对来说,则少的多...,这并不是因为Pig不成熟,不稳定,而是因为Hive提供了类数据库SQL的查询语句,使得大多人上手Hive非常容易,相反而Pig则提供了类Linux shell的脚本语法,这使得大多数人不喜欢使用。...因为有相当一部分编程人员是不使用Linux的,而是微软的的一套从C#,到ASP.NET,SQL Server再到Windows的专用服务器 。...实际上函数和主体脚本是可以分离的,再用的时候,我们只需要导入函数脚本,即可拥有所有的函数功能,这样一来,函数脚本被分离到主脚本外面,就大大增加了函数脚本的重用性,我们也可以再其他脚本中引用,而且函数脚本中也可以再次引用其他的函数脚本...,但前提是不能够,递归引用,这样Pig语法在执行时,是会报错的,下面看下分离后的脚本文件: 一:函数脚本文件 Java代码 --定义pig函数1 支持分组统计数量 --A 关系引用标量

    83330

    Pig、Hive、MapReduce 解决分组 Top K 问题

    : 本质上HSQL和sql有很多相同的地方,但HSQL目前功能还有很多缺失,至少不如原生态的SQL功能强大, 比起PIG也有些差距,如果SQL中这类分组topk的问题如何解决呢?...来说,处理起来稍微复杂了点,但随着hive的日渐完善,以后比pig更简洁也说不定。...注:测试数据由以下脚本生成: http://my.oschina.net/leejun2005/blog/76631 PS: 如果说hive类似sql的话,那pig就类似plsql存储过程了:程序编写更自由...pig中还能直接通过反射调用java的静态类中的方法,这块内容请参考之前的相关pig博文。...附几个HIVE UDAF链接,有兴趣的同学自己看下: Hive UDAF和UDTF实现group by后获取top值 http://blog.csdn.net/liuzhoulong/article/details

    1.1K70

    hadoop使用(六)

    Hive与SQL相似促使 其成为Hadoop与其他BI工具结合的理想交集。Pig赋予开发人员在大数据集领域更多的灵活性,并允许开发简洁的脚本用于转换数据流以便嵌入到较大的 应用程序。...第2章 安装pig 2.1 下载pig 下载pig的最新版本: http://www.apache.org/dyn/closer.cgi/pig 我下载的是pig-0.10.0.tar.gz 2.2...如果想获取pig的源码,可以使用svn下载 http://svn.apache.org/repos/asf/pig/trunk 2.3 配置hadoop 进入目录$PIG_HOME/conf 修改配置文件...PIG中的读写操作: LOAD 从文件装载数据到一个关系 LIMIT 限制元组个数为n DUMP 显示一个关系的内容,主要用于调试 STORE 将一个关系中的数据存储到一个目录中 输入执行: grunt...alias 逐步显示数据如何被转换 AVG 求平均值 CONCAT 连接两个字符串 COUNT 计算一个包中的元组个数 DIFF 比较一个元组中的两个字段 MAX 计算在一个单列包中的最大值 MIN

    1K60

    neo4j的CQL基础学习

    一个节点标签名称 实例:创建一个节点的一个标签 CREATE (:pig) 2、创建包含具有属性的节点 语法: CREATE ( :分配给创建节点的属性的名称 ... 属性是键值对。...定义将分配给创建节点的属性的值 实例:创建一个小猪佩奇的节点 CREATE (:pig {name:"小猪佩奇",age:10}) MATCH 从数据库获取有关节点和属性的数据 从数据库获取有关节点,...定义要分配给创建节点的属性的名称 MATCH & RETURN匹配和返回 在Neo4j CQL中,我们不能单独使用MATCH或RETURN命令,因此我们应该合并这两个命令以从数据库检索数据...relationship-label-name> 一个关系的标签名称 示例一:创建关系 CREATE (:pig)-[r1:前后]->(:rabbit) 示例二:结合前后的语法创建单个节点中的任意标签关系

    1.1K30

    Apache Pig入门学习文档(一)

    help命令 (三):编译Pig 1,从svn导入pig的源代码 svn co http://svn.apache.org/repos/asf/pig/trunk 2,进入...我们使用pig latin语句,获取一个输入,然后经过一系列处理之后,会得到一个输出,所以在所有的pig脚本中,只有load(读数据)和store(写数据)两个语句是必不可少的。...( ; ) Pig latin语句,通常组织如下: (一)一个load声明从文件系统上加载数据 (二)一系列的的转化语句去处理数据 (三)一个dump语句,来展示结果或者stroe语句来存储结果...掌握pig的一些基本UDF函数  ExtractHour,提取小时从每行数据中  NGramGenerator,生成n-garms的words  NonURLDetector,移除一个空的列...,是非常有效的,因为这个文档,就是参照apache官方的文档翻译的,英文好的,可以直接点击这个链接http://pig.apache.org/docs/r0.12.0/start.html,如果是其他的版本的

    1.3K51

    Pig 0.12.1安装和使用

    应该检查当前Pig版本是否支持你当前所用的Hadoop版本。某一版本的Pig仅支持特定版本的Hadoop,你可以通过访问Pig官网获取版本支持信息。 Pig会用到HADOOP_HOME环境变量。...- Connecting to map-reduce job tracker at: linuxidc01:9001 grunt> 3.运行Pig程序 Pig程序执行方式有三种: 1)脚本方式 直接运行包含...Pig脚本的文件,比如以下命令将运行本地scripts.pig文件中的所有命令: pig scripts.pig 2)Grunt方式 Grunt提供了交互式运行环境,可以在命令行编辑执行命令。...Pig Latin编辑器 PigPen是一个Ecliipse插件,它提供了在Eclipse中开发运行Pig程序的常用功能,比如脚本编辑、运行等。...下载地址:http://wiki.apache.org/pig/PigPen 其他一些编辑器也提供了编辑Pig脚本的功能,比如vi等。

    57420

    【20】进大厂必须掌握的面试题-50个Hadoop面试

    现在,他们可以成功地从数据中获取价值,并通过增强的业务决策能力在竞争者中拥有明显的优势。 ♣提示:在这样的问题中谈论5V是一个好主意,无论是否被特别询问!...然后,配置数据节点和客户端,以便它们可以确认此新的名称节点已启动。...简而言之,“检查点”是一个获取FsImage,编辑日志并将其压缩为新的FsImage的过程。因此,代替重播编辑日志,NameNode可以直接从FsImage加载最终的内存状态。...Apache Pig比MapReduce有什么好处? Apache Pig是一个平台,用于分析代表Yahoo开发的数据流的大型数据集。...无需在MapReduce中编写复杂的Java实现,程序员就可以使用Pig Latin非常轻松地实现相同的实现。 Apache Pig将代码的长度减少了大约20倍(根据Yahoo)。

    1.9K10

    Pig安装及简单使用(pig0.12.0 Hadoop2.2.0)

    Pig的安装 Pig作为客户端程序运行,即使你准备在Hadoop集群上使用Pig,你也不需要在集群上做任何安装。Pig从本地提交作业,并和Hadoop进行交互。...1)下载Pig 前往http://mirror.bit.edu.cn/apache/pig/ 下载合适的版本,比如Pig 0.12.0 2)解压文件到合适的目录 tar –xzf pig-0.12.0...应该检查当前Pig版本是否支持你当前所用的Hadoop版本。某一版本的Pig仅支持特定版本的Hadoop,你可以通过访问Pig官网获取版本支持信息。 Pig会用到HADOOP_HOME环境变量。...Pig默认模式是mapreduce,你也可以用以下命令进行设置: pig –x mapreduce 运行Pig程序 Pig程序执行方式有三种: 1)脚本方式 直接运行包含Pig脚本的文件,比如以下命令将运行本地...下载地址:http://wiki.apache.org/pig/PigPen 其他一些编辑器也提供了编辑Pig脚本的功能,比如vim等。

    1K10

    Apache Pig

    What is Pig Apache Pig是MapReduce的一个抽象,它是一个工具/平台(所以说它并不完全是一门语言),用于分析较大数据集,并将其表示为数据流; Pig通常与Hadoop一起使用,...使用Pig进行数据处理、分析时,需要使用其提供的Pig Latin脚本语言编写相应脚本,这些脚本执行时会被转换为Map和Reduce任务(类似Spark),Pig Engine组件接受Pig Latin...脚本为输入,并转换为作业; Why Pig 可以把Pig看作是SQL,相对于java等高级语言来说,它的功能更加简单直接,更容易上手,同时又不像直接写MapReduce程序那样考虑太多分布式相关内容,因此...Pig是一种较为适中的用于在分布式集群上进行作业编写的脚本语言; Component in Pig Parser:解析Pig脚本,检查其语法以及其他杂项,输出有向无环图DAG,其中运算符为节点,数据流为边...(将数据分组为两个或多个关系)、GROUP(在单个关系中对数据分组)、CROSS(创建两个或多个关系的向量积)、ORDER(基于一个或多个字段排序关系)、LIMIT(从关系中获取有限个元组)、UNION

    81520

    Apache Pig如何通过自定义UDF查询数据库(五)

    这样以来的,按照目前的数据情况,订单编号是从Hadoop集群上,一直是从搜索,点击,添加购物车,下单计算出来的,然后获取的对应的订单编号,注意这个过程中,是需要全程去爬虫数据的,因为还要算最终的GMV成交额...ok,业务上的分析大致如此,下面就看下,技术上如何实现,其实就是需要Pig的一个自定义UDF函数,在遍历每一行的recoder时,去查询oracle只读库,获取gmv的值,并将最终结果存储起来,以图形化方式展示...org.apache.pig.EvalFunc; import org.apache.pig.data.Tuple; import org.slf4j.Logger; import...,e); } return 0.0; } } 其实,代码还是比较简单的,在这里,你可以从任何数据源获取需要的数据,而不仅仅是数据库,你也可以从redis,memcache,文件,xml...最后来看下如下在pig脚本里,使用自定义的函数: (1)使用ant打包自定义的udf函数的jar (2)在pig脚本里,注册相关的jar包,注意如果有依赖关系,依赖的jar包,也需要注册,例如本例中的

    1.1K40

    进击大数据系列(十四)Hadoop 数据分析引擎 Apache Pig

    Apache Pig 优点 简化数据处理:Apache Pig 可以将复杂的数据流操作转换为简单的 Pig Latin 脚本,使得数据处理变得更加简单和直观。...执行后,这些脚本将通过应用Pig框架的一系列转换来生成所需的输出。 在内部,Apache Pig将这些脚本转换为一系列MapReduce作业,因此,它使程序员的工作变得容易。...下载Apache Pig 首先,从以下网站下载最新版本的Apache Pig:https://pig.apache.org/ 解压 tar -zxvf pig-0.17.0.tar.gz -C ~/training...批处理模式(脚本) - 你可以通过将Pig Latin脚本写入具有 .pig 扩展名的单个文件中,以批处理模式运行Apache Pig。...grunt> quit 现在让我们看看从Grunt shell控制Apache Pig的命令。 exec命令 使用 exec 命令,我们可以从Grunt shell执行Pig脚本。

    60520

    细谈Hadoop生态圈

    除此之外,它还减少了维护单独工具的管理问题。 08 Pig Apache Pig用于查询存储在Hadoop集群中的数据。...它允许用户使用高级的类似SQL的脚本语言Pig Latin编写复杂的MapReduce转换。...Pig通过使用它的Pig引擎组件将Pig拉丁脚本转换成MapReduce任务,这样它就可以在YARN中执行,从而访问存储在HDFS中的单个数据集。...程序员不需要为MapReduce任务编写复杂的Java代码,而是可以使用Pig Latin来执行MapReduce任务。SQL开发人员喜欢编写脚本,而Pig Latin是他们的首选代码。...Apache Pig提供了嵌套的数据类型,如元组、包和映射,这些数据类型是MapReduce中缺少的,同时还提供了内置的操作符,如连接、过滤器和排序等。

    1.6K30

    Apache Pig和Solr问题笔记(一)

    记录下最近两天散仙在工作中遇到的有关Pig0.12.0和Solr4.10.2一些问题,总共有3个,如下: (1)问题一: 如何在Pig中使用ASCII和十六进制(hexadecimal)的分隔符进行加载...注意关于这个问题,在Pig中,会反应到2个场景中, 第一: 在Pig加载(load)数据时候 。 第二: 在Pig处理split,或则正则截取数据的时候。...,大家可以参考官网的文档 下面看在Pig脚本的代码: Java代码 --Hadoop技术交流群:415886155 /*Pig支持的分隔符包括: 1,任意字符串, 2,任意转义字符 3...b generate group, COUNT($1); --输出打印 dump c; (2)问题二:如何在Apache Solr中,查询某个不分词的field的长度,有多少个记录?...如果你也发生了类似的情况,请首先确保你能正确的获取到数据,不论是从远程读取的,还是解析word,excel,或者txt里面的数据,都要首先确定,能够正确的把数据解析出来,然后,如果还是没建成功,可根据solr

    1.3K60

    neo4j的CQL基础学习

    一个节点标签名称 实例:创建一个节点的一个标签 CREATE (:pig) 2、创建包含具有属性的节点 语法: CREATE ( :分配给创建节点的属性的名称 ... 属性是键值对。...定义将分配给创建节点的属性的值 实例:创建一个小猪佩奇的节点 CREATE (:pig {name:"小猪佩奇",age:10}) MATCH 从数据库获取有关节点和属性的数据 从数据库获取有关节点,...定义要分配给创建节点的属性的名称 MATCH & RETURN匹配和返回 在Neo4j CQL中,我们不能单独使用MATCH或RETURN命令,因此我们应该合并这两个命令以从数据库检索数据...relationship-label-name> 一个关系的标签名称 示例一:创建关系 CREATE (:pig)-[r1:前后]->(:rabbit) 示例二:结合前后的语法创建单个节点中的任意标签关系

    1.2K40
    领券