首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

hadoop使用(六)

第2章 安装pig 2.1 下载pig 下载pig的最新版本: http://www.apache.org/dyn/closer.cgi/pig 我下载的是pig-0.10.0.tar.gz 2.2...如果想获取pig的源码,可以使用svn下载 http://svn.apache.org/repos/asf/pig/trunk 2.3 配置hadoop 进入目录$PIG_HOME/conf 修改配置文件...copyToLocal,cp,ls,mkdir,mv,pwd,rm,rmf,exec,run 3.2 查询测试 到安装目录下找到/tutorial/data/excite-sall.log文件,数据分为3,...按制表符分隔,第一为用户ID,第二为Unix时间戳,第三为查询记录。...ILLUSTRATE alias 逐步显示数据如何被转换 AVG 求平均值 CONCAT 连接两个字符串 COUNT 计算一个包中的元组个数 DIFF 比较一个元组中的两个字段 MAX 计算在一个单列包中的最大值 MIN

98060

进击大数据系列(十四)Hadoop 数据分析引擎 Apache Pig

Apache Pig的架构如下所示。 Apache Pig组件 如图所示,Apache Pig框架中有各种组件。让我们来看看主要的组件。...交互模式(Grunt shell) - 你可以使用Grunt shell以交互模式运行Apache Pig。在此shell中,你可以输入Pig Latin语句并获取输出(使用Dump运算符)。...sh 命令 使用 sh 命令,我们可以从Grunt shell调用任何shell命令,但无法执行作为shell环境( ex - cd)一部分的命令。 sh 命令的语法。...grunt> clear help命令 help 命令提供了Pig命令或Pig属性的列表。 你可以使用 help 命令获取Pig命令列表,如下所示。...),pig 的表被称为包(bag),包中存在行(Tuple)准确地说叫元组,每个元组中存在多个,表允许不同的元组有完全不相同的

27920
您找到你想要的搜索结果了吗?
是的
没有找到

Apache Pig和Solr问题笔记(一)

注意关于这个问题,在Pig中,会反应到2个场景中, 第一: 在Pig加载(load)数据时候 。 第二: 在Pig处理split,或则正则截取数据的时候。...先稍微说下,为啥使用十六进制的字段分隔符,而不是我们常见的空格,逗号,冒号,分号,#号,等,这些字符,虽然也可以使用,但是如果我们数据中有和这些符号冲突的数据,那么在解析时,就会发生一些出人意料的Bug.../20150301/tmp_search_keywords_cate_stat/' using PigStorage('\\u001') ; /** 注意下面的分割符^B,这个符号是脱元字符...)^B(.*)', 2) as ant, REGEX_EXTRACT ($10, '(.*)^B(.*)', 2) as pnt ; --获取字符串长度...如果你也发生了类似的情况,请首先确保你能正确的获取到数据,不论是从远程读取的,还是解析word,excel,或者txt里面的数据,都要首先确定,能够正确的把数据解析出来,然后,如果还是没建成功,可根据solr

1.3K60

《Hive编程指南》

这里有多种方式可以用于决定哪个Reducer获取哪个范围内的键对应的数据 图1-2显示了Hive的主要“模块”以及Hive是如何与Hadoop交互工作的 对于那些更喜欢图形用户界面的用户,可以使用现在逐步出现的商业和开源的解决方案...了(请参考http://pig.apache.org)。...Pig是由Yahoo!开发完成的,而同时期Fackbook正在开发Hive。Pig现在同样也是一个和Hadoop紧密联系的顶级Apache项目 Pig被描述成一种数据流语言,而不是一种查询语言。...也因此,Pig常用于ETL(数据抽取,数据转换和数据装载)过程的一部分,也就是将外部数据装载到Hadoop集群中,然后转换成所期望的数据格式 如果用户需要Hive无法提供的数据库特性(如行级别的更新,快速的查询响应时间...HBase支持的一个重要特性就是存储,其中的可以组织成族。族在分布式集群中物理上是存储在一起的。

89430

Apache Pig入门学习文档(一)

注意以下几点: 1,下载最近的而且是稳定版本的Apache Pig 2,然后解压下载Pig,注意下面二点: pig的主脚本文件,pig位于bin目录(/pig.n.n.n/bin/pig...我们使用pig latin语句,获取一个输入,然后经过一系列处理之后,会得到一个输出,所以在所有的pig脚本中,只有load(读数据)和store(写数据)两个语句是必不可少的。...里面限制返回。)...掌握pig的一些基本UDF函数  ExtractHour,提取小时从每行数据中  NGramGenerator,生成n-garms的words  NonURLDetector,移除一个空的...Hadoop,则按照上面的步骤来,是非常有效的,因为这个文档,就是参照apache官方的文档翻译的,英文好的,可以直接点击这个链接http://pig.apache.org/docs/r0.12.0/

1.2K51

Pig 0.12.1安装和使用

. 2015-08-16 22:57:09,716 [main] INFO  org.apache.pig.Main - Apache Pig version 0.12.0 (r1529718) compiled...应该检查当前Pig版本是否支持你当前所用的Hadoop版本。某一版本的Pig仅支持特定版本的Hadoop,你可以通过访问Pig官网获取版本支持信息。 Pig会用到HADOOP_HOME环境变量。...如果该变量没有设置,Pig也可以利用自带的Hadoop库,但是这样就无法保证其自带肯定库和你实际使用的HADOOP版本是否兼容,所以建议显式设置HADOOP_HOME变量。.... 2015-08-16 23:06:24,122 [main] INFO  org.apache.pig.Main - Apache Pig version 0.12.0 (r1529718) compiled...下载地址:http://wiki.apache.org/pig/PigPen 其他一些编辑器也提供了编辑Pig脚本的功能,比如vi等。

52520

干货 | 再来聊一聊 Parquet 列式存储格式

Parquet 是 Hadoop 生态圈中主流的列式存储格式,最早是由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 孵化器里毕业成为 Apache 顶级项目。...1.1 更高的压缩比 存使得更容易对每个使用高效的压缩和编码,降低磁盘空间。...关于映射下推与谓词下推: 映射下推,这是列式存储最突出的优势,是指在获取数据时只需要扫描需要的,不用全部扫描。 谓词下推,是指通过将一些过滤条件尽可能的在最底层执行以减少结果集。...并且为了帮助大家理解和使用,Parquet 提供了 org.apache.parquet.example 包实现了 java 对象和 Parquet 文件的转换。...例如 parquet-mr 项目里的 parquet-pig 项目就是负责把内存中的 Pig Tuple 序列化并按存储成 Parquet 格式,以及反过来把 Parquet 文件的数据反序列化成 Pig

1.9K40

HBase极简教程

HBase 系统架构 HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。...            Pig Latin六十编程语言处理数据   数据统计 Hive            简单,SqlLike HBase 数据模型 ?...,一个table在水平方向有一个或者多个簇,簇可由任意多个Column组成,簇支持动态扩展,无须预定义数量及类型,二进制存储,用户需自行进行类型转换 Table&Region ?...HLog 引入HLog原因: 在分布式系统环境中,无法避免系统出错或者宕机,一旦HRegionServer以外退出,MemStore中的内存数据就会丢失,引入HLog就是防止这种情况 工作机制: 每个HRegionServer...当HRegionServer意外终止后,HMaster会通过Zookeeper感知,HMaster首先处理遗留的HLog文件,将不同region的log数据拆分,分别放到相应region目录下,然后再将失效的

2.3K60

Apache Hadoop入门

容错 - 即使在几个硬件或软件组件无法正常工作时,Hadoop也能继续运行。成本优化 - Hadoop运行在标准硬件上;它不需要昂贵的服务器。...当使用Hive时,我们在HDFS中的数据集表示为具有行和的表。 因此,Hive易于学习和吸引人使用,为那些已经知道SQL并具有使用关系数据库的经验的人使用。...您还可以看到表的属性和: 除了有关列名和类型的信息,您还可以看到其他有趣的属性: ? 运行查找在2014年7月最受欢迎的两个艺术家: ? 此查询被翻译成两个MapReduce作业。...Pig Apache Pig是Hadoop大规模计算的另一个流行框架。 与Hive类似,Pig允许您以比使用MapReduce更简单,更快速,更简单的方式实现计算。...其他资源 http://hadoop.apache.org/ https://hive.apache.org/ http://pig.apache.org/ http://giraph.apache.org

1.5K50

再来聊一聊 Parquet 列式存储格式

Parquet 是 Hadoop 生态圈中主流的列式存储格式,最早是由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 孵化器里毕业成为 Apache 顶级项目。...01 整体介绍 先简单介绍下: Parquet 是一种支持嵌套结构的列式存储格式 非常适用于 OLAP 场景,按存储和扫描 诸如 Parquet 这种存的特点或优势主要体现在两方面。...1、更高的压缩比 存使得更容易对每个使用高效的压缩和编码,降低磁盘空间。...关于映射下推与谓词下推: 映射下推,这是列式存储最突出的优势,是指在获取数据时只需要扫描需要的,不用全部扫描。 谓词下推,是指通过将一些过滤条件尽可能的在最底层执行以减少结果集。...例如 parquet-mr 项目里的 parquet-pig 项目就是负责把内存中的 Pig Tuple 序列化并按存储成 Parquet 格式,以及反过来把 Parquet 文件的数据反序列化成 Pig

10.5K11

细谈Hadoop生态圈

04 HBase HBase是一个运行在Hadoop HDFS之上的NoSQL族数据库。HBase是为处理具有数十亿行和数百万的大型存储表而开发的,具有容错能力和水平可伸缩性。...08 Pig Apache Pig用于查询存储在Hadoop集群中的数据。它允许用户使用高级的类似SQL的脚本语言Pig Latin编写复杂的MapReduce转换。...Pig通过使用它的Pig引擎组件将Pig拉丁脚本转换成MapReduce任务,这样它就可以在YARN中执行,从而访问存储在HDFS中的单个数据集。...Apache Pig提供了嵌套的数据类型,如元组、包和映射,这些数据类型是MapReduce中缺少的,同时还提供了内置的操作符,如连接、过滤器和排序等。...没有管理员,HBase无法运行。ZooKeeper是Apache Phoenix中协调服务的关键组件。 Zookeeper处理应用程序的分布式特性,让程序员专注于应用程序逻辑。

1.4K30
领券