首页
学习
活动
专区
工具
TVP
发布

cwl_Java

专栏作者
2423
文章
2155658
阅读量
64
订阅数
快速学习-Azkaban入门
1)一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等 2)各任务单元之间存在时间先后及前后依赖关系 3)为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行;
cwl_java
2020-03-25
5780
快速学习-Presto优化
1)合理设置分区 与Hive类似,Presto会根据元信息读取分区数据,合理的分区能减少Presto数据读取量,提升查询性能。 2)使用列式存储 Presto对ORC文件读取做了特定优化,因此在Hive中创建Presto使用的表时,建议采用ORC格式存储。相对于Parquet,Presto对ORC支持更好。 3)使用压缩 数据压缩可以减少节点间数据传输对IO带宽压力,对于即席查询需要快速解压,建议采用Snappy压缩。 4)预先排序 对于已经排序的数据,在查询的数据过滤阶段,ORC格式支持跳过读取不必要的数据。比如对于经常需要过滤的字段可以预先排序。
cwl_java
2020-03-24
1.9K0
快速学习-Presto安装部署
支持以下文件类型:Text, SequenceFile, RCFile, ORC 此外,需要有远程的Hive元数据。 不支持本地或嵌入模式。 Presto不使用MapReduce,只需要HDFS。
cwl_java
2020-03-24
3.2K0
快速学习-Presto简介
Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。 Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。
cwl_java
2020-03-24
1.8K0
快速学习-Kylin入门
在Hive中创建数据,分别创建部门和员工外部表,并向表中导入数据。 (1)原始数据
cwl_java
2020-03-24
3931
presto环境搭建
1、环境准备 支持操作系统: Linux or Mac OS X Java 8, 64-bit Python 2.4+
cwl_java
2020-03-24
1.6K0
快速学习-Sqoop一些常用命令及参数
这里给大家列出来了一部分Sqoop操作时的常用参数,以供参考,需要深入学习的可以参看对应类的源代码。
cwl_java
2020-03-19
1.4K0
快速学习-Hive企业级调优
Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如:SELECT * FROM employees;在这种情况下,Hive 可以简单地读取 employee 对应的存储目录下的文件,然后输出查询结果到控制台。 在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more,老版本 hive默认是 minimal,该属性修改为 more 以后,在全局查找、字段查找、limit 查找等都不走mapreduce。
cwl_java
2020-02-21
8970
快速学习-Hive 安装
(3)修改 apache-hive-1.2.1-bin.tar.gz 的名称为 hive
cwl_java
2020-02-21
1K0
快速学习-HBaseAPI操作
通过HBase的相关JavaAPI,我们可以实现伴随HBase操作的MapReduce过程,比如使用MapReduce将数据从本地文件系统导入到HBase的表中,比如我们从HBase中读取一些原始数据后使用MapReduce做数据分析。
cwl_java
2020-02-21
4380
快速学习-Hive 基本概念
Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并 提供类 SQL 查询功能。 本质是:将 HQL 转化成 MapReduce 程序
cwl_java
2020-02-21
5150
快速学习-Hive 数据类型
对于 Hive 的 String 类型相当于数据库的 varchar 类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储 2GB 的字符数。
cwl_java
2020-02-21
7210
快速学习-DDL数据定义
1)创建一个数据库,数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db。
cwl_java
2020-02-21
5240
快速学习-DML数据操作
(1)load data:表示加载数据 (2)local:表示从本地加载数据到 hive 表;否则从 HDFS 加载数据到 hive 表 (3)inpath:表示加载数据的路径 (4)overwrite:表示覆盖表中已有数据,否则表示追加 (5)into table:表示加载到哪张表 (6)student:表示具体的表 (7)partition:表示上传到指定分区
cwl_java
2020-02-21
4340
快速学习-Hive函数
1)Hive 自带了一些函数,比如:max/min 等,但是数量有限,自己可以通过自定义 UDF来方便的扩展。 2)当 Hive 提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。 3)根据用户自定义函数类别分为以下三种:
cwl_java
2020-02-21
6290
快速学习-Hive查询
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select 查询语句语法:
cwl_java
2020-02-21
1.6K0
快速学习-Azkaban概述
Azkaban 是由 Linkedin 公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的 key:value 对的方式,通过配置中的 Dependencies 来设置依赖关系。Azkaban 使用 job 配置文件建立任务之间的依赖关系,并提供一个易于使用的 web 用户界面维护和跟踪你的工作流。
cwl_java
2020-02-19
4690
快速学习-Azkaban实战
注意: 目前,Azkaban 上传的工作流文件只支持 xxx.zip 文件。zip 应包含 xxx.job 运行作业所需的文件和任何文件(文件名后缀必须以.job 结尾,否则无法识别)。作业名称在项目中必须是唯一的。
cwl_java
2020-02-18
4620
快速学习-Flume企业开发案例
在job文件夹下创建Flume Agent配置文件flume-telnet-logger.conf。 [atguigu@hadoop102 job]$ touch flume-telnet-logger.conf
cwl_java
2020-02-18
4700
大数据-sqoop数据迁移
sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。
cwl_java
2019-12-30
1.8K0
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档