cwl_Java-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

cwl_Java

专栏成员

2423

文章

2234029

阅读量

65

订阅数

快速学习-Azkaban入门

hive 网站任务调度 hadoop mapreduce

1）一个完整的数据分析系统通常都是由大量任务单元组成：shell脚本程序，java程序，mapreduce程序、hive脚本等 2）各任务单元之间存在时间先后及前后依赖关系 3）为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；

2020-03-25

6000

快速学习-Presto优化

1）合理设置分区与Hive类似，Presto会根据元信息读取分区数据，合理的分区能减少Presto数据读取量，提升查询性能。 2）使用列式存储 Presto对ORC文件读取做了特定优化，因此在Hive中创建Presto使用的表时，建议采用ORC格式存储。相对于Parquet，Presto对ORC支持更好。 3）使用压缩数据压缩可以减少节点间数据传输对IO带宽压力，对于即席查询需要快速解压，建议采用Snappy压缩。 4）预先排序对于已经排序的数据，在查询的数据过滤阶段，ORC格式支持跳过读取不必要的数据。比如对于经常需要过滤的字段可以预先排序。

2020-03-24

1.9K0

快速学习-Presto安装部署

hive node.js jvm 大数据 http

支持以下文件类型：Text, SequenceFile, RCFile, ORC 此外，需要有远程的Hive元数据。不支持本地或嵌入模式。 Presto不使用MapReduce，只需要HDFS。

2020-03-24

3.3K0

快速学习-Presto简介

数据分析数据库 sql 云数据库 SQL Server hive

Presto是一个开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节。 Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。

2020-03-24

1.8K0

快速学习-Kylin入门

在Hive中创建数据，分别创建部门和员工外部表，并向表中导入数据。（1）原始数据

2020-03-24

4161

presto环境搭建

node.js hive hadoop https http

1、环境准备支持操作系统： Linux or Mac OS X Java 8, 64-bit Python 2.4+

2020-03-24

1.7K0

快速学习-Sqoop一些常用命令及参数

大数据 hive 数据库 html jquery

这里给大家列出来了一部分Sqoop操作时的常用参数，以供参考，需要深入学习的可以参看对应类的源代码。

2020-03-19

1.5K0

快速学习-Hive企业级调优

hive mapreduce hadoop

Fetch 抓取是指，Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如：SELECT * FROM employees;在这种情况下，Hive 可以简单地读取 employee 对应的存储目录下的文件，然后输出查询结果到控制台。在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more，老版本 hive默认是 minimal，该属性修改为 more 以后，在全局查找、字段查找、limit 查找等都不走mapreduce。

2020-02-21

9530

快速学习-Hive 安装

hive 编程算法 xml 云数据库 SQL Server 数据库

（3）修改 apache-hive-1.2.1-bin.tar.gz 的名称为 hive

2020-02-21

1.1K0

快速学习-HBaseAPI操作

hbase TDSQL MySQL 版 hive mapreduce 数据库

通过HBase的相关JavaAPI，我们可以实现伴随HBase操作的MapReduce过程，比如使用MapReduce将数据从本地文件系统导入到HBase的表中，比如我们从HBase中读取一些原始数据后使用MapReduce做数据分析。

2020-02-21

4570

快速学习-Hive 基本概念

mapreduce hadoop 数据库 sql hive

Hive：由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。本质是：将 HQL 转化成 MapReduce 程序

2020-02-21

5660

快速学习-Hive 数据类型

hive java 数据结构编程算法

对于 Hive 的 String 类型相当于数据库的 varchar 类型，该类型是一个可变的字符串，不过它不能声明其中最多能存储多少个字符，理论上它可以存储 2GB 的字符数。

2020-02-21

7590

快速学习-DDL数据定义

数据库 sql 大数据 hive python

1）创建一个数据库，数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db。

2020-02-21

5630

快速学习-DML数据操作

大数据 hive sql

（1）load data:表示加载数据（2）local:表示从本地加载数据到 hive 表；否则从 HDFS 加载数据到 hive 表（3）inpath:表示加载数据的路径（4）overwrite:表示覆盖表中已有数据，否则表示追加（5）into table:表示加载到哪张表（6）student:表示具体的表（7）partition:表示上传到指定分区

2020-02-21

4520

快速学习-Hive函数

jar hive java 编程算法

1）Hive 自带了一些函数，比如：max/min 等，但是数量有限，自己可以通过自定义 UDF来方便的扩展。 2）当 Hive 提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF：user-defined function）。 3）根据用户自定义函数类别分为以下三种：

2020-02-21

6590

快速学习-Hive查询

数据库 sql hive mapreduce

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select 查询语句语法：

2020-02-21

1.8K0

快速学习-Azkaban概述

任务调度 mapreduce 数据库 sql hive

Azkaban 是由 Linkedin 公司推出的一个批量工作流任务调度器，主要用于在一个工作流内以一个特定的顺序运行一组工作和流程，它的配置是通过简单的 key:value 对的方式，通过配置中的 Dependencies 来设置依赖关系。Azkaban 使用 job 配置文件建立任务之间的依赖关系，并提供一个易于使用的 web 用户界面维护和跟踪你的工作流。

2020-02-19

5020

快速学习-Azkaban实战

网站 java jar mapreduce hive

注意：目前，Azkaban 上传的工作流文件只支持 xxx.zip 文件。zip 应包含 xxx.job 运行作业所需的文件和任何文件（文件名后缀必须以.job 结尾，否则无法识别）。作业名称在项目中必须是唯一的。

2020-02-18

4910

快速学习-Flume企业开发案例

tcp/ip 编程算法大数据 java hive

在job文件夹下创建Flume Agent配置文件flume-telnet-logger.conf。 [atguigu@hadoop102 job]$ touch flume-telnet-logger.conf

2020-02-18

4950

大数据-sqoop数据迁移

hive 大数据云数据库 SQL Server 数据库 sql

sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。

2019-12-30

1.8K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态