首页
学习
活动
专区
工具
TVP
发布

Albert陈凯

专栏作者
530
文章
783872
阅读量
55
订阅数
Hive第二天学习内容总结Hive 第三天DDL特别注意一下,没事别删除数据DML
Hive 第三天 [toc] 第二天内容回顾 Hive帮助文档的地址 https://cwiki.apache.org/confluence/display/Hive/Home Hive SQL Language Manual: Commands, CLIs, Data Types, DDL (create/drop/alter/truncate/show/describe), Statistics (analyze), Indexes, Archiving, DML (load/insert/updat
Albert陈凯
2018-04-08
8680
hive的partition的作用和使用方法
一、背景 在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。 分区表指的是在创建表时指定的partition的分区空间。 如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned by,详见表创建的语法结构。 二、技术细节 一个表可以拥有一个或者多个分区,每个分区以文件夹的形式单独存在表文件夹的目录下。 表和列名不区分大小写。 分区是以字段的形式在表结构中存在,通过des
Albert陈凯
2018-04-08
5.8K0
Hive Tips Hive使用技巧
http://blog.sina.com.cn/s/blog_6a7df1f1010197d2.html 在Hive中,某些小技巧可以让我们的Job执行得更快,有时一点小小的改动就可以让性能得到大幅提升,这一点其实跟SQL差不多。 首先,Hive != SQL,虽然二者的语法很像,但是Hive最终会被转化成MapReduce的代码去执行,所以数据库的优化原则基本上都不适用于 Hive。也正因如此,Hive实际上是用来做计算的,而不像数据库是用作存储的,当然数据库也有很多计算功能,但一般并不建议在SQL中大
Albert陈凯
2018-04-08
1.2K0
2017年11月1日课后作业Hive 第二次课程DDL内部表、外部表、临时表的创建和特性DML
2017年11月1日课后作业 Hive 第二次课程 回顾上节课的内容 Hive是什么 SQL -> MapReduce 为什么会有Hive 给非Java编程者对HDFS上的数据做MapReduce查询使用 数据仓库 HIve架构 数据是存在HDFS上的 hive-site.xml 我们配置hive.metastore.warehouse.dir 元数据是存在RDBMS 包括,表的名字,字段的名称、类型 还需要存,数据放在HDFS哪个目录上了 计算是基于MapReduce 解释器、编译器、优化器 Oper
Albert陈凯
2018-04-08
7060
Hadoop离线数据分析平台实战——400用户浏览深度分析Hadoop离线数据分析平台实战——400用户浏览深度分析
Hadoop离线数据分析平台实战——400用户浏览深度分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 完成 浏览器信息分析(MR) 完成 地域信息分析(MR) 完成 外链信息分析(MR) 完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 模块介绍 用户浏览深度分析中,通过pv值来表示用户的浏览深度, 分别从两个不同的角度来展示浏览深度,分别为会话和用户。 会话是指,每个pv阶段对应的会话个数
Albert陈凯
2018-04-08
6260
Hadoop离线数据分析平台实战——430MR和Hive任务Oozie部署Hadoop离线数据分析平台实战——430MR和Hive任务Oozie部署
Hadoop离线数据分析平台实战——430MR和Hive任务Oozie部署 参考:oozie\package-info.java 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 完成 浏览器信息分析(MR) 完成 地域信息分析(MR) 完成 外链信息分析(MR) 完成 用户浏览深度分析(Hive) 完成 订单分析(Hive) 完成 事件分析(Hive) 完成 MR程序Oozie workflow部署 MR程序有两种方式进行oozie部署, 第一种就是使
Albert陈凯
2018-04-08
9910
Hadoop离线数据分析平台实战——380MapReduce程序优化Hadoop离线数据分析平台实战——380MapReduce程序优化
Hadoop离线数据分析平台实战——380MapReduce程序优化 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 完成 浏览器信息分析(MR) 完成 地域信息分析(MR) 完成 外链信息分析(MR) 完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 调优的目的 充分的利用机器的性能,更快的完成mr程序的计算任务。 甚至是在有限的机器条件下,能够支持运行足够多的mr程序。 说的直接一点就是:调优
Albert陈凯
2018-04-08
6850
Hadoop离线数据分析平台实战——310新增会员和总会员分析Hadoop离线数据分析平台实战——310新增会员和总会员分析
Hadoop离线数据分析平台实战——310新增会员和总会员分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 未完成 浏览器信息分析(MR) 未完成 地域信息分析(MR) 未完成 外链信息分析(MR) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 模块介绍 新增会员统计类似新增用户统计,也是统计新增u_mid的个数, 在新增用户统计中,我们是统计launch事件中,uuid的唯一个数, 那
Albert陈凯
2018-04-08
8940
Hadoop数据分析平台实战——280新增用户和总用户分析Hadoop离线数据分析平台实战——280新增用户和总用户分析
Hadoop离线数据分析平台实战——280新增用户和总用户分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 未完成 浏览器信息分析(MR) 未完成 地域信息分析(MR) 未完成 外链信息分析(MR) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 业务总述 在本次项目中只有两个地方需要新用户数据和总用户数据, 分别为用户基本信息分析模块和浏览器分析模块, 它们的区别主要就是统计分析的维度不
Albert陈凯
2018-04-08
1.1K0
Hadoop数据分析平台实战——170Oozie介绍及环境搭建离线数据分析平台实战——170Oozie介绍及环境搭建
离线数据分析平台实战——170Oozie介绍及环境搭建 Oozie介绍 Oozie是一个工作流引擎服务器,用于运行Hadoop Map/Reduce和Hive等任务工作流. 同时Oozie还是一个Java Web程序,运行在Java Servlet容器中,如Tomcat中。 Oozie以action为基本任务单位,可以将多个action构成一个DAG图(有向无环图Direct Acyclic Graph)的模式进行运行。 Oozie工作流通过HPDL(一种通过XML自定义处理的语言)来构造Oozie的
Albert陈凯
2018-04-08
7960
Hadoop数据分析平台实战——120Hive Shell命令介绍 01(熟悉Hive略过)离线数据分析平台实战——120Hive Shell命令介绍 01(熟悉Hive略过)
离线数据分析平台实战——120Hive Shell命令介绍 01(熟悉Hive略过) Hive服务介绍 Hive默认提供的cli(shell)服务,如果需要启动其他服务,那么需要service参数来启
Albert陈凯
2018-04-08
1.1K0
Hadoop数据分析平台实战——110Hive介绍和Hive环境搭建离线数据分析平台实战——110Hive介绍和Hive环境搭建
离线数据分析平台实战——110Hive介绍和Hive环境搭建 Hive介绍 Hive是构建在Hadoop之上的数据仓库平台,设计目标就是将hadoop上的数据操作同SQL结合,让熟悉SQL编程的开发人员能够轻松的向Hadoop平台上转移。 Hive可以在HDFS上构建数据仓库存储结构化数据,这些数据来源就是hdfs上,hive提供了一个类似sql的查询语言HiveQL来进行查询、变换数据等操作。 当然HiveQL语句的底层是转换为相应的mapreduce代码进行执行的。 Hive组成 Hive包含用户接口
Albert陈凯
2018-04-08
9150
P03_Hive 安装
安装hive包 [CDH下载地址](http://archive.cloudera.com/cdh5/cdh/5/) 1、将hive-0.13.1-cdh5.3.10.tar.gz使用WinSCP上传到sparkproject1的/usr/local目录下。 2、解压缩hive安装包:tar -zxvf hive-0.13.1-cdh5.3.6.tar.gz 3、重命名hive目录:mv hive-0.13.1-cdh5.3.6 hive 4、配置hive相关的环境变量 vi /etc/profile
Albert陈凯
2018-04-08
5100
大数据实战项目《大型电商日志分析》的知识点大数据实战项目的知识点
大数据实战项目的知识点 1、大数据集群环境的搭建 CentOS 6.8、 hadoop-2.7.3、 hive-0.13.1 zookeeper-3.4.10 kafka_2.10-0.10.2.0、 flume-ng-1.7.0 日志采集流程、 Spark 1.6.3 2、企业级大数据项目的架构搭建 Java、配置管理组件、JDBC辅助组件(内置数据库连接池)、Domain与DAO模型 scala:只适合用于编写一些比较纯粹的一些数据处理程序(比如说一些复杂的数据etl) 真正的讲师本人做
Albert陈凯
2018-04-08
1.4K0
Impala 与Hive
Impala 与Hive都是构建在Hadoop之上的数据查询工具,但是各有不同侧重,那么我们为什么要同时使用这两个工具呢?单独使用Hive或者Impala不可以吗? 一、介绍Impala和Hive
Albert陈凯
2018-04-04
1.3K0
XX公司大数据笔试题(A)
XX公司大数据笔试题(A) 大数据基础(HDFS/Hbase/Hive/Spark〉 1.1. 对出Hadoop集群典型的配置文件名称,并说明各配置文件的用途。 1.2 怎么往HDFS上传文件和目
Albert陈凯
2018-04-04
2.1K0
为什么之前的MapReduce系统比较慢
本文就两个问题进行讨论:1. 相比于Shark,为什么像Hive之类的传统MapReduce框架比较慢? 2. 对于细粒度的任务模型(fine-grained task model),究竟有些什么优势
Albert陈凯
2018-04-04
1.1K0
Hadoop、Hbase、Hive版本兼容性
当我们想整合hadoop,hbase,hive,zookeeper的时候,如果刚入门,可能认为这是比较简单的问题。但是当你自己真正想整合的时候,却会遇到很多的问题。1.hadoop与hbase哪些版本兼容?2.hadoop与hive哪些版本兼容?3.hbase与hive哪些版本兼容?4.hbase与zookeeper哪些版本兼容?所以当我们真正想做整合的时候,我们需要解决上面四个问题,有些同学,忽略上面问题,直接部署,导致产生各种问题。所以我们现在就要解决上面问题。第一个问题,hadoop与hbase哪些版
Albert陈凯
2018-04-04
7.4K0
Hive性能优化统计每日IP CREATE TABLE ip_2014_12_29 AS SELECT COUNT(DISTINCT ip) AS IP FROM logdfs WHERE logda
Hive性能优化 1.概述   继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。 2.介绍   首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,
Albert陈凯
2018-04-04
1.6K0
值得拥有 不容错过的Hive精华汇总
Hive作为Hadoop家族的重要一员,具有学习成本低,开发者可通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用。在攒库中,Hive也不负众望,得到了非常高的票数。为此,CSDN知识库特邀社区专家蒋守壮(博客: http://blog.csdn.net/jiangshouzhuang )绘制了Hive技术图谱,帮助广大开发者更加系统、全面的学习Hive技术。 Hive知识库发布,速来关注! 我要成为Hive专家团一员,筛选优质内容>>猛戳这里: http://li
Albert陈凯
2018-04-04
5760
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档