首页
学习
活动
专区
工具
TVP
发布

kk大数据

专栏作者
116
文章
197102
阅读量
42
订阅数
如何 debug Hive 源码,知其然知其所以然
最近在出差,客户现场的 HiveServer 在很长时间内不可用,查看 CM 的监控发现,HiveServer 的内存在某一时刻暴涨,同时 JVM 开始 GC,每次 GC 长达 1 分钟,导致很长时间内,整个 HiveServer 不可用。
kk大数据
2021-01-27
5580
计算引擎之下,存储之上 - 数据湖初探
随着移动互联网,物联网技术的发展,数据的应用逐渐从 BI 报表可视化往机器学习、预测分析等方向发展,即 BI 到 AI 的转变。
kk大数据
2020-12-29
1.5K0
大数据快速入门(10):Hive窗口函数
首先,需要认识到,窗口函数并不是只有 hive 才有的,SQL 语法标准中,就有窗口函数。
kk大数据
2020-11-11
1.3K0
大数据快速入门(09):永久弄清楚 Hive 分区表和分桶表的区别
蛋蛋 和 小智 今天又在“打情骂俏”,他们今天在谈论分区表和分桶表,走,我们去听听。
kk大数据
2020-11-03
4.2K0
Hive SQL 语法大全,宇宙最强整理,建议收藏
LOCATION 是指定外部表的存储路径,MANAGEDLOCATION 是指定管理表的存储路径(hive 4.0.0 才支持),官方建议默认就行,让所有的表都在一个根目录下。
kk大数据
2020-11-03
4.7K0
大数据快速入门(07):数据仓库神器 Hive
上次,小K 介绍了 MapReduce 框架,大大简化了大数据编程的难度,即使是没有学过分布式技术的开发人员,也能用 MapReduce 开发出大数据分布式计算程序。
kk大数据
2020-11-03
4880
大数据快速入门(02):选择大数据,我该往哪个方向发展
大数据的方向有很多的,即使没有真正经历过,平时也会耳濡目染,在各大杂志公众号新闻上听说过,什么大数据人工智能,大数据分析挖掘,大数据架构师等职位。
kk大数据
2020-09-29
6770
Hive的常用优化
数据量大尽量避免使用 count(distinct) ,这会导致所有数据在一个 reduce 内去重,导致运行缓慢,使用 group by 来代替
kk大数据
2020-04-24
1.2K0
Hive 系列 之 基础知识和操作合集
今天,朋友圈和公众号被鸿蒙刷屏,作为开发者,由衷感叹人类科技已经发展得这么先进了,基于微内核的全场景分布式OS,虽然不太懂是什么意思,但仍然觉得高大上。
kk大数据
2019-08-14
5870
Hive系列:分桶表
分桶将整个数据内容按照某列属性值的hash值进行区分,如要按照 name 属性分为3个桶,就是对 name 属性值的hash值对3取模,按照取模结果对数据分桶。
kk大数据
2019-08-14
7570
Hive 系列 之 开篇
细细品味这首诗,忽然发觉以前学这首诗的意义在于背诵和考试,如今细细品味这首诗,不禁感叹意境真好。天色微凉,牵着手,一起爬山那高高的山头看那天边的牵牛织女星,多么美好的夜晚。古人的生活比现在的生活惬意多了。
kk大数据
2019-08-14
6270
Hive 系列 之 UDF,UDTF,UDAF
Hive 的 类 sql 给 开发者和分析者带来了极大的便利,使用 sql 就可以完成海量数据的处理,但是有时候,hive 自带的一些函数可能无法满足需求,这个时候,就需要我们自己定义一些函数,像插件一样在MapReduce过程中生效。
kk大数据
2019-08-14
4.8K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档