腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

kk大数据

专栏作者

116

文章

197102

阅读量

42

订阅数

如何 debug Hive 源码，知其然知其所以然

hadoop xml hive 打包 windows

最近在出差，客户现场的 HiveServer 在很长时间内不可用，查看 CM 的监控发现，HiveServer 的内存在某一时刻暴涨，同时 JVM 开始 GC，每次 GC 长达 1 分钟，导致很长时间内，整个 HiveServer 不可用。

2021-01-27

5580

计算引擎之下，存储之上 - 数据湖初探

数据湖存储 apache spark hive

随着移动互联网，物联网技术的发展，数据的应用逐渐从 BI 报表可视化往机器学习、预测分析等方向发展，即 BI 到 AI 的转变。

2020-12-29

1.5K0

大数据快速入门（10）：Hive窗口函数

首先，需要认识到，窗口函数并不是只有 hive 才有的，SQL 语法标准中，就有窗口函数。

2020-11-11

1.3K0

大数据快速入门（09）：永久弄清楚 Hive 分区表和分桶表的区别

node.js 大数据 hive

蛋蛋和小智今天又在“打情骂俏”，他们今天在谈论分区表和分桶表，走，我们去听听。

2020-11-03

4.2K0

Hive SQL 语法大全，宇宙最强整理，建议收藏

文件存储数据分析数据库存储 hive

LOCATION 是指定外部表的存储路径，MANAGEDLOCATION 是指定管理表的存储路径（hive 4.0.0 才支持），官方建议默认就行，让所有的表都在一个根目录下。

2020-11-03

4.7K0

大数据快速入门（07）：数据仓库神器 Hive

sql 数据库 hive 大数据 hadoop

上次，小K 介绍了 MapReduce 框架，大大简化了大数据编程的难度，即使是没有学过分布式技术的开发人员，也能用 MapReduce 开发出大数据分布式计算程序。

2020-11-03

4880

大数据快速入门（02）：选择大数据，我该往哪个方向发展

大数据 hive 数据分析 spark 机器学习

大数据的方向有很多的，即使没有真正经历过，平时也会耳濡目染，在各大杂志公众号新闻上听说过，什么大数据人工智能，大数据分析挖掘，大数据架构师等职位。

2020-09-29

6770

Hive的常用优化

mapreduce hive sql

数据量大尽量避免使用 count(distinct) ，这会导致所有数据在一个 reduce 内去重，导致运行缓慢，使用 group by 来代替

2020-04-24

1.2K0

Hive 系列之基础知识和操作合集

编程算法大数据 hive 数据库 sql

今天，朋友圈和公众号被鸿蒙刷屏，作为开发者，由衷感叹人类科技已经发展得这么先进了，基于微内核的全场景分布式OS，虽然不太懂是什么意思，但仍然觉得高大上。

2019-08-14

5870

Hive系列：分桶表

hive data hash join load

分桶将整个数据内容按照某列属性值的hash值进行区分，如要按照 name 属性分为3个桶，就是对 name 属性值的hash值对3取模，按照取模结果对数据分桶。

2019-08-14

7570

Hive 系列之开篇

hive mapreduce 大数据 jdbc 数据库

细细品味这首诗，忽然发觉以前学这首诗的意义在于背诵和考试，如今细细品味这首诗，不禁感叹意境真好。天色微凉，牵着手，一起爬山那高高的山头看那天边的牵牛织女星，多么美好的夜晚。古人的生活比现在的生活惬意多了。

2019-08-14

6270

Hive 系列之 UDF，UDTF，UDAF

hive sql 编程算法

Hive 的类 sql 给开发者和分析者带来了极大的便利，使用 sql 就可以完成海量数据的处理，但是有时候，hive 自带的一些函数可能无法满足需求，这个时候，就需要我们自己定义一些函数，像插件一样在MapReduce过程中生效。

2019-08-14

4.8K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态