首页
学习
活动
专区
工具
TVP
发布

大数据学习与分享

专注于大数据领域常用技术的学习与分享
专栏作者
167
文章
192965
阅读量
42
订阅数
如何用SQL实现用户行为漏斗分析
1 每日活跃设备明细 dwd_start_log--->dws_uv_detail_day
大数据学习与分享
2022-05-19
1.8K0
如何获取Yarn和Spark UI界面指标信息
ip和port:Yarn ResourceManager active节点的ip地址和端口号
大数据学习与分享
2021-09-24
9290
Hadoop JMX监控和预警
Hadoop slave node会定期发出一些metrics信息来反映服务的健康状况,服务团队可以通过查看这些metrics来了解服务是否处于健康状态,并回溯了解历史表现。一些典型的用例是:
大数据学习与分享
2021-07-15
1.6K0
Hive Query生命周期 —— 钩子(Hook)函数篇
无论你通过哪种方式连接Hive(如Hive Cli、HiveServer2),一个HQL语句都要经过Driver的解析和执行,主要涉及HQL解析、编译、优化器处理、执行器执行四个方面。
大数据学习与分享
2020-08-10
3.4K1
Hadoop支持的压缩格式对比和应用场景以及Hadoop native库
对于文件的存储、传输、磁盘IO读取等操作在使用Hadoop生态圈的存储系统时是非常常见的,而文件的大小等直接影响了这些操作的速度以及对磁盘空间的消耗。
大数据学习与分享
2020-08-10
6240
对Spark硬件配置的建议
对于Spark开发人员来说,一个比较普遍的问题就是如何合理的配置Spark的硬件?当然如何合理的对Spark集群进行硬件配置要视情况而定,在这里给出以下建议:
大数据学习与分享
2020-08-10
1.2K0
必须掌握的分布式文件存储系统—HDFS
HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务,同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树,客户端可通过路径来访问文件,如hdfs://namenode:port/dir-a/a.data。HDFS集群分为两大角色:Namenode、Datanode(非HA模式会存在Secondary Namenode)
大数据学习与分享
2020-08-10
7890
关于HDFS应知应会的几个问题
安全模式是Namenode的一种状态(Namenode主要有active/standby/safemode三种模式)。
大数据学习与分享
2020-08-10
7260
重要 | Spark和MapReduce的对比以及选型
【前言:笔者将分两篇文章进行阐述Spark和MapReduce的对比,首篇侧重于"宏观"上的对比,更多的是笔者总结的针对"相对于MapReduce我们为什么选择Spark"之类的问题的几个核心归纳点;次篇则从任务处理级别运用的并行机制方面上对比,更多的是让大家对Spark为什么比MapReduce快有一个更深、更全面的认识。通过两篇文章的解读,希望帮助大家对Spark和MapReduce有一个更深入的了解,并且能够在遇到诸如"MapReduce相对于Spark的局限性?"等类似的面试题时能够得到较好地表现,顺利拿下offer】
大数据学习与分享
2020-08-05
1.3K0
Hive Join优化
在阐述Hive Join具体的优化方法之前,首先看一下Hive Join的几个重要特点,在实际使用时也可以利用下列特点做相应优化:
大数据学习与分享
2020-07-31
2.1K0
不可不知的资源管理调度器Hadoop Yarn
Yarn(Yet Another Resource Negotiator)是一个资源调度平台,负责为运算程序如Spark、MapReduce分配资源和调度,不参与用户程序内部工作。同样是Master/Slave架构。
大数据学习与分享
2020-07-30
7650
Hadoop支持的压缩格式对比和应用场景以及Hadoop native库
对于文件的存储、传输、磁盘IO读取等操作在使用Hadoop生态圈的存储系统时是非常常见的,而文件的大小等直接影响了这些操作的速度以及对磁盘空间的消耗。
大数据学习与分享
2020-07-27
1.2K0
必须掌握的HDFS相关问题
安全模式是Namenode的一种状态(Namenode主要有active/standby/safemode三种模式)。
大数据学习与分享
2020-07-26
9650
Hive如何实现自增序列
在利用数据仓库进行数据处理时,通常有这样一个业务场景,为一个Hive表新增一列自增字段(比如事实表和维度表之间的"代理主键")。虽然Hive不像RDBMS如mysql一样本身提供自增主键的功能,但它本身可以通过函数来实现自增序列功能:利用row_number()窗口函数或者使用UDFRowSequence。
大数据学习与分享
2020-07-17
4.6K0
Hadoop调优 | NameNode主备宕机引发的思考
大家都知道在双十一这些电商大型营销活动期间,电商网站的访问量等是平时的N倍。每当这个时候到来,无论是开发还是运维人员都严阵以待生怕服务出现问题。很不幸,笔者的一个朋友在一家电商公司上班,在双十一时,恰恰就出现了NameNode宕机的生产事故。
大数据学习与分享
2020-07-16
1.2K0
必须掌握的分布式文件存储系统—HDFS
HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务,同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树,客户端可通过路径来访问文件,如hdfs://namenode:port/dir-a/a.data。HDFS集群分为两大角色:Namenode、Datanode(非HA模式会存在Secondary Namenode)
大数据学习与分享
2020-07-12
9960
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档