腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据学习与分享

专注于大数据领域常用技术的学习与分享

专栏作者

167

文章

192965

阅读量

42

订阅数

如何用SQL实现用户行为漏斗分析

bash bash 指令 hadoop hive

1 每日活跃设备明细 dwd_start_log--->dws_uv_detail_day

大数据学习与分享

2022-05-19

1.8K0

如何获取Yarn和Spark UI界面指标信息

spark http hadoop tcp/ip yarn

ip和port：Yarn ResourceManager active节点的ip地址和端口号

大数据学习与分享

2021-09-24

9290

Hadoop JMX监控和预警

hadoop json rpc servlet hbase

Hadoop slave node会定期发出一些metrics信息来反映服务的健康状况，服务团队可以通过查看这些metrics来了解服务是否处于健康状态，并回溯了解历史表现。一些典型的用例是：

大数据学习与分享

2021-07-15

1.6K0

Hive Query生命周期 —— 钩子（Hook）函数篇

hive linux hadoop mapreduce analyzer

无论你通过哪种方式连接Hive（如Hive Cli、HiveServer2），一个HQL语句都要经过Driver的解析和执行，主要涉及HQL解析、编译、优化器处理、执行器执行四个方面。

大数据学习与分享

2020-08-10

3.4K1

Hadoop支持的压缩格式对比和应用场景以及Hadoop native库

hadoop 文件存储 mapreduce javascript linux

对于文件的存储、传输、磁盘IO读取等操作在使用Hadoop生态圈的存储系统时是非常常见的，而文件的大小等直接影响了这些操作的速度以及对磁盘空间的消耗。

大数据学习与分享

2020-08-10

6240

对Spark硬件配置的建议

hadoop node.js spark mapreduce 大数据

对于Spark开发人员来说，一个比较普遍的问题就是如何合理的配置Spark的硬件？当然如何合理的对Spark集群进行硬件配置要视情况而定，在这里给出以下建议：

大数据学习与分享

2020-08-10

1.2K0

必须掌握的分布式文件存储系统—HDFS

node.js 编程算法大数据 hadoop

HDFS（Hadoop Distributed File System）分布式文件存储系统，主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务，同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树，客户端可通过路径来访问文件，如hdfs://namenode:port/dir-a/a.data。HDFS集群分为两大角色：Namenode、Datanode（非HA模式会存在Secondary Namenode）

大数据学习与分享

2020-08-10

7890

关于HDFS应知应会的几个问题

node.js 大数据安全 hadoop tcp/ip

安全模式是Namenode的一种状态（Namenode主要有active/standby/safemode三种模式）。

大数据学习与分享

2020-08-10

7260

重要 | Spark和MapReduce的对比以及选型

spark mapreduce hadoop 大数据

【前言：笔者将分两篇文章进行阐述Spark和MapReduce的对比，首篇侧重于"宏观"上的对比，更多的是笔者总结的针对"相对于MapReduce我们为什么选择Spark"之类的问题的几个核心归纳点；次篇则从任务处理级别运用的并行机制方面上对比，更多的是让大家对Spark为什么比MapReduce快有一个更深、更全面的认识。通过两篇文章的解读，希望帮助大家对Spark和MapReduce有一个更深入的了解，并且能够在遇到诸如"MapReduce相对于Spark的局限性？"等类似的面试题时能够得到较好地表现，顺利拿下offer】

大数据学习与分享

2020-08-05

1.3K0

Hive Join优化

hive hadoop 大数据

在阐述Hive Join具体的优化方法之前，首先看一下Hive Join的几个重要特点，在实际使用时也可以利用下列特点做相应优化：

大数据学习与分享

2020-07-31

2.1K0

不可不知的资源管理调度器Hadoop Yarn

hadoop yarn 大数据

Yarn（Yet Another Resource Negotiator）是一个资源调度平台，负责为运算程序如Spark、MapReduce分配资源和调度，不参与用户程序内部工作。同样是Master/Slave架构。

大数据学习与分享

2020-07-30

7650

Hadoop支持的压缩格式对比和应用场景以及Hadoop native库

hadoop 文件存储大数据 spark

对于文件的存储、传输、磁盘IO读取等操作在使用Hadoop生态圈的存储系统时是非常常见的，而文件的大小等直接影响了这些操作的速度以及对磁盘空间的消耗。

大数据学习与分享

2020-07-27

1.2K0

必须掌握的HDFS相关问题

hadoop 大数据分布式文件存储

安全模式是Namenode的一种状态（Namenode主要有active/standby/safemode三种模式）。

大数据学习与分享

2020-07-26

9650

Hive如何实现自增序列

hive hadoop 大数据

在利用数据仓库进行数据处理时，通常有这样一个业务场景，为一个Hive表新增一列自增字段（比如事实表和维度表之间的"代理主键"）。虽然Hive不像RDBMS如mysql一样本身提供自增主键的功能，但它本身可以通过函数来实现自增序列功能：利用row_number()窗口函数或者使用UDFRowSequence。

大数据学习与分享

2020-07-17

4.6K0

Hadoop调优 | NameNode主备宕机引发的思考

hadoop 大数据

大家都知道在双十一这些电商大型营销活动期间，电商网站的访问量等是平时的N倍。每当这个时候到来，无论是开发还是运维人员都严阵以待生怕服务出现问题。很不幸，笔者的一个朋友在一家电商公司上班，在双十一时，恰恰就出现了NameNode宕机的生产事故。

大数据学习与分享

2020-07-16

1.2K0

必须掌握的分布式文件存储系统—HDFS

hadoop 大数据

HDFS（Hadoop Distributed File System）分布式文件存储系统，主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务，同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树，客户端可通过路径来访问文件，如hdfs://namenode:port/dir-a/a.data。HDFS集群分为两大角色：Namenode、Datanode（非HA模式会存在Secondary Namenode）

大数据学习与分享

2020-07-12

9960

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态