腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据学习与分享
专注于大数据领域常用技术的学习与分享
专栏作者
举报
167
文章
192965
阅读量
42
订阅数
订阅专栏
申请加入专栏
全部文章(167)
spark(52)
大数据(48)
sql(33)
编程算法(21)
hive(21)
node.js(17)
数据库(17)
腾讯云开发者社区(17)
mapreduce(16)
hadoop(16)
网站(14)
存储(14)
linux(13)
kafka(13)
hbase(12)
数据(12)
TDSQL MySQL 版(10)
缓存(9)
文件存储(8)
分布式(8)
java(7)
企业(7)
jvm(7)
数据分析(7)
scala(6)
数据处理(6)
数据湖(6)
javascript(5)
api(5)
yarn(5)
flink(5)
系统(5)
云数据库 SQL Server(4)
云数据库 Redis(4)
数据安全(4)
数据迁移(4)
hashmap(4)
数据管理(4)
数据挖掘(3)
机器学习(3)
c++(3)
vr 视频解决方案(3)
http(3)
tcp/ip(3)
nest(3)
mysql(3)
管理(3)
模型(3)
数据仓库(3)
php(2)
python(2)
bash(2)
html(2)
apache(2)
神经网络(2)
日志服务(2)
日志数据(2)
电商(2)
大数据解决方案(2)
socket编程(2)
数据结构(2)
数据集成(2)
clickhouse(2)
架构(2)
解决方案(2)
开发(2)
设计(2)
实践(2)
对象存储(1)
servlet(1)
xml(1)
css(1)
jquery(1)
json(1)
android(1)
oracle(1)
jar(1)
tomcat(1)
analyzer(1)
bash 指令(1)
spring(1)
深度学习(1)
大数据处理套件 TBDS(1)
es 2(1)
容器(1)
开源(1)
运维(1)
压力测试(1)
网络安全(1)
jdk(1)
面向对象编程(1)
zookeeper(1)
grep(1)
rpc(1)
安全(1)
windows(1)
架构设计(1)
聚类算法(1)
es(1)
Elasticsearch Service(1)
智能制造(1)
etl(1)
informatica(1)
presto(1)
产品(1)
对象(1)
基础(1)
连接(1)
流量(1)
配置(1)
日志(1)
事务(1)
数据中心(1)
同步(1)
统计(1)
性能(1)
主机(1)
数据建模(1)
数据架构(1)
搜索文章
搜索
搜索
关闭
如何用SQL实现用户行为漏斗分析
bash
bash 指令
hadoop
hive
1 每日活跃设备明细 dwd_start_log--->dws_uv_detail_day
大数据学习与分享
2022-05-19
1.8K
0
如何获取Yarn和Spark UI界面指标信息
spark
http
hadoop
tcp/ip
yarn
ip和port:Yarn ResourceManager active节点的ip地址和端口号
大数据学习与分享
2021-09-24
929
0
Hadoop JMX监控和预警
hadoop
json
rpc
servlet
hbase
Hadoop slave node会定期发出一些metrics信息来反映服务的健康状况,服务团队可以通过查看这些metrics来了解服务是否处于健康状态,并回溯了解历史表现。一些典型的用例是:
大数据学习与分享
2021-07-15
1.6K
0
Hive Query生命周期 —— 钩子(Hook)函数篇
hive
linux
hadoop
mapreduce
analyzer
无论你通过哪种方式连接Hive(如Hive Cli、HiveServer2),一个HQL语句都要经过Driver的解析和执行,主要涉及HQL解析、编译、优化器处理、执行器执行四个方面。
大数据学习与分享
2020-08-10
3.4K
1
Hadoop支持的压缩格式对比和应用场景以及Hadoop native库
hadoop
文件存储
mapreduce
javascript
linux
对于文件的存储、传输、磁盘IO读取等操作在使用Hadoop生态圈的存储系统时是非常常见的,而文件的大小等直接影响了这些操作的速度以及对磁盘空间的消耗。
大数据学习与分享
2020-08-10
624
0
对Spark硬件配置的建议
hadoop
node.js
spark
mapreduce
大数据
对于Spark开发人员来说,一个比较普遍的问题就是如何合理的配置Spark的硬件?当然如何合理的对Spark集群进行硬件配置要视情况而定,在这里给出以下建议:
大数据学习与分享
2020-08-10
1.2K
0
必须掌握的分布式文件存储系统—HDFS
node.js
编程算法
大数据
hadoop
HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务,同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树,客户端可通过路径来访问文件,如hdfs://namenode:port/dir-a/a.data。HDFS集群分为两大角色:Namenode、Datanode(非HA模式会存在Secondary Namenode)
大数据学习与分享
2020-08-10
789
0
关于HDFS应知应会的几个问题
node.js
大数据
安全
hadoop
tcp/ip
安全模式是Namenode的一种状态(Namenode主要有active/standby/safemode三种模式)。
大数据学习与分享
2020-08-10
726
0
重要 | Spark和MapReduce的对比以及选型
spark
mapreduce
hadoop
大数据
【前言:笔者将分两篇文章进行阐述Spark和MapReduce的对比,首篇侧重于"宏观"上的对比,更多的是笔者总结的针对"相对于MapReduce我们为什么选择Spark"之类的问题的几个核心归纳点;次篇则从任务处理级别运用的并行机制方面上对比,更多的是让大家对Spark为什么比MapReduce快有一个更深、更全面的认识。通过两篇文章的解读,希望帮助大家对Spark和MapReduce有一个更深入的了解,并且能够在遇到诸如"MapReduce相对于Spark的局限性?"等类似的面试题时能够得到较好地表现,顺利拿下offer】
大数据学习与分享
2020-08-05
1.3K
0
Hive Join优化
hive
hadoop
大数据
在阐述Hive Join具体的优化方法之前,首先看一下Hive Join的几个重要特点,在实际使用时也可以利用下列特点做相应优化:
大数据学习与分享
2020-07-31
2.1K
0
不可不知的资源管理调度器Hadoop Yarn
hadoop
yarn
大数据
Yarn(Yet Another Resource Negotiator)是一个资源调度平台,负责为运算程序如Spark、MapReduce分配资源和调度,不参与用户程序内部工作。同样是Master/Slave架构。
大数据学习与分享
2020-07-30
765
0
Hadoop支持的压缩格式对比和应用场景以及Hadoop native库
hadoop
文件存储
大数据
spark
对于文件的存储、传输、磁盘IO读取等操作在使用Hadoop生态圈的存储系统时是非常常见的,而文件的大小等直接影响了这些操作的速度以及对磁盘空间的消耗。
大数据学习与分享
2020-07-27
1.2K
0
必须掌握的HDFS相关问题
hadoop
大数据
分布式
文件存储
安全模式是Namenode的一种状态(Namenode主要有active/standby/safemode三种模式)。
大数据学习与分享
2020-07-26
965
0
Hive如何实现自增序列
hive
hadoop
大数据
在利用数据仓库进行数据处理时,通常有这样一个业务场景,为一个Hive表新增一列自增字段(比如事实表和维度表之间的"代理主键")。虽然Hive不像RDBMS如mysql一样本身提供自增主键的功能,但它本身可以通过函数来实现自增序列功能:利用row_number()窗口函数或者使用UDFRowSequence。
大数据学习与分享
2020-07-17
4.6K
0
Hadoop调优 | NameNode主备宕机引发的思考
hadoop
大数据
大家都知道在双十一这些电商大型营销活动期间,电商网站的访问量等是平时的N倍。每当这个时候到来,无论是开发还是运维人员都严阵以待生怕服务出现问题。很不幸,笔者的一个朋友在一家电商公司上班,在双十一时,恰恰就出现了NameNode宕机的生产事故。
大数据学习与分享
2020-07-16
1.2K
0
必须掌握的分布式文件存储系统—HDFS
hadoop
大数据
HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务,同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树,客户端可通过路径来访问文件,如hdfs://namenode:port/dir-a/a.data。HDFS集群分为两大角色:Namenode、Datanode(非HA模式会存在Secondary Namenode)
大数据学习与分享
2020-07-12
996
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档