首页
学习
活动
专区
工具
TVP
发布

大数据成神之路

专注大数据领域的一切技术~
专栏作者
635
文章
1272483
阅读量
315
订阅数
大数据调度平台分类大对比(Oozie/Azkaban/AirFlow/XXL-Job/DolphinScheduler)
大数据调度系统,是整个离线批处理任务和准实时计算计算任务的驱动器。这里我把几个常见的调度系统做了一下分类总结和对比。
王知无-import_bigdata
2022-04-13
5.4K0
「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成
hive 查询hudi 数据主要是在hive中建立外部表数据路径指向hdfs 路径,同时hudi 重写了inputformat 和outpurtformat。因为hudi 在读的数据的时候会读元数据来决定我要加载那些parquet文件,而在写的时候会写入新的元数据信息到hdfs路径下。所以hive 要集成hudi 查询要把编译的jar 包放到HIVE-HOME/lib 下面。否则查询时找不到inputformat和outputformat的类。
王知无-import_bigdata
2022-03-11
2.1K0
Apache顶级项目Ambari正式宣告退役!
Apache Ambari 是一个基于 Web 的 Apache Hadoop 集群的供应、管理和监控工具,曾是 Apache Software Foundation 的顶级项目。
王知无-import_bigdata
2022-03-11
1.1K0
大数据之Hadoop企业级生产调优手册(下)
注:演示纠删码和异构存储需要一共 5台虚拟机。尽量拿另外一套集群。提前准备 5台服务器的集群。
王知无-import_bigdata
2021-10-13
5280
【硬刚Kylin】Kylin入门/原理/调优/OLAP解决方案和行业典型应用
现今,大数据行业发展得如火如荼,新技术层出不穷,整个生态欣欣向荣。作为大数据领域最重要的技术的 Apache Hadoop 最初致力于简单的分布式存储,然后在此基础之上实现大规模并行计算,到如今在实时分析、多维分析、交互式分析、机器学习甚至人工智能等方面有了长足的发展。
王知无-import_bigdata
2021-07-12
1.1K0
实时数据湖:Flink CDC流式写入Hudi
•Flink 1.12.2_2.11•Hudi 0.9.0-SNAPSHOT(master分支)•Spark 2.4.5、Hadoop 3.1.3、Hive 3.1.2
王知无-import_bigdata
2021-07-12
2.4K0
一站式大数据解决方案分析与设计实践 | BI无缝整合Apache Kylin
本文已收录于Github仓库:《大数据成神之路》 地址:https://github.com/wangzhiwubigdata/God-Of-BigData
王知无-import_bigdata
2021-02-05
8350
打工人必备:Hive小文件合并与数据压缩
Hive仓库表数据最终是存储在HDFS上,由于Hadoop的特性,对大文件的处理非常高效。而且大文件可以减少文件元数据信息,减轻NameNode的存储压力。但是在数据仓库中,越是上层的表汇总程度就越高,数据量也就越小,而且这些表通常会有日期分区,随着时间的推移,HDFS的文件数目就会逐步增加。
王知无-import_bigdata
2020-12-18
2.3K0
Hive性能调优 | 并行执行/严格模式/JVM重用/推测执行
通过设置属性hive.mapred.mode值为默认是非严格模式nonstrict 。开启严格模式需要修改hive.mapred.mode值为strict,开启严格模式可以禁止3种类型的查询。
王知无-import_bigdata
2020-11-06
7100
Hive性能调优 | 数据倾斜
当input的文件都很大,任务逻辑复杂,map执行非常慢的时候,可以考虑增加Map数,来使得每个map处理的数据量减少,从而提高任务的执行效率。针对上面的第4条 假设有这样一个任务:
王知无-import_bigdata
2020-11-06
7240
Hadoop支持Lzo压缩配置及案例
1)hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。 2)将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-2.7.2/share/hadoop/common/
王知无-import_bigdata
2020-09-08
1.8K0
HDFS应用场景、原理、基本架构及使用方法
如果一个文件大小为10K,则1亿个文件大小仅为1TB(但要消耗掉NameNode 20GB内存)
王知无-import_bigdata
2020-08-20
1.4K0
Hive小知识之分桶抽样
然而查询时却发现 本来打算取第2个桶里的4/8 数据,但返回的数据跟预期差得很多
王知无-import_bigdata
2020-08-04
1.1K0
盘点:SQL on Hadoop中用到的主要技术
自打Hive出现之后,经过几年的发展,SQL on Hadoop相关的系统已经百花齐放,速度越来越快,功能也越来越齐全。本文并不是要去比较所谓“交互式查询哪家强”,而是试图梳理出一个统一的视角,来看看各家系统有哪些技术上相通之处。
王知无-import_bigdata
2020-06-11
1.2K0
MapReduce性能优化大纲
检测系统瓶颈 性能调优 创建一项基线,用来评估系统的首次运行性能(即集群默认配置) 分析Hadoop计数器,修改,调整配置,并重新执行任务,与基线进行比较 重复执行第2步,直到最高效率 识别资源瓶颈 内存瓶颈 当发现节点频繁出现虚拟内存交换时表示出现了内存瓶颈 CPU瓶颈 通常情况下,处理器负载超过90%,在多处理器系统上整体负载超过50% 判断是否是单个特定线程独占了CPU IO瓶颈 磁盘持续活动率超过85%(也有可能是由CPU或内存导致) 网络带宽瓶颈 在输出结果或shuffle阶段从map拉取数据时
王知无-import_bigdata
2020-06-01
9960
Kylin使用Spark构建Cube
Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 下面是单机安装采坑记,直接上配置和问题解决。 找一台干净的机器,把hadoop hive hbase从原有节点分别拷贝一份,主要目的是配置文件,可以不在kylin所在机器启动相关进程。 开源版本搭建,非整合HDP和CDH。 个别问题解决参考其他博客。 官网http://kylin.apache.org/cn/docs/ MapReduce构建Cube的问题也已解决,所以使用MapReduce构建Cube也是正常的。
王知无-import_bigdata
2020-05-20
1.8K0
HDFS读写数据过程原理分析
在学习hadoop hdfs的过程中,有很多人在编程实践这块不知道该其实现的原理是什么,为什么通过几十行小小的代码就可以实现对hdfs的数据的读写。
王知无-import_bigdata
2020-05-20
4480
Hadoop(CDH)分布式环境搭建(简单易懂,绝对有效)
本文是由alice菌发表在:https://blog.csdn.net/weixin_44318830/article/details/102846055
王知无-import_bigdata
2020-05-08
1.4K0
HDFS的SecondaryNameNode作用,你别答错
这是道经典的基础面试题,笔者问过面试者很多次(当然也被面试官问过很多次)。从印象看,大约有一半的被面试者无法正确作答,给出的答案甚至有“不就是NameNode的热备嘛”。本文来简单聊聊相关的知识,为节省篇幅,将SecondaryNameNode简称SNN,NameNode简称NN。
王知无-import_bigdata
2020-04-17
8680
Flink1.10和Hive集成一些需要注意的点
前几天,Flink官方release了Flink1.10版本,这个版本有很多改动。比如:
王知无-import_bigdata
2020-02-20
1.4K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档