腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据成神之路

专注大数据领域的一切技术~

专栏作者

635

文章

1272483

阅读量

315

订阅数

大数据调度平台分类大对比(Oozie/Azkaban/AirFlow/XXL-Job/DolphinScheduler)

apache 开源 hadoop 分布式任务调度

大数据调度系统，是整个离线批处理任务和准实时计算计算任务的驱动器。这里我把几个常见的调度系统做了一下分类总结和对比。

王知无-import_bigdata

2022-04-13

5.4K0

「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成

hive spark hadoop sql jar

hive 查询hudi 数据主要是在hive中建立外部表数据路径指向hdfs 路径，同时hudi 重写了inputformat 和outpurtformat。因为hudi 在读的数据的时候会读元数据来决定我要加载那些parquet文件，而在写的时候会写入新的元数据信息到hdfs路径下。所以hive 要集成hudi 查询要把编译的jar 包放到HIVE-HOME/lib 下面。否则查询时找不到inputformat和outputformat的类。

王知无-import_bigdata

2022-03-11

2.1K0

Apache顶级项目Ambari正式宣告退役！

apache hadoop 网站

Apache Ambari 是一个基于 Web 的 Apache Hadoop 集群的供应、管理和监控工具，曾是 Apache Software Foundation 的顶级项目。

王知无-import_bigdata

2022-03-11

1.1K0

大数据之Hadoop企业级生产调优手册(下)

大数据存储 xml hadoop mapreduce

注：演示纠删码和异构存储需要一共 5台虚拟机。尽量拿另外一套集群。提前准备 5台服务器的集群。

王知无-import_bigdata

2021-10-13

5280

【硬刚Kylin】Kylin入门/原理/调优/OLAP解决方案和行业典型应用

apache hbase TDSQL MySQL 版 hadoop 大数据

现今，大数据行业发展得如火如荼，新技术层出不穷，整个生态欣欣向荣。作为大数据领域最重要的技术的 Apache Hadoop 最初致力于简单的分布式存储，然后在此基础之上实现大规模并行计算，到如今在实时分析、多维分析、交互式分析、机器学习甚至人工智能等方面有了长足的发展。

王知无-import_bigdata

2021-07-12

1.1K0

实时数据湖：Flink CDC流式写入Hudi

hadoop flink 大数据 spark hive

•Flink 1.12.2_2.11•Hudi 0.9.0-SNAPSHOT(master分支)•Spark 2.4.5、Hadoop 3.1.3、Hive 3.1.2

王知无-import_bigdata

2021-07-12

2.4K0

一站式大数据解决方案分析与设计实践 | BI无缝整合Apache Kylin

hadoop 大数据 apache spring flink

本文已收录于Github仓库：《大数据成神之路》地址：https://github.com/wangzhiwubigdata/God-Of-BigData

王知无-import_bigdata

2021-02-05

8350

打工人必备：Hive小文件合并与数据压缩

hive 文件存储存储大数据 hadoop

Hive仓库表数据最终是存储在HDFS上，由于Hadoop的特性，对大文件的处理非常高效。而且大文件可以减少文件元数据信息，减轻NameNode的存储压力。但是在数据仓库中，越是上层的表汇总程度就越高，数据量也就越小，而且这些表通常会有日期分区，随着时间的推移，HDFS的文件数目就会逐步增加。

王知无-import_bigdata

2020-12-18

2.3K0

Hive性能调优 | 并行执行/严格模式/JVM重用/推测执行

jvm hadoop hive mapreduce xml

通过设置属性hive.mapred.mode值为默认是非严格模式nonstrict 。开启严格模式需要修改hive.mapred.mode值为strict，开启严格模式可以禁止3种类型的查询。

王知无-import_bigdata

2020-11-06

7100

Hive性能调优 | 数据倾斜

mapreduce hadoop 大数据 linux

当input的文件都很大，任务逻辑复杂，map执行非常慢的时候，可以考虑增加Map数，来使得每个map处理的数据量减少，从而提高任务的执行效率。针对上面的第4条假设有这样一个任务：

王知无-import_bigdata

2020-11-06

7240

Hadoop支持Lzo压缩配置及案例

hadoop node.js 大数据文件存储打包

1）hadoop本身并不支持lzo压缩，故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译，编译步骤如下。 2）将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-2.7.2/share/hadoop/common/

王知无-import_bigdata

2020-09-08

1.8K0

HDFS应用场景、原理、基本架构及使用方法

大数据缓存 node.js hadoop bash

如果一个文件大小为10K，则1亿个文件大小仅为1TB(但要消耗掉NameNode 20GB内存)

王知无-import_bigdata

2020-08-20

1.4K0

Hive小知识之分桶抽样

hadoop hash select

然而查询时却发现本来打算取第2个桶里的4/8 数据，但返回的数据跟预期差得很多

王知无-import_bigdata

2020-08-04

1.1K0

盘点：SQL on Hadoop中用到的主要技术

hive spark sql 数据库 hadoop

自打Hive出现之后，经过几年的发展，SQL on Hadoop相关的系统已经百花齐放，速度越来越快，功能也越来越齐全。本文并不是要去比较所谓“交互式查询哪家强”，而是试图梳理出一个统一的视角，来看看各家系统有哪些技术上相通之处。

王知无-import_bigdata

2020-06-11

1.2K0

MapReduce性能优化大纲

文件存储 mapreduce 大数据 hadoop

检测系统瓶颈性能调优创建一项基线，用来评估系统的首次运行性能（即集群默认配置）分析Hadoop计数器，修改，调整配置，并重新执行任务，与基线进行比较重复执行第2步，直到最高效率识别资源瓶颈内存瓶颈当发现节点频繁出现虚拟内存交换时表示出现了内存瓶颈 CPU瓶颈通常情况下，处理器负载超过90%，在多处理器系统上整体负载超过50% 判断是否是单个特定线程独占了CPU IO瓶颈磁盘持续活动率超过85%（也有可能是由CPU或内存导致）网络带宽瓶颈在输出结果或shuffle阶段从map拉取数据时

王知无-import_bigdata

2020-06-01

9960

Kylin使用Spark构建Cube

spark hbase yarn hadoop TDSQL MySQL 版

Apache Kylin™是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。下面是单机安装采坑记，直接上配置和问题解决。找一台干净的机器，把hadoop hive hbase从原有节点分别拷贝一份，主要目的是配置文件，可以不在kylin所在机器启动相关进程。开源版本搭建，非整合HDP和CDH。个别问题解决参考其他博客。官网http://kylin.apache.org/cn/docs/ MapReduce构建Cube的问题也已解决，所以使用MapReduce构建Cube也是正常的。

王知无-import_bigdata

2020-05-20

1.8K0

HDFS读写数据过程原理分析

node.js 编程算法 hadoop 分布式 xml

在学习hadoop hdfs的过程中，有很多人在编程实践这块不知道该其实现的原理是什么，为什么通过几十行小小的代码就可以实现对hdfs的数据的读写。

王知无-import_bigdata

2020-05-20

4480

Hadoop(CDH)分布式环境搭建(简单易懂,绝对有效)

hadoop xml 大数据 yarn node.js

本文是由alice菌发表在：https://blog.csdn.net/weixin_44318830/article/details/102846055

王知无-import_bigdata

2020-05-08

1.4K0

HDFS的SecondaryNameNode作用，你别答错

node.js 存储 hadoop 大数据

这是道经典的基础面试题，笔者问过面试者很多次（当然也被面试官问过很多次）。从印象看，大约有一半的被面试者无法正确作答，给出的答案甚至有“不就是NameNode的热备嘛”。本文来简单聊聊相关的知识，为节省篇幅，将SecondaryNameNode简称SNN，NameNode简称NN。

王知无-import_bigdata

2020-04-17

8680

Flink1.10和Hive集成一些需要注意的点

hive sql hadoop 大数据面向对象编程

前几天，Flink官方release了Flink1.10版本，这个版本有很多改动。比如：

王知无-import_bigdata

2020-02-20

1.4K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态