腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据成神之路
专注大数据领域的一切技术~
专栏作者
举报
635
文章
1272483
阅读量
315
订阅数
订阅专栏
申请加入专栏
全部文章
大数据
sql
数据库
kafka
spark
flink
编程算法
apache
存储
hive
java
node.js
api
数据
hadoop
文件存储
缓存
hbase
云数据库 SQL Server
TDSQL MySQL 版
数据处理
分布式
数据结构
scala
云数据库 Redis
mapreduce
数据分析
javascript
linux
yarn
https
python
网络安全
unix
jvm
windows
zookeeper
打包
消息队列 CMQ 版
开发
批量计算
http
bash
数据湖
数据迁移
云计算
面试
xml
企业
数据安全
Elasticsearch Service
bash 指令
腾讯云测试服务
面向对象编程
框架
优化
jar
运维
processing
机器学习
json
日志数据
开源
hashmap
tcp/ip
rabbitmq
数据可视化
微服务
架构
html
神经网络
深度学习
压力测试
jdbc
rpc
nosql
spring
网站
express
sql server
nest
任务调度
es
数据集成
工具
配置
数据管理
系统
性能
oracle
github
maven
人工智能
vr 视频解决方案
electron
容器
shell
socket编程
kerberos
性能测试
实时数仓
测试
工作
行业
集群
内存
设计
实践
索引
原理
对象存储
官方文档
数据挖掘
css
ajax
android
ide
lucene/solr
nginx
容器镜像服务
海外加速
mongodb
rollup.js
kubernetes
uml
架构设计
5g
迁移
clickhouse
报表
产品
磁盘
函数
后端
监控
解决方案
模型
排序
事件
异常
最佳实践
负载均衡
自动驾驶
ios
iphone
php
go
lua
erlang
regex
react
typescript
postgresql
flask
sqlalchemy
git
搜索引擎
负载均衡缓存
专用宿主机
云数据迁移
日志服务
腾讯云可观测平台
命令行工具
云数据库 MongoDB
es 2
图像处理
数据备份
电商
出行
serverless
游戏
无人驾驶
jdk
推荐系统
markdown
zabbix
微信
机器人
物联网
系统架构
腾讯云开发者社区
安全治理
raft
实时监控
数据库管理
流计算 Oceanus
大数据存储
汽车
腾讯云
bi
bigdata
block
class
code
combine
configuration
csv
data
dp
export
fifo
hash
import
ip
key
memory
mysql
netty
populate
properties
pulsar
queue
rank
root
scheduler
select
state
sum
table
task
time
vi
window
报表工具
登录
队列
服务
高性能
管理
规范化
基础
架构师
接口
连接
日志
入门
实时计算
数据采集
数据同步
算法
微信公众号
线程
效率
协议
研发
语法
中间件
字符串
搜索文章
搜索
搜索
关闭
大数据调度平台分类大对比(Oozie/Azkaban/AirFlow/XXL-Job/DolphinScheduler)
apache
开源
hadoop
分布式
任务调度
大数据调度系统,是整个离线批处理任务和准实时计算计算任务的驱动器。这里我把几个常见的调度系统做了一下分类总结和对比。
王知无-import_bigdata
2022-04-13
5.4K
0
「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成
hive
spark
hadoop
sql
jar
hive 查询hudi 数据主要是在hive中建立外部表数据路径指向hdfs 路径,同时hudi 重写了inputformat 和outpurtformat。因为hudi 在读的数据的时候会读元数据来决定我要加载那些parquet文件,而在写的时候会写入新的元数据信息到hdfs路径下。所以hive 要集成hudi 查询要把编译的jar 包放到HIVE-HOME/lib 下面。否则查询时找不到inputformat和outputformat的类。
王知无-import_bigdata
2022-03-11
2.1K
0
Apache顶级项目Ambari正式宣告退役!
apache
hadoop
网站
Apache Ambari 是一个基于 Web 的 Apache Hadoop 集群的供应、管理和监控工具,曾是 Apache Software Foundation 的顶级项目。
王知无-import_bigdata
2022-03-11
1.1K
0
大数据之Hadoop企业级生产调优手册(下)
大数据
存储
xml
hadoop
mapreduce
注:演示纠删码和异构存储需要一共 5台虚拟机。尽量拿另外一套集群。提前准备 5台服务器的集群。
王知无-import_bigdata
2021-10-13
528
0
【硬刚Kylin】Kylin入门/原理/调优/OLAP解决方案和行业典型应用
apache
hbase
TDSQL MySQL 版
hadoop
大数据
现今,大数据行业发展得如火如荼,新技术层出不穷,整个生态欣欣向荣。作为大数据领域最重要的技术的 Apache Hadoop 最初致力于简单的分布式存储,然后在此基础之上实现大规模并行计算,到如今在实时分析、多维分析、交互式分析、机器学习甚至人工智能等方面有了长足的发展。
王知无-import_bigdata
2021-07-12
1.1K
0
实时数据湖:Flink CDC流式写入Hudi
hadoop
flink
大数据
spark
hive
•Flink 1.12.2_2.11•Hudi 0.9.0-SNAPSHOT(master分支)•Spark 2.4.5、Hadoop 3.1.3、Hive 3.1.2
王知无-import_bigdata
2021-07-12
2.4K
0
一站式大数据解决方案分析与设计实践 | BI无缝整合Apache Kylin
hadoop
大数据
apache
spring
flink
本文已收录于Github仓库:《大数据成神之路》 地址:https://github.com/wangzhiwubigdata/God-Of-BigData
王知无-import_bigdata
2021-02-05
835
0
打工人必备:Hive小文件合并与数据压缩
hive
文件存储
存储
大数据
hadoop
Hive仓库表数据最终是存储在HDFS上,由于Hadoop的特性,对大文件的处理非常高效。而且大文件可以减少文件元数据信息,减轻NameNode的存储压力。但是在数据仓库中,越是上层的表汇总程度就越高,数据量也就越小,而且这些表通常会有日期分区,随着时间的推移,HDFS的文件数目就会逐步增加。
王知无-import_bigdata
2020-12-18
2.3K
0
Hive性能调优 | 并行执行/严格模式/JVM重用/推测执行
jvm
hadoop
hive
mapreduce
xml
通过设置属性hive.mapred.mode值为默认是非严格模式nonstrict 。开启严格模式需要修改hive.mapred.mode值为strict,开启严格模式可以禁止3种类型的查询。
王知无-import_bigdata
2020-11-06
710
0
Hive性能调优 | 数据倾斜
mapreduce
hadoop
大数据
linux
当input的文件都很大,任务逻辑复杂,map执行非常慢的时候,可以考虑增加Map数,来使得每个map处理的数据量减少,从而提高任务的执行效率。针对上面的第4条 假设有这样一个任务:
王知无-import_bigdata
2020-11-06
724
0
Hadoop支持Lzo压缩配置及案例
hadoop
node.js
大数据
文件存储
打包
1)hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。 2)将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-2.7.2/share/hadoop/common/
王知无-import_bigdata
2020-09-08
1.8K
0
HDFS应用场景、原理、基本架构及使用方法
大数据
缓存
node.js
hadoop
bash
如果一个文件大小为10K,则1亿个文件大小仅为1TB(但要消耗掉NameNode 20GB内存)
王知无-import_bigdata
2020-08-20
1.4K
0
Hive小知识之分桶抽样
hadoop
hash
select
然而查询时却发现 本来打算取第2个桶里的4/8 数据,但返回的数据跟预期差得很多
王知无-import_bigdata
2020-08-04
1.1K
0
盘点:SQL on Hadoop中用到的主要技术
hive
spark
sql
数据库
hadoop
自打Hive出现之后,经过几年的发展,SQL on Hadoop相关的系统已经百花齐放,速度越来越快,功能也越来越齐全。本文并不是要去比较所谓“交互式查询哪家强”,而是试图梳理出一个统一的视角,来看看各家系统有哪些技术上相通之处。
王知无-import_bigdata
2020-06-11
1.2K
0
MapReduce性能优化大纲
文件存储
mapreduce
大数据
hadoop
检测系统瓶颈 性能调优 创建一项基线,用来评估系统的首次运行性能(即集群默认配置) 分析Hadoop计数器,修改,调整配置,并重新执行任务,与基线进行比较 重复执行第2步,直到最高效率 识别资源瓶颈 内存瓶颈 当发现节点频繁出现虚拟内存交换时表示出现了内存瓶颈 CPU瓶颈 通常情况下,处理器负载超过90%,在多处理器系统上整体负载超过50% 判断是否是单个特定线程独占了CPU IO瓶颈 磁盘持续活动率超过85%(也有可能是由CPU或内存导致) 网络带宽瓶颈 在输出结果或shuffle阶段从map拉取数据时
王知无-import_bigdata
2020-06-01
996
0
Kylin使用Spark构建Cube
spark
hbase
yarn
hadoop
TDSQL MySQL 版
Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 下面是单机安装采坑记,直接上配置和问题解决。 找一台干净的机器,把hadoop hive hbase从原有节点分别拷贝一份,主要目的是配置文件,可以不在kylin所在机器启动相关进程。 开源版本搭建,非整合HDP和CDH。 个别问题解决参考其他博客。 官网http://kylin.apache.org/cn/docs/ MapReduce构建Cube的问题也已解决,所以使用MapReduce构建Cube也是正常的。
王知无-import_bigdata
2020-05-20
1.8K
0
HDFS读写数据过程原理分析
node.js
编程算法
hadoop
分布式
xml
在学习hadoop hdfs的过程中,有很多人在编程实践这块不知道该其实现的原理是什么,为什么通过几十行小小的代码就可以实现对hdfs的数据的读写。
王知无-import_bigdata
2020-05-20
448
0
Hadoop(CDH)分布式环境搭建(简单易懂,绝对有效)
hadoop
xml
大数据
yarn
node.js
本文是由alice菌发表在:https://blog.csdn.net/weixin_44318830/article/details/102846055
王知无-import_bigdata
2020-05-08
1.4K
0
HDFS的SecondaryNameNode作用,你别答错
node.js
存储
hadoop
大数据
这是道经典的基础面试题,笔者问过面试者很多次(当然也被面试官问过很多次)。从印象看,大约有一半的被面试者无法正确作答,给出的答案甚至有“不就是NameNode的热备嘛”。本文来简单聊聊相关的知识,为节省篇幅,将SecondaryNameNode简称SNN,NameNode简称NN。
王知无-import_bigdata
2020-04-17
868
0
Flink1.10和Hive集成一些需要注意的点
hive
sql
hadoop
大数据
面向对象编程
前几天,Flink官方release了Flink1.10版本,这个版本有很多改动。比如:
王知无-import_bigdata
2020-02-20
1.4K
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档