腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据技术架构
纯大数据技术分享,HBase/Kafka/Flink等技术栈,原理与实践,源码分析等。欢迎订阅公众号:大数据技术架构
专栏成员
举报
149
文章
352043
阅读量
96
订阅数
订阅专栏
申请加入专栏
全部文章(149)
sql(32)
hbase(32)
spark(29)
大数据(29)
kafka(29)
数据库(28)
TDSQL MySQL 版(21)
存储(21)
hive(14)
apache(12)
缓存(12)
https(11)
api(10)
编程算法(10)
分布式(10)
Elasticsearch Service(10)
hadoop(9)
云数据库 SQL Server(8)
文件存储(8)
消息队列 CMQ 版(8)
网络安全(8)
flink(8)
mapreduce(7)
jvm(7)
数据湖(7)
python(6)
zookeeper(6)
数据处理(6)
node.js(5)
云数据库 Redis(5)
http(5)
数据分析(5)
linux(4)
mongodb(4)
开源(4)
windows(4)
云计算(4)
java(3)
搜索引擎(3)
lucene/solr(3)
网站(3)
日志数据(3)
jdk(3)
数据结构(3)
实时数仓(3)
javascript(2)
bash(2)
scala(2)
html(2)
打包(2)
ide(2)
unix(2)
bash 指令(2)
云数据库 MongoDB(2)
企业(2)
数据迁移(2)
socket编程(2)
数据可视化(2)
系统架构(2)
es(2)
负载均衡(1)
区块链(1)
数字货币(1)
机器学习(1)
tensorflow(1)
ios(1)
swift(1)
c++(1)
react(1)
ecmascript(1)
android(1)
oracle(1)
nosql(1)
tomcat(1)
全文检索(1)
负载均衡缓存(1)
nginx(1)
容器镜像服务(1)
神经网络(1)
深度学习(1)
专用宿主机(1)
批量计算(1)
数据备份(1)
容器(1)
devops(1)
运维(1)
压力测试(1)
爬虫(1)
jdbc(1)
hashmap(1)
tcp/ip(1)
scrapy(1)
rpc(1)
rabbitmq(1)
微服务(1)
特征工程(1)
性能测试(1)
数据集成(1)
搜索文章
搜索
搜索
关闭
干货 | 再来聊一聊 Parquet 列式存储格式
hive
存储
文件存储
编程算法
Parquet 是 Hadoop 生态圈中主流的列式存储格式,最早是由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 孵化器里毕业成为 Apache 顶级项目。
大数据技术架构
2021-08-25
3.3K
0
Flink + Iceberg 在去哪儿的实时数仓实践
hive
flink
大数据
kafka
数据库
摘要:本文介绍去哪儿数据平台在使用 Flink + Iceberg 0.11 的一些实践。内容包括:
大数据技术架构
2021-07-05
1K
0
数据湖实践 | Iceberg 在网易云音乐的实践
日志数据
spark
html
hive
https
本文将从另一个角度为大家介绍 iceberg(结合之前推送的Iceberg快速入门,可以更深入的理解),然后分享 iceberg 在网易云音乐的一些实践,希望对大家能有所帮助。
大数据技术架构
2021-07-05
1.3K
0
元数据管理 | Hive 元数据迁移与合并
hive
数据迁移
数据库
sql
在网易集团内部有大大小小几百套 hive 集群,为了满足网易猛犸大数据平台的元数据统一管理的需求,我们需要将多个分别独立的 hive 集群的元数据信息进行合并,但是不需要移动 HDFS 中的数据文件,比如可以将 hive2、hive3、hive4 的元数据全部合并到 hive1 的元数据 Mysql 中,然后就可以在 hive1 中处理 hive2、hive3、hive4 中的数据。
大数据技术架构
2021-04-29
2.1K
0
Delta实践 | Delta Lake在Soul的应用实践
spark
hive
数据库
sql
数据湖
(一)业务场景 传统离线数仓模式下,日志入库前首要阶段便是ETL,Soul的埋点日志数据量庞大且需动态分区入库,在按day分区的基础上,每天的动态分区1200+,分区数据量大小不均,数万条到数十亿条不等。下图为我们之前的ETL过程,埋点日志输入Kafka,由Flume采集到HDFS,再经由天级Spark ETL任务,落表入Hive。任务凌晨开始运行,数据处理阶段约1h,Load阶段1h+,整体执行时间为2-3h。
大数据技术架构
2021-03-05
1.4K
0
蚂蚁绊倒大象?不起眼的小文件竟拖了Hadoop大佬的后腿
大数据
spark
hive
mapreduce
node.js
在使用Hadoop过程中,小文件是一种比较常见的挑战,如果不小心处理,可能会带来一系列的问题。HDFS是为了存储和处理大数据集(M以上)而开发的,大量小文件会导致Namenode内存利用率和RPC调用效率低下,block扫描吞吐量下降,应用层性能降低。通过本文,我们将定义小文件存储的问题,并探讨如何对小文件进行治理。
大数据技术架构
2021-03-05
1.5K
1
再来聊一聊 Parquet 列式存储格式
hive
存储
https
网络安全
文件存储
Parquet 是 Hadoop 生态圈中主流的列式存储格式,最早是由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 孵化器里毕业成为 Apache 顶级项目。
大数据技术架构
2020-05-21
11.1K
0
Apache Hudi:统一批和近实时分析的存储和服务
数据湖
windows
大数据
spark
hive
一篇由三位Hudi PMC在2018年做的关于Hudi的分享,介绍了Hudi产生的背景及设计,现在看来也很有意义。
大数据技术架构
2020-03-25
1.6K
0
Hive 调优,先掌握这几种优化模式
linux
mapreduce
hive
Hive和MapReduce中拥有较多在特定情况下优化的特性,如何利用好相关特性,是Hive性能调优的关键。本文就介绍那些耳熟但不能详的几种Hive优化模式。
大数据技术架构
2020-03-25
506
0
Hive 常见的数据倾斜及调优技巧
hive
Hive在执行MapReduce任务时经常会碰到数据倾斜的问题,表现为一个或者几个reduce节点运行很慢,延长了整个任务完成的时间,这是由于某些key的条数比其他key多很多,这些Key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完。
大数据技术架构
2020-03-25
6K
0
深度对比delta、iceberg和hudi三大开源数据湖方案
hive
开源
apache
spark
大数据
目前市面上流行的三大开源数据湖方案分别为:delta、Apache Iceberg和Apache Hudi。其中,由于Apache Spark在商业化上取得巨大成功,所以由其背后商业公司Databricks推出的delta也显得格外亮眼。Apache Hudi是由Uber的工程师为满足其内部数据分析的需求而设计的数据湖项目,它提供的fast upsert/delete以及compaction等功能可以说是精准命中广大人民群众的痛点,加上项目各成员积极地社区建设,包括技术细节分享、国内社区推广等等,也在逐步地吸引潜在用户的目光。Apache Iceberg目前看则会显得相对平庸一些,简单说社区关注度暂时比不上delta,功能也不如Hudi丰富,但却是一个野心勃勃的项目,因为它具有高度抽象和非常优雅的设计,为成为一个通用的数据湖方案奠定了良好基础。
大数据技术架构
2020-03-25
3.5K
0
Hadoop,凉了?那还需要它吗?
hadoop
hive
mongodb
数据库
云数据库 MongoDB
近日,Hadoop 领域发生几件不太美好的事情,先是 MapR 宣布如果无法获得新的投资,就必须要裁员百余人,并关闭硅谷总部,再是 Cloudera 股价暴跌 43%,估值缩水。
大数据技术架构
2019-08-16
3.2K
0
玩转HBase百亿级数据扫描
hive
hbase
TDSQL MySQL 版
api
出于中通业务场景的特殊性,我们需要大量的回刷7-15天的数据,如果全部用离线抽取的方式,会给业务系统带来巨大压力,所以利用Hbaserowkey更新的特性,来存储业务数据的历史更新,每天ETL的任务需要大量从Hbase拉取数据,ETL任务需要扫描过滤近百亿数据。
大数据技术架构
2019-08-16
2K
0
Apache Parquet 干货分享
大数据
sql
hive
spark
Parquet 是一种面向分析的、通用的列式存储格式,兼容各种数据处理框架比如 Spark、Hive、Impala 等,同时支持 Avro、Thrift、Protocol Buffers 等数据模型。
大数据技术架构
2019-08-16
1.8K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档