腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据技术架构
纯大数据技术分享,HBase/Kafka/Flink等技术栈,原理与实践,源码分析等。欢迎订阅公众号:大数据技术架构
专栏作者
举报
149
文章
317602
阅读量
95
订阅数
订阅专栏
申请加入专栏
全部文章
sql
hbase
spark
大数据
kafka
数据库
TDSQL MySQL 版
存储
hive
apache
缓存
https
api
编程算法
分布式
Elasticsearch Service
hadoop
云数据库 SQL Server
文件存储
消息队列 CMQ 版
网络安全
flink
mapreduce
jvm
数据湖
python
zookeeper
数据处理
node.js
云数据库 Redis
http
数据分析
linux
mongodb
开源
windows
云计算
java
搜索引擎
lucene/solr
网站
日志数据
jdk
数据结构
实时数仓
javascript
bash
scala
html
打包
ide
unix
bash 指令
云数据库 MongoDB
企业
数据迁移
socket编程
数据可视化
系统架构
es
负载均衡
区块链
数字货币
机器学习
tensorflow
ios
swift
c++
react
ecmascript
android
oracle
nosql
tomcat
全文检索
负载均衡缓存
nginx
容器镜像服务
神经网络
深度学习
专用宿主机
批量计算
数据备份
容器
devops
运维
压力测试
爬虫
jdbc
hashmap
tcp/ip
scrapy
rpc
rabbitmq
微服务
特征工程
性能测试
数据集成
搜索文章
搜索
搜索
关闭
Debezium 2.0.0.Final Released
oracle
mongodb
云数据库 MongoDB
云数据库 SQL Server
数据库
自2019年12月发布1.0版本以来,社区一直在积极构建一个全面的开源低延迟变更数据捕获(CDC)平台。在过去的三年里,我们扩展了Debezium的产品组合,包括用于Oracle的稳定连接器、社区主导的Vitess连接器、增量快照的引入、多分区支持等等。在社区活跃贡献者和提交者的帮助下,Debezium成为CDC领域事实上的领导者,部署在多个行业的许多组织的生产环境中,使用数百个连接器将数据更改从数千个数据库平台输出到实时流。
大数据技术架构
2022-12-01
2.8K
0
Lakehouse 特性对比 | Apache Hudi vs Delta Lake vs Apache Iceberg
数据湖
数据库
sql
apache
存储
随着 Lakehouse 的日益普及,人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚:Apache Hudi、Delta Lake 和 Apache Iceberg。
大数据技术架构
2022-12-01
1.5K
0
分布式数据同步工具之DataX-Web部署使用
网站
数据库
云数据库 SQL Server
sql
背景介绍,因为需求是外部数据和内部生产数据之间需要通步,因此dataworks的数据同步模块的源端和目标是不支持多网络环境,要么公网,要么内网,因此这种需求我们的dataworks是不能使用的,我们调研了两个工具,一个是dataxweb ,一个是dolphinscheduler ,今天的篇幅主要讲解一下搭建的dataxweb的流程。
大数据技术架构
2022-12-01
6.1K
0
Airflow 实践笔记-从入门到精通二
数据库
sql
python
linux
数据处理逻辑多,脚本相互依赖强,运维管理监测难,怎么办?!为了解决这些问题,最近比较深入研究Airflow的使用方法,重点参考了官方文档和Data Pipelines with Apache Airflow,特此笔记,跟大家分享共勉。
大数据技术架构
2022-06-14
2.4K
0
Airflow 实践笔记-从入门到精通一
容器
数据库
sql
容器镜像服务
数据处理逻辑多,脚本相互依赖强,运维管理监测难,怎么办?!为了解决这些问题,最近比较深入研究Airflow的使用方法,重点参考了官方文档和Data Pipelines with Apache Airflow,特此笔记,跟大家分享共勉。
大数据技术架构
2022-06-14
4.3K
0
Spark性能调优指北:性能优化和故障处理
spark
mapreduce
数据库
sql
文件存储
Spark 官方推荐,Task 数量应该设置为 Spark 作业总 CPU core 数量的 2~3 倍。
大数据技术架构
2021-08-25
851
0
数据湖|Flink + Iceberg 全场景实时数仓的建设实践
flink
大数据
数据处理
sql
数据库
摘要:Apache Flink 是目前大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构,以 Iceberg、Hudi、Delta 为代表的解决方案应运而生,Iceberg 目前支持 Flink 通过 DataStream API /Table API 将数据写入 Iceberg 的表,并提供对 Apache Flink 1.11.x 的集成支持。
大数据技术架构
2021-08-25
3.2K
0
Flink + Iceberg 在去哪儿的实时数仓实践
hive
flink
大数据
kafka
数据库
摘要:本文介绍去哪儿数据平台在使用 Flink + Iceberg 0.11 的一些实践。内容包括:
大数据技术架构
2021-07-05
930
0
ClickHouse原理 | ClickHouse特性及底层存储原理
数据备份
存储
分布式
数据库
sql
ClickHouse是一款MPP架构的列式存储数据库,但MPP和列式存储并不是什么"稀罕"的设计。拥有类似架构的其他数据库产品也有很多,但是为什么偏偏只有ClickHouse的性能如此出众呢?ClickHouse发展至今的演进过程一共经历了四个阶段,每一次阶段演进,相比之前都进一步取其精华去其糟粕。可以说ClickHouse汲取了各家技术的精髓,将每一个细节都做到了极致。接下来将介绍ClickHouse的一些核心特性,正是这些特性形成的合力使得ClickHouse如此优秀。
大数据技术架构
2021-07-05
4.7K
0
Hudi实践 | Apache Hudi在Hopsworks机器学习的应用
特征工程
spark
存储
api
数据库
Hopsworks特征存储库统一了在线和批处理应用程序的特征访问而屏蔽了双数据库系统的复杂性。我们构建了一个可靠且高性能的服务,以将特征物化到在线特征存储库,不仅仅保证低延迟访问,而且还保证在服务时间可以访问最新鲜的特征值。
大数据技术架构
2021-07-05
1.2K
0
元数据管理 | Hive 元数据迁移与合并
hive
数据迁移
数据库
sql
在网易集团内部有大大小小几百套 hive 集群,为了满足网易猛犸大数据平台的元数据统一管理的需求,我们需要将多个分别独立的 hive 集群的元数据信息进行合并,但是不需要移动 HDFS 中的数据文件,比如可以将 hive2、hive3、hive4 的元数据全部合并到 hive1 的元数据 Mysql 中,然后就可以在 hive1 中处理 hive2、hive3、hive4 中的数据。
大数据技术架构
2021-04-29
1.9K
0
Spark原理 | 关于 mapPartitions 的误区
java
数据库
sql
今天 Review 了一下同事的代码,发现其代码中有非常多的 mapPartitions,问其原因,他说性能比 map 更好。我说为什么性能好呢?于是就有了这篇文章。
大数据技术架构
2021-03-23
3.5K
0
Delta实践 | Delta Lake在Soul的应用实践
spark
hive
数据库
sql
数据湖
(一)业务场景 传统离线数仓模式下,日志入库前首要阶段便是ETL,Soul的埋点日志数据量庞大且需动态分区入库,在按day分区的基础上,每天的动态分区1200+,分区数据量大小不均,数万条到数十亿条不等。下图为我们之前的ETL过程,埋点日志输入Kafka,由Flume采集到HDFS,再经由天级Spark ETL任务,落表入Hive。任务凌晨开始运行,数据处理阶段约1h,Load阶段1h+,整体执行时间为2-3h。
大数据技术架构
2021-03-05
1.4K
0
专治数仓疑难杂症!美团点评 Flink 实时数仓应用经验分享
数据库
flink
大数据
sql
实时数仓
摘要:本文根据 Apache Flink 系列直播整理而成,由美团点评数据系统研发工程师黄伟伦老师分享。主要内容如下:
大数据技术架构
2020-07-03
760
0
关于OLAP数仓,这大概是史上最全面的总结!(万字干货)
云数据库 SQL Server
sql
数据库
数据分析
系统架构
关于数据仓库,早期分享过不少基础类文章,偶然间看到知乎上这篇关于OLAP的深度解读,从技术发展,产品选型,执行优化等方面做了详细的剖析,分享来给大家看看!
大数据技术架构
2020-07-02
5.2K
0
使用Apache Hudi构建大规模、事务性数据湖
数据处理
数据库
sql
数据湖
spark
一个近期由Hudi PMC & Uber Senior Engineering Manager Nishith Agarwal分享的Talk
大数据技术架构
2020-07-02
2K
0
初识ClickHouse:来自战斗民族的OLAP利器
https
网络安全
数据库
性能测试
ClickHouse是一个用于数据分析(OLAP)的列式数据库管理系统(column-oriented DBMS),诞生于“战斗民族”俄罗斯,由搜索巨头Yandex公司开源。目前国内不少大厂在使用,包括腾讯、今日头条、携程、快手等,集群规模多达数千节点,阿里云更是推出了云产品ClickHouse。官方介绍:
大数据技术架构
2020-06-04
2.1K
0
Hudi原理 | Apache Hudi 典型应用场景介绍
hadoop
kafka
spark
存储
数据库
将数据从外部源如事件日志、数据库提取到Hadoop数据湖中是一个很常见的问题。在大多数Hadoop部署中,一般使用混合提取工具并以零散的方式解决该问题,尽管这些数据对组织是非常有价值的。
大数据技术架构
2020-05-25
2.5K
0
网易基于 HBase 的最佳实践
hbase
TDSQL MySQL 版
html
大数据
数据库
本文根据网易杭州研究院技术专家范欣欣在中国HBase技术社区第3届 MeetUp 杭州站分享的《网易HBase实践》编辑整理而成。
大数据技术架构
2020-03-11
1.4K
0
Flink State 可以代替数据库吗?
大数据
api
存储
数据库
https
有状态的计算作为容错以及数据一致性的保证,是当今实时计算必不可少的特性之一,流行的实时计算引擎包括 Google Dataflow、Flink、Spark (Structure) Streaming、Kafka Streams 都分别提供对内置 State 的支持。State 的引入使得实时应用可以不依赖外部数据库来存储元数据及中间数据,部分情况下甚至可以直接用 State 存储结果数据,这让业界不禁思考: State 和 Database 是何种关系?有没有可能用 State 来代替数据库呢?
大数据技术架构
2019-11-28
2.1K
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档