学习
实践
活动
工具
TVP
写文章

大数据技术架构

LV1
举报
发表了文章

诺亚财富 X Hologres : 统一OLAP分析引擎,全面打造金融数字化分析平台

诺亚控股有限公司以“诺亚财富”为品牌,源起于中国,是首家在港美两地上市的中国独立财富管理机构,首家开创了财富管理和资产管理的双轮驱动业务模式,同时也是国内首家获...

大数据技术架构
日志数据大数据专用宿主机实时数仓运维
发表了文章

Debezium 2.0.0.Final Released

自2019年12月发布1.0版本以来,社区一直在积极构建一个全面的开源低延迟变更数据捕获(CDC)平台。在过去的三年里,我们扩展了Debezium的产品组合,包...

大数据技术架构
OracleMongoDB云数据库 MongoDB云数据库 SQL Server数据库
发表了文章

DevOps 已死?不重要!平台工程才是未来

最近, Scott Carey 发表了一篇调查文章,喊出了一些开发者的心声:“扯淡的 DevOps,我们开发者根本不想做运维!”除此之外,软件工程师兼 DevO...

大数据技术架构
DevOpshttps网络安全
发表了文章

重磅!Apache Kafka 3.3 发布!

我们很自豪地代表 Apache Kafka 社区宣布发布 Apache Kafka® 3.3。3.3 版本包含许多新功能和改进。这篇博文将重点介绍一些更突出的功...

大数据技术架构
KafkaApache
发表了文章

Cube.js 试试这个新的数据分析开源工具

Cube是无界面商业智能平台。它帮助数据工程师和应用程序开发人员从现代数据存储中访问数据,将其组织为一致的定义,并将其交付给每个应用程序。Cube 旨在与所有支...

大数据技术架构
React数据可视化API开源MongoDB
发表了文章

Lakehouse 特性对比 | Apache Hudi vs Delta Lake vs Apache Iceberg

随着 Lakehouse 的日益普及,人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚:Apache Hudi、Delta Lake 和 Apache...

大数据技术架构
数据湖数据库SQLApache存储
发表了文章

分布式数据同步工具之DataX-Web部署使用

背景介绍,因为需求是外部数据和内部生产数据之间需要通步,因此dataworks的数据同步模块的源端和目标是不支持多网络环境,要么公网,要么内网,因此这种需求我们...

大数据技术架构
网站数据库云数据库 SQL ServerSQL
发表了文章

基于networkx的隐性集团关系识别模型

demo数据采用python中faker进行构造,主要生成关系数据、目标客户数据。

大数据技术架构
Python数据处理
发表了文章

数据血缘分析-Python代码的智能解析

如果你的工作是从事数据挖掘、数据仓库建设或者信息系统开发/维护,有没有曾经遇到过如下的烦恼?

大数据技术架构
SQL编程算法打包Python
发表了文章

Airflow 实践笔记-从入门到精通二

数据处理逻辑多,脚本相互依赖强,运维管理监测难,怎么办?!为了解决这些问题,最近比较深入研究Airflow的使用方法,重点参考了官方文档和Data Pipeli...

大数据技术架构
数据库SQLPythonLinux
发表了文章

Airflow 实践笔记-从入门到精通一

数据处理逻辑多,脚本相互依赖强,运维管理监测难,怎么办?!为了解决这些问题,最近比较深入研究Airflow的使用方法,重点参考了官方文档和Data Pipeli...

大数据技术架构
容器数据库SQLDocker
发表了文章

Hive调优 | HiveServer2 性能优化与GC优化

开发者利用jdbc连接hiveserver2(或者利用jdbc连接 spark HiveThriftServer2,由于两者都是提供jdbc连接到hive,因此...

大数据技术架构
JDBCSQL压力测试
发表了文章

Spark调优 | Spark OOM问题常见解决方式

Spark常见的问题不外乎OOM。我们首先看一下Spark 的内存模型:Spark在一个Executor中的内存分为三块,一块是execution内存,一块是s...

大数据技术架构
MapReducesparkBashBash 指令Linux
发表了文章

Kafka 3.0 重磅发布,有哪些值得关注的特性?

Apache Kafka 是一个分布式开源流平台,被广泛应用于各大互联网公司。Kafka 设计之初被用于消息队列,自 2011 年由 LinkedIn 开源以来...

大数据技术架构
KafkaTCP/IPAPIApacheJava
发表了文章

干货 | 再来聊一聊 Parquet 列式存储格式

Parquet 是 Hadoop 生态圈中主流的列式存储格式,最早是由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 孵...

大数据技术架构
Hive存储文件存储编程算法
发表了文章

Spark性能调优指北:性能优化和故障处理

Spark 官方推荐,Task 数量应该设置为 Spark 作业总 CPU core 数量的 2~3 倍。

大数据技术架构
sparkMapReduce数据库SQL文件存储
发表了文章

Flink社区 | Flink CDC 2.0 正式发布,核心改进详解

摘要:本文由社区志愿者陈政羽整理,内容来源自阿里巴巴高级开发工程师徐榜江 (雪尽) 7 月 10 日在北京站 Flink Meetup 分享的《详解 Flink...

大数据技术架构
大数据Flink数据湖数据结构云数据库 SQL Server
发表了文章

HBase原理 | HBase RegionServer宕机数据恢复

HBase采用类LSM的架构体系,数据写入并没有直接写入数据文件,而是会先写入缓存(Memstore),在满足一定条件下缓存数据再会异步刷新到硬盘。为了防止数据...

大数据技术架构
TDSQL MySQL 版HBase日志数据Unix
发表了文章

数据湖|Flink + Iceberg 全场景实时数仓的建设实践

摘要:Apache Flink 是目前大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构,以 Iceberg、Hudi、Delta...

大数据技术架构
Flink大数据数据处理SQL数据库
发表了文章

盘点Hadoop生态中 6 个核心的大数据组件

大数据生态圈中有很多优秀的组件,可谓琳琅满目,按组件类别可分为存储引擎、计算引擎,消息引擎,搜索引擎等;按应用场景可分为在线分析处理OLAP型,在线事务处理OL...

大数据技术架构
分布式KafkaHadoopES存储

个人简介

个人成就

扫码关注腾讯云开发者

领取腾讯云代金券