大数据技术架构-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据技术架构

纯大数据技术分享，HBase/Kafka/Flink等技术栈，原理与实践，源码分析等。欢迎订阅公众号：大数据技术架构

专栏成员

149

文章

352226

阅读量

96

订阅数

诺亚财富 X Hologres ：统一OLAP分析引擎，全面打造金融数字化分析平台

日志数据大数据专用宿主机实时数仓运维

诺亚控股有限公司以“诺亚财富”为品牌，源起于中国，是首家在港美两地上市的中国独立财富管理机构，首家开创了财富管理和资产管理的双轮驱动业务模式，同时也是国内首家获得标准普尔“投资级”评级的财富管理公司，公司业务涵盖财富管理、资产管理和其他业务。诺亚数据智能部门负责公司大数据体系框架建设，主要工作是支撑日常的BI分析，数据看板，人群画像，自助分析等场景。

大数据技术架构

2022-12-01

6790

Flink社区 | Flink CDC 2.0 正式发布，核心改进详解

大数据 flink 数据湖数据结构云数据库 SQL Server

摘要：本文由社区志愿者陈政羽整理，内容来源自阿里巴巴高级开发工程师徐榜江 (雪尽) 7 月 10 日在北京站 Flink Meetup 分享的《详解 Flink-CDC》。深入讲解了最新发布的 Flink CDC 2.0.0 版本带来的核心特性，包括：全量数据的并发读取、checkpoint、无锁读取等重大改进。

大数据技术架构

2021-08-25

2.5K0

数据湖｜Flink + Iceberg 全场景实时数仓的建设实践

flink 大数据数据处理 sql 数据库

摘要：Apache Flink 是目前大数据领域非常流行的流批统一的计算引擎，数据湖是顺应云时代发展潮流的新型技术架构，以 Iceberg、Hudi、Delta 为代表的解决方案应运而生，Iceberg 目前支持 Flink 通过 DataStream API /Table API 将数据写入 Iceberg 的表，并提供对 Apache Flink 1.11.x 的集成支持。

大数据技术架构

2021-08-25

3.8K0

Flink + Iceberg 在去哪儿的实时数仓实践

hive flink 大数据 kafka 数据库

摘要：本文介绍去哪儿数据平台在使用 Flink + Iceberg 0.11 的一些实践。内容包括：

大数据技术架构

2021-07-05

1K0

Iceberg 实践 | B 站通过数据组织加速大规模数据分析

网络安全大数据数据分析 spark sql

交互式分析是大数据分析的一个重要方向，基于TB甚至PB量级的数据数据为用户提供秒级甚至亚秒级的交互式分析体验，能够大大提升数据分析人员的工作效率和使用体验。限于机器的物理资源限制，对于超大规模的数据的全表扫描以及全表计算自然无法实现交互式的响应，但是在大数据分析的典型场景中，多维分析一般都会带有过滤条件，对于这种类型的查询，尤其是在高基数字段上的过滤查询，理论上可以在读取数据的时候跳过所有不相关的数据，只读取极少部分需要的数据，这种技术一般称为Data Clustering以及Data Skipping。Data Clustering是指数据按照读取时的IO粒度紧密聚集，而Data Skipping则根据过滤条件在读取时跳过不相干的数据，Data Clustering的方式以及查询中的过滤条件共同决定了Data Skipping的效果，从而影响查询的响应时间，对于TB甚至PB级别的数据，如何通过Data Clustering以及Data Skipping技术高效的跳过所有逻辑上不需要的数据，是能否实现交互式分析的体验的关键因素之一。

大数据技术架构

2021-03-23

2.2K0

蚂蚁绊倒大象？不起眼的小文件竟拖了Hadoop大佬的后腿

大数据 spark hive mapreduce node.js

在使用Hadoop过程中，小文件是一种比较常见的挑战，如果不小心处理，可能会带来一系列的问题。HDFS是为了存储和处理大数据集（M以上）而开发的，大量小文件会导致Namenode内存利用率和RPC调用效率低下，block扫描吞吐量下降，应用层性能降低。通过本文，我们将定义小文件存储的问题，并探讨如何对小文件进行治理。

大数据技术架构

2021-03-05

1.5K1

专治数仓疑难杂症！美团点评 Flink 实时数仓应用经验分享

数据库 flink 大数据 sql 实时数仓

摘要：本文根据 Apache Flink 系列直播整理而成，由美团点评数据系统研发工程师黄伟伦老师分享。主要内容如下：

大数据技术架构

2020-07-03

8130

HBase实践 | HBase IO优化与高可用建设

hbase 大数据

在CAP能力模型表现方面，hbase主要是面向CP的应用系统，针对数据写入可以满足强一致性需求，从客户端视角来看写入成功之后的数据是即时可见的。然而hbase的CP模型目前还存在很大的短板，比如当有服务节点出现宕机事件时，需要经历很长时间的MTTR过程，耗时主要体现在以下两个方面：

大数据技术架构

2020-05-12

1.6K0

实时数仓 | 你想要的数仓分层设计与技术选型

大数据 flink kafka 数据可视化 sql

数据仓库概念的提出都要追溯到上世纪了，我们认为在大数据元年之前的数仓可以称为传统数仓，而后随着海量数据不断增长，以及Hadoop生态不断发展，主要基于Hive/HDFS的离线数仓架构可以兴起并延续至今，近几年随着Storm/Spark（Streaming）/Flink等实时处理框架的更新迭代乃至相互取代，各厂都在着力构建自己的实时数仓，特别是近两年，随着Flink声名鹊起，实时数仓更是名声在外并且还在不断快速发展。

大数据技术架构

2020-04-21

11.1K0

Kylin 新定位：分析型数据仓库

apache hadoop 大数据数据分析 api

Apache Kylin 在 2014 年 10 月开源并加入 Apache 软件基金会的孵化器，一年后从孵化器毕业成为 Apache 顶级项目。从第一天起，Kylin 的标语是「Extreme OLAP Engine for Big Data」。五年来，Kylin 已经成为了大数据版图中一个不可或缺的角色，帮助了全球上千家企业进行高效的大数据分析。

大数据技术架构

2020-04-07

8310

Apache Hudi：统一批和近实时分析的存储和服务

数据湖 windows 大数据 spark hive

一篇由三位Hudi PMC在2018年做的关于Hudi的分享，介绍了Hudi产生的背景及设计，现在看来也很有意义。

大数据技术架构

2020-03-25

1.6K0

Apache Hudi 架构原理与最佳实践

apache 大数据 hadoop 存储 spark

Apache Hudi代表Hadoop Upserts anD Incrementals，管理大型分析数据集在HDFS上的存储。Hudi的主要目的是高效减少摄取过程中的数据延迟。由Uber开发并开源，HDFS上的分析数据集通过两种类型的表提供服务：读优化表（Read Optimized Table）和近实时表（Near-Real-Time Table）。

大数据技术架构

2020-03-25

5.3K0

深度对比delta、iceberg和hudi三大开源数据湖方案

hive 开源 apache spark 大数据

目前市面上流行的三大开源数据湖方案分别为：delta、Apache Iceberg和Apache Hudi。其中，由于Apache Spark在商业化上取得巨大成功，所以由其背后商业公司Databricks推出的delta也显得格外亮眼。Apache Hudi是由Uber的工程师为满足其内部数据分析的需求而设计的数据湖项目，它提供的fast upsert/delete以及compaction等功能可以说是精准命中广大人民群众的痛点，加上项目各成员积极地社区建设，包括技术细节分享、国内社区推广等等，也在逐步地吸引潜在用户的目光。Apache Iceberg目前看则会显得相对平庸一些，简单说社区关注度暂时比不上delta，功能也不如Hudi丰富，但却是一个野心勃勃的项目，因为它具有高度抽象和非常优雅的设计，为成为一个通用的数据湖方案奠定了良好基础。

大数据技术架构

2020-03-25

3.5K0

B站实时平台的架构与实践

flink 大数据

本文来自B站实时平台负责人郑志升在 Flink Forward Asia 2019 上的技术分享，重点介绍了B站基于 Apache Flink 的流式计算平台建设，以及结合AI的案例实践。仅出于知识传播目的进行分享，所有内容版权归其个人及 Flink 社区所有。

大数据技术架构

2020-03-11

1.3K0

超越数据湖和数据仓库的新范式：LakeHouse

数据湖大数据机器学习神经网络深度学习

在Databricks的过去几年中，我们看到了一种新的数据管理范式，该范式出现在许多客户和案例中：LakeHouse。在这篇文章中，我们将描述这种新范式及其相对于先前方案的优势。

大数据技术架构

2020-03-11

1.5K0

网易基于 HBase 的最佳实践

hbase TDSQL MySQL 版 html 大数据数据库

本文根据网易杭州研究院技术专家范欣欣在中国HBase技术社区第3届 MeetUp 杭州站分享的《网易HBase实践》编辑整理而成。

大数据技术架构

2020-03-11

1.5K0

小米流式平台架构演进与实践

flink 数据集成大数据 spark 消息队列 CMQ 版

摘要：小米业务线众多，从信息流，电商，广告到金融等覆盖了众多领域，小米流式平台为小米集团各业务提供一体化的流式数据解决方案，主要包括数据采集，数据集成和流式计算三个模块。目前每天数据量达到 1.2 万亿条，实时同步任务 1.5 万，实时计算的数据 1 万亿条。

大数据技术架构

2020-03-11

1.5K0

Flink State 可以代替数据库吗？

大数据 api 存储数据库 https

有状态的计算作为容错以及数据一致性的保证，是当今实时计算必不可少的特性之一，流行的实时计算引擎包括 Google Dataflow、Flink、Spark (Structure) Streaming、Kafka Streams 都分别提供对内置 State 的支持。State 的引入使得实时应用可以不依赖外部数据库来存储元数据及中间数据，部分情况下甚至可以直接用 State 存储结果数据，这让业界不禁思考: State 和 Database 是何种关系？有没有可能用 State 来代替数据库呢？

大数据技术架构

2019-11-28

2.1K0

基于Telegraf+Influxdb+Grafana的监控平台介绍

编程算法数据库 sql 大数据网站

我们知道这种监控平台的数据特征一般都是时间序列数据（简称时序数据），那么相应的这些数据最好是存储在时序数据库中，目前主流的时序数据库有InfluxDB、OpenTSDB、Graphite、TimescaleDB等。其中，InfluxDB是目前监控领域使用较多的时序数据库，并且基于InfluxDB有一套完善的开源解决方案 —— TICK Stack，如下图所示：

大数据技术架构

2019-09-08

2K0

穿梭时空的实时计算框架——Flink对于时间的处理

大数据 unix windows kafka

Flink对于流处理架构的意义十分重要，Kafka让消息具有了持久化的能力，而处理数据，甚至穿越时间的能力都要靠Flink来完成。

大数据技术架构

2019-09-08

9780

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态