数据社

102 篇文章
34.6K 次阅读
23 人订阅

全部文章

数据社

基于Apache Hudi 的CDC数据入湖

首先我们介绍什么是CDC?CDC的全称是Change data Capture,即变更数据捕获,它是数据库领域非常常见的技术,主要用于捕获数据库的一些变更,然后...

8330
数据社

Hive提高查询效率的八条军规

大家好,我是一哥,今天分享一下Hive如何提升查询效率。Hive作为最常用的数仓计算引擎,是我们必备的技能,但是很多人只是会写Hql,并不会优化,也不知道如何提...

6130
数据社

Flink在中原银行的实践

在构建实时场景的过程中,如何快速、正确的实时同步业务数据是最先面临的问题,本文主要讨论一下如何使用实时处理引擎Apache Flink和数据湖两种技术,来解决业...

9730
数据社

Hive SQL突然抛出一条异常……

客户端的报错信息,并没有完全展现问题背后的全貌。我们进入 hiveserver2 所在节点查看hiveserver2的日志,可以看到如下相关信息:

8130
数据社

打车巨头Uber是如何构建大数据平台?

大家好,我是一哥,最近滴滴出的技术少了,给大家分享一下Uber的大数据平台是如何建设的?

9850
数据社

你经历过完整的大数据平台迁移吗?

刚开始接到迁移通知,想着没什么问题,一个月应该可以搞定(毕竟无知者无畏)。可是当着手写迁移方案时,自己却不知道从何处下手。当第一次操作迁移讨论时,面对大家提出的...

8540
数据社

大数据问题排查系列 - HIVE踩坑记

本片博文是“大数据线上问题排查系列”大类别之一,讲述前段时间我司某产品在某券商遇到的一个问题及解决方案,其背后涉及到 hive 的一个 BUG,在 hive 3...

6350
数据社

数仓现状与解决方案

小 A 糊里糊涂进入一家网约车出现服务公司,负责公司数仓建设,试用期主要一项 KPI 是制定数据仓库建设规划;因此小 A 本着从问题出发为原点,先对公司数仓现状...

10320
数据社

TDH大数据平台的卸载与重装

前段时间写过一篇关于TDH 集群的许可证管理机制及TDH集群的卸载与安装d的博文:

11410
数据社

数仓实战|两步搞定Hive数据加载到Greenplum

如果说Hive是离线数仓的代表,那么Greenplum就是MPP数据库的代表。在离线数仓的年代,以Hive为核心的数据仓库席卷数据仓库市场,几乎成为...

9120
数据社

数仓实战|实时同步Kafka数据到Doris

大家好,我是一哥,Doris成为MPP数据库新贵。Doris起源于百度,致力于满足企业用户的多种数据分析场景,支持多种数据模型(明细表, 聚合表), 多种导入方...

13340
数据社

五万字 | Hive知识体系保姆级教程

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。

7820
数据社

去哪儿网数据同步平台技术演进与实践

井显生,2019年加入去哪儿,现负责国内机票出票、退款、改签核心业务。在领域驱动设计(DDD)、高并发有大量实践经验。

6220
数据社

浅谈数据管理的DNA — 元数据

企业架构理论体系中,数据架构始终是企业架构的核心组成部分。TOGAF企业架构框架定义了数据架构位于业务架构与基础技术架构之间,通过数据架构的治理实现的业务和应用...

12550
数据社

候选人被我这些数仓面试题问懵逼了

4). 数仓架构分层:一般分为操作数据层(ODS)、公共维度模型层(CDM)和应用数据层(ADS),其中公共维度模型层包括明细数据层(DWD和汇总数据层(DWS...

14420
数据社

如何建立数据质量中心(DQC)?

日常工作中,数据开发工程师开发上线完一个任务后并不是就可以高枕无忧了,时常会因为上游链路数据异常或者自身处理逻辑的 BUG 导致产出的数据结果不可信。而这个问题...

24130
数据社

致敬 Apache Sqoop

大家好,我是一哥,昨天看到了过往记忆大佬发了一篇文章,才发现Sqoop这个项目最近不咋好,心里很不是滋味,这个帮助过很多开发者的项目,竟然从Apache顶级项目...

10220
数据社

ETL的灵魂:调度系统

大家好,我是一哥,最近有小伙伴私聊我说他们的调度系统经常出问题,领导要求大家人在哪电脑背到哪,家庭生活一地鸡毛……,其实我也有类似的经历,今天给大家分享一下做调...

8710
数据社

面试官系列:谈谈你对Flume的理解

Flume最早是Cloudera开发的实时日志收集系统,最早的时候Flume的版本称为Flume OG(original generation),随着功能的扩展...

9460
数据社

基于Flink CDC打通数据实时入湖

在构建实时数仓的过程中,如何快速、正确的同步业务数据是最先面临的问题,本文主要讨论一下如何使用实时处理引擎Flink和数据湖Apache Iceberg两种技术...

19620

扫码关注云+社区

领取腾讯云代金券