学习
实践
活动
工具
TVP
写文章
首页标签数据湖

#数据湖

数据湖是一个集中式存储池,可对接多种数据源,无缝对接各种计算分析和机器学习平台

袋鼠云数据湖平台「DataLake」,存储全量数据,打造数字底座

数栈DTinsight

数据湖的起源,应该追溯到 2010 年 10 月。基于对半结构化、非结构化存储的需求,同时为了推广自家的 Pentaho 产品以及 Hadoop,2010 年 ...

7320

Flink CDC 新一代数据集成框架

小马哥学JAVA

软通动力信息技术(集团)股份有限 · 高级工程师 (已认证)

主要讲解了技术原理,入门与生产实践,主要功能:全增量一体化数据集成、实时数据入库入仓、最详细的教程。Flink CDC 是Apache Flink的一个重要组件...

21670

“实时数仓”若干问?

用户5548425

确实,如果从一个初学者来说这些技术可能大家听起来会很容易觉得混淆,他们到底是什么样的一些关系?我为大家去简单的梳理一下。

7720

开源共建 | 中国移动冯江涛:ChunJun(原FlinkX)在数据入湖中的应用

数栈DTinsight

ChunJun(原 FlinkX)是一个基于 Flink 提供易用、稳定、高效的批流统一的数据集成工具。2018 年 4 月,秉承着开源共享的理念,数栈技术团队...

9750

MySQL HeatWave Lakehouse

MySQLSE

在今年的Oracle Cloud World,Oracle宣布将发布一款数据库湖仓产品——MySQL HeatWave Lakehouse用以解决存储在数据库之...

6620

实时数仓方案五花八门,实际落地如何选型和构建!

小晨说数据

著有:《图解 Spark 大数据快速分析实战》;《offer 来了:Java 面试核心知识点精讲(原理篇)》;《offer 来了:Java 面试核心知识点精讲(...

13860

中原银行:基于StarRocks构建OLAP全场景架构解决方案,迈入极速统一时代 | 案例研究

爱分析ifenxi

近年来,随着银行业务场景的不断丰富、业务规模的不断扩张,用户线上线下交易大幅上升,数据量与数据种类愈加丰富,大量创新型数据分析和应用场景出现,对分析型数据库的存...

7420

Matano:一款针对AWS的开源安全湖平台

FB客服

Matano是一款针对AWS的开源安全湖平台,该平台允许我们从各种数据源获取并注入大量和安全以及日志相关的数据,并将其存储到一个开源的Apache Iceber...

6620

万字长文:安全知识图谱技术概述

绿盟科技研究通讯

知识图谱是下一代可信人工智能领域的关键技术组成之一。围绕知识的归纳抽取、演绎推理等处理与分析过程,诸多关键问题逐步被攻克,大幅推动了机器认知技术的发展。在网络空...

8130

StarRocks学习-初识

chimchim

StarRocks 是一款高性能分析型数据仓库,使用向量化、MPP 架构、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。

7220

数据湖学习文档

chimchim

参考资料:https://segment.com/blog/cultivating-your-data-lake/

6620

从图像标注开始,用 Byzer 加 Xtreme1 完成图像实例分割训练

用户2936994

要完整的支持深度学习,需要一个很长的 Pipeline,通常我们的工作起步于标注平台, 尽管Byzer 也可以作为标注平台的上游,比如对图片和视频做一个统一的处...

6640

将SAP系统迁移到云上? 同时带上您的存档数据

SNP数据迁移

如今数据都在增长,SAP 数据也不例外。根据SNP对300多个SAP系统的分析,每年的数据增长在20%-40%之间。当某些企业未能将旧的 SAP 数据归档、数据...

6220

分久必合?数据库进入“超”融合时代 | 爱分析调研

爱分析ifenxi

上世纪60年代,网状和层状数据库揭开了数据库系统发展的帷幕;1970年,来自IBM实验室的Edgar F. Codd发表了《大型共享数据库数据的关系模型》论文,...

13460

让python快到飞起 | 什么是 DASK ?

自学气象人

Dask 是一个开源库,旨在为现有 Python 堆栈提供并行性。Dask 与 Python 库(如 NumPy 数组、Pandas DataFrame 和 s...

97110

【Techo Day腾讯技术开放日】数据仓库总结

蓦然

数据湖是一个集中存储各类结构化和非结构化数据的大型数据仓库,它可以存储来自多个数据源、多种数据类型的原始数据,数据无需经过结构化处理,就可以进行存取、处理、分析...

11510

2022,数据科学与数据治理项目全纪录

大数据流动

2022年已过去一半多的时间了。这半年多,我们重点关注了LinkedIn Datahub、Atlas等元数据管理工具,了解了他们在数据治理领域的作用。

8520

别扯数据化转型了,先夯实数据底座吧

数据万有引力

2019-2021 人人都提数据中台,张口就说业务数据化、数据业务化,数据驱动业务,甚至数据重塑业务;如今大家又与时俱进开始侃侃而谈数据化转型。在我们讨论数据化...

14531

基于Apache Hudi + MinIO 构建流式数据湖

从大数据到人工智能

Apache Hudi 是一个流式数据湖平台,将核心仓库和数据库功能直接引入数据湖。Hudi 不满足于将自己称为 Delta 或 Apache Iceberg ...

10420

湖仓一体电商项目(二十四):合并Iceberg小文件

Lansonli

腾云先锋 · 腾云先锋(TDP)成员 (已认证)

Iceberg表每次commit都会生成一个parquet数据文件,有可能一张Iceberg表对应的数据文件非常多,那么我们通过Java Api 方式对Iceb...

163100

扫码关注腾讯云开发者

领取腾讯云代金券