rds etl 数据库_RDS etl 数据_RDS etl 数据仓库 - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

基于Hadoop生态圈的数据仓库实践 —— ETL（二）

基于Hadoop生态圈的数据仓库实践 —— 进阶技术（七）

OushuDB入门（五）——ETL篇

云数据库技术行业动态@2022-09-16

最近数据库行业还是发生一些事情，例如：NebulaGraph获得获得数千万美元的A轮融资，Oracle将在AWS支持MySQL HeatWave服务，VLDB 2022在悉尼举行，来自中国多篇成果被接收，等等，查看原文

【踩坑实录】-java.sql.SQLException: The MySQL server is running with the LOCK_WRITE_GROWTH option so it ca

使用阿里dataphin工具将开发好的ads表数据推送到bi报表后台mysql库表中，突然报错

HAWQ取代传统数仓实践（六）——增加列

本文介绍了在技术社区中，如何从技术角度、业务角度、架构角度、运维角度等多个维度出发，进行社区技术内容的分类、规划、建设、管理、优化，并阐述了在此过程中的技术选型和社区机制建设。同时，本文还分享了基于机器学习和数据挖掘的技术内容管理方法，以及面向知识图谱、智能问答、科技情报等场景的技术实践。

关于数据、数据流、数据管道的一些看法（一）

最近间接的获取了不少关于数据流，及数据融合，管道等方面的知识，由于脑子内存小，不写出来很快就会忘记，所以还是硬着头皮写一写。

数据，数据流，数据管道

最近比较忙，不过最近间接的获取了不少关于数据流，及数据融合，管道等方面的知识，由于脑子内存小，不写出来很快就会忘记，所以还是硬着头皮写一写。

MySQL - 分库分表

主从模式对于写少读多的场景确实非常大的优势，但是总会写操作达到瓶颈的时候，导致性能提不上去。

基于Hadoop生态圈的数据仓库实践 —— 进阶技术

五、快照前面实验说明了处理维度的扩展。本节讨论两种事实表的扩展技术。有些用户，尤其是管理者，经常要看某个特定时间点的数据。也就是说，他们需要数据的快照。周期快照和累积快照是两种常用的事实表扩展技术。周期快照是在一个给定的时间对事实表进行一段时期的总计。例如，一个月销售订单周期快照汇总每个月底时总的销售订单金额。累积快照用于跟踪事实表的变化。例如，数据仓库可能需要累积（存储）销售订单从下订单的时间开始，到订单中的商品被打包、运输和到达的各阶段的时间点数据来跟踪订单生命周期的进展情况。用户可能要取得在某个给定时间点，销售订单处理状态的累积快照。下面说明周期快照和累积快照的细节问题。 1. 周期快照下面以销售订单的月底汇总为例说明如何实现一个周期快照。首先需要添加一个新的事实表。下图中的模式显示了一个名为month_end_sales_order_fact的新事实表。

基于Hadoop生态圈的数据仓库实践 —— 进阶技术（五）

基于Hadoop生态圈的数据仓库实践 —— ETL（一）

基于Hadoop生态圈的数据仓库实践 —— 进阶技术（一）

一、增加列数据仓库最常碰到的扩展是给一个已经存在的维度表和事实表添加列。本节说明如何在客户维度表和销售订单事实表上添加列，并在新列上应用SCD2，以及对定时装载脚本所做的修改。假设需要在客户维度中增加送货地址属性，并在销售订单事实表中增加数量度量值。先看一下增加列时模式发生的变化。修改后源数据库模式如下图所示。

Kettle构建Hadoop ETL实践（一）：ETL与Kettle

我在2017年写了一本名为《Hadoop构建数据仓库实践》的书。在这本书中，较为详细地讲解了如何利用Hadoop（Cloudera's Distribution Including Apache Hadoop，CDH）生态圈组件构建传统数据仓库。例如，使用Sqoop从关系数据库全量或增量抽取数据到Hadoop系统，使用Hive进行数据转换和装载处理等等。作为进阶，书中还说明了数据仓库技术中的渐变维、代理键、角色扮演维度、层次维度、退化维度、无事实事实表、迟到事实、累计度量等常见问题在Hadoop上的处理。它们都是通过Hive SQL来实现的，其中有些SQL语句逻辑复杂，可读性也不是很好。

TiDB 助力客如云餐饮 SaaS 服务

客如云成立于 2012 年，是全球领先、国内最大的 SaaS 系统公司。目前面向餐饮、零售等服务业商家，提供软硬一体的新一代智能化前台、收银等 SaaS 云服务，包括预订、排队、外卖、点餐、收银、会员管理、进销存等系统服务，并将数据实时传达云端。我们是客如云的大数据基础架构组，负责公司的大数据架构和建设工作，为公司提供大数据基础数据服务。

Kettle构建Hadoop ETL实践（五）：数据抽取

本篇介绍如何利用Kettle提供的转换步骤和作业项实现Hadoop数据仓库的数据抽取，即ETL过程中的Extract部分。首先简述Kettle中几种抽取数据的组件，然后讲述变化数据捕获（Change Data Capture，CDC），以及Kettle如何支持不同的CDC技术。Hadoop生态圈中的Sqoop工具可以直接在关系数据库和HDFS或Hive之间互导数据，而Kettle支持Sqoop输入、输出作业项。最后我们使用Kettle里的Sqoop作业项以及基于时间戳的CDC转换实现销售订单示例的数据抽取过程，将MySQL中的源数据抽取到Hive的rds数据库中。

印尼医疗龙头企业Halodoc的数据平台转型之路：数据平台V1.0

数据是每项技术业务的支柱，作为一个健康医疗技术平台，Halodoc 更是如此，用户可以通过以下方式与 Halodoc 交互：

基于Hadoop生态圈的数据仓库实践 —— 进阶技术（四）

Kettle构建Hadoop ETL实践（六）：数据转换与装载

本篇重点是针对销售订单示例创建并测试数据装载的Kettle作业和转换。在此之前，先简要介绍数据清洗的概念，并说明如何使用Kettle完成常见的数据清洗工作。由于本示例中Kettle在Hadoop上的ETL实现依赖于Hive，所以之后对Hive做一个概括的介绍，包括它的体系结构、工作流程和优化。最后用完整的的Kettle作业演示如何实现销售订单数据仓库的数据转换与装载。

Greenplum 实时数据仓库实践（6）——实时数据装载

上一篇详细讲解了如何用Canal和Kafka，将MySQL数据实时全量同步到Greenplum。对照本专题第一篇中图1-1的数据仓库架构，我们已经实现了ETL的实时抽取过程，将数据同步到RDS中。本篇继续介绍如何实现后面的数据装载过程。实现实时数据装载的总体步骤可归纳为：

大数据的未来在云端

数据正在呈几何级数增长，来自社交媒体（微信、微博）以及传感器设备的非结构化数据受到了越来越多的关注，而与传统企业交易系统的结构化数据一起，它们将有可能带来新一轮的产业变革。机器学习，自然语言处理，舆情分析等词汇几乎每天都会出现在媒体的报道当中，然而真正讲它们大规模投入应用的企业却少之又少。如今，企业CIO们几乎人人都在讨论大数据，许多人认为大数据就是搭一个Hadoop集群，把所有的数据全部存进去，再通过各种各样的API调用进行分析。然而答案并不是这么简单，大数据与IT方方面面

前任都能看懂的分库分表方案

我们都知道，随着业务量的增长，数据量也会随之增加，这个时候就需要关注业务大表，因为大表会影响查询性能，DDL变更时间很长，影响业务的可用性，同时导致从库延迟很大，如果业务做了读写分离，导致用户重复操作产生脏数据，例如重复下单。

「集成架构」2020年最好的15个ETL工具(第一部)

ETL代表提取、转换和加载。它是从任何数据源中提取数据并将其转换为适当格式以供存储和将来参考的过程。

HAWQ取代传统数仓实践（十六）——事实表技术之迟到的事实

一、迟到的事实简介数据仓库通常建立于一种理想的假设情况下，这就是数据仓库的度量（事实记录）与度量的环境（维度记录）同时出现在数据仓库中。当同时拥有事实记录和正确的当前维度行时，就能够

Halodoc使用Apache Hudi构建Lakehouse的关键经验

Halodoc 数据工程已经从传统的数据平台 1.0 发展到使用 LakeHouse 架构的现代数据平台 2.0 的改造。在我们之前的博客中，我们提到了我们如何在 Halodoc 实施 Lakehouse 架构来服务于大规模的分析工作负载。我们提到了平台 2.0 构建过程中的设计注意事项、最佳实践和学习。本博客中我们将详细介绍 Apache Hudi 以及它如何帮助我们构建事务数据湖。我们还将重点介绍在构建Lakehouse时面临的一些挑战，以及我们如何使用 Apache Hudi 克服这些挑战。

TiDB 异构数据库复制最佳实践

用户往往面对多种选择。下面将为大家分享 PingCAP 团队在多年的实践中积攒的大量异构平台迁移经验，以及数据库复制技术的更多应用场景。

基于Hadoop生态圈的数据仓库实践 —— 进阶技术（九）

九、退化维度本节讨论一种称为退化维度的技术。该技术减少维度的数量，简化维度数据仓库模式。简单的模式比复杂的更容易理解，也有更好的查询性能。当一个维度没有数据仓库需要的任何数据时就可以退化此维度，此时需要把退化维度的相关数据迁移到事实表中，然后删除退化的维度。 1. 退化订单维度本小节说明如何退化订单维度，包括对数据仓库模式和定期装载脚本的修改。使用维度退化技术时你首先要识别数据，分析从来不用的数据列。例如，订单维度的order_number列就可能是这样的一列。但如果用户想看事务的细节，还需要订单号。因此，在退化订单维度前，要把订单号迁移到sales_order_fact表。下图显示了迁移后的模式。

得物自建 DTS 平台的技术演进 | 精选

随着得物 App 的用户流量增长，业务选择的数据库越来越多样化，异构数据源之间的数据同步需求也逐渐增多。为了控制成本并更好地支持业务发展，我们决定自建 DTS 平台。本文主要从技术选型、能力支持与演化的角度出发，分享了在 DTS 平台升级过程中获得的经验，并提供一些参考。

基于Hadoop生态圈的数据仓库实践 —— 概述（二）

主流云平台介绍之-AWS

目前云平台逐渐火热起来，国内如：阿里云、腾讯云、华为云等平台，国外如：AWS、Azure、Google GCP等平台，都有不少用户，并在持续的增加中。

HAWQ取代传统数仓实践（三）——初始ETL（Sqoop、HAWQ）

本文通过介绍如何利用Sqoop对不同数据源进行数据导入，详细描述了Sqoop的导入流程、数据源配置、抽取和加载方式，并通过实例介绍了具体操作。

数据库的下一场革命：S3 延迟已降至原先的 10%，云数据库架构该进化了

众所周知，在数据库的历史上，每次存储介质的变化都会引发软件的变革。从 SAN 存储到 SSD 到大内存到 NVM，都触发了数据库内核从理论到工程的演进。

Kettle构建Hadoop ETL实践（八-1）：维度表技术

前面文章中，我们用Kettle工具实现了Hadoop多维数据仓库的基本功能，如使用Sqoop作业项、SQL脚本、Hadoop file output、ORC output等步骤实现ETL过程，使用Oozie、Start作业项定期执行ETL任务等。本篇将继续讨论常见的维度表技术，以最简单的“增加列”开始，继而讨论维度子集、角色扮演维度、层次维度、退化维度、杂项维度、维度合并、分段维度等基本的维度表技术。这些技术都是在实际应用中经常使用的。在说明这些技术的相关概念和使用场景后，我们以销售订单数据仓库为例，给出Kettle实现和测试过程。

OtterTune来了，DBA怎么办

概述最近几年，特别是随着云计算的发展，出现了行业向后重叠和推动的情况。数据库龙头企业Oracle最近几年重点转而向云的变革，它全力以赴在做的一件事情就是把所有的产品和服务转移到云上来。云技术改变了数

基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化（六）

数据治理方案技术调研 Atlas VS Datahub VS Amundsen

数据治理意义重大，传统的数据治理采用文档的形式进行管理，已经无法满足大数据下的数据治理需要。而适合于Hadoop大数据生态体系的数据治理就非常的重要了。

Greenplum 实时数据仓库实践（1）——数据仓库简介

对于每一种技术，先要理解相关的概念和它之所以出现的原因，这对于我们继续深入学习其技术细节大有裨益。实时数据仓库首先是个数据仓库，只是它优先考虑数据的时效性问题。因此本篇开头将介绍业界公认的数据仓库定义，它和操作型数据库应用的区别，以及为什么我们需要数据仓库。在对数据仓库的概念有了基本的认识后，有必要单独说明一下ETL这个最重要的过程，然后向读者介绍四种常见的数据仓库架构。本篇最后描述实时数据仓库的产生背景、特定需求和使用场景，并列举一些常见的实时数据仓库技术架构。

基于Hadoop生态圈的数据仓库实践 —— 环境搭建（三）

基于HBase和Spark构建企业级数据处理平台

Micro-Batch Processing：100ms延迟，Continuous Processing：1ms延迟

HAWQ取代传统数仓实践（十）——维度表技术之杂项维度

本文描述了在电商场景中，如何使用阿里云MaxCompute来实现电商订单数据的ETL处理。主要包括了以下步骤：首先在MaxCompute中创建项目，然后使用DataHub模块中的Sqoop组件来实现数据的导入，接着使用DataHub中的Hive表作为外部表，通过Hive SQL进行数据处理。在处理过程中，使用MaxCompute提供的内置函数和UDF进行数据处理，最后将处理后的数据导出到Hdfs。

基于HBase和Spark构建企业级数据处理平台

Micro-Batch Processing：100ms延迟，Continuous Processing：1ms延迟

基于HBase和Spark构建企业级数据处理平台

Micro-Batch Processing：100ms延迟，Continuous Processing：1ms延迟

HAWQ取代传统数仓实践（十四）——事实表技术之累积快照

本文总结了使用ETL处理大数据技术进行数据仓库建设的过程，包括数据提取、转换和加载（ETL）过程的构建和部署。主要介绍了ETL处理大数据的几种方法和技术，重点讲解了Apache NiFi和Talend这两个流行的开源ETL工具在大数据环境中的使用。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐