开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

客快物流大数据项目上

共 50 篇文章

1

客快物流大数据项目(一)：物流项目介绍和内容大纲

2

客快物流大数据项目(二)：物流项目详细介绍

3

客快物流大数据项目(三)：项目解决方案

4

客快物流大数据项目(四)：大数据项目为什么使用Docker

5

客快物流大数据项目(五)：Docker介绍

6

客快物流大数据项目(六)：Docker与虚拟机的形象比喻及组件介绍

7

客快物流大数据项目(七)：Docker总结

8

客快物流大数据项目(八)：Docker的安装和启动

9

客快物流大数据项目(九)：Docker常用命令

10

客快物流大数据项目(十)：Docker容器命令

11

客快物流大数据项目(十一)：Docker应用部署

12

客快物流大数据项目(十二)：Docker的迁移与备份

13

客快物流大数据项目(十三)：Docker镜像

14

客快物流大数据项目(十四)：DockerFile介绍与构建过程解析

15

客快物流大数据项目(十五)：DockeFile常用命令

16

客快物流大数据项目(十六)：使用脚本创建镜像

17

客快物流大数据项目(十七)：自定义镜像mycentos

18

客快物流大数据项目(十九)：项目环境准备

19

客快物流大数据项目(二十)：物流管理系统服务器的数据路径配置和软件下载存放位置

20

客快物流大数据项目(二十一)：Docker环境初始化

21

客快物流大数据项目(二十二)：Docker环境中安装软件

22

客快物流大数据项目(二十三)：OGG介绍

23

客快物流大数据项目(二十四)：OGG安装部署

24

客快物流大数据项目(二十五)：初始化业务数据

25

客快物流大数据项目(二十六)：客户关系管理服务器

26

客快物流大数据项目(二十七)：Cloudera Manager简单介绍

27

客快物流大数据项目(二十八)：大数据服务器环境准备

28

客快物流大数据项目(二十九)：下载CDH的安装包

29

客快物流大数据项目(三十)：软件下载后存放位置

30

客快物流大数据项目(三十一)：常用工具安装

31

客快物流大数据项目(三十二)：安装CDH-6.2.1和初始化CDH服务所需的MySQL库

32

客快物流大数据项目(三十三)：安装Server和Agent

33

客快物流大数据项目(三十四)：CDH开始安装

34

客快物流大数据项目(三十五)：CDH使用注意

35

客快物流大数据项目(三十六)：安装ElasticSearch-7.6.1

36

客快物流大数据项目(三十七)：安装Kinaba-7.6.1

37

客快物流大数据项目(三十八)：安装Azkaban-3.71.0

38

客快物流大数据项目(三十九)：Hue安装

39

客快物流大数据项目(四十)：ETL实现方案

40

客快物流大数据项目(四十一)：Kudu入门介绍

41

客快物流大数据项目(四十二)：Java代码操作Kudu

42

客快物流大数据项目(四十三)：kudu的分区方式

43

客快物流大数据项目(四十四)：Spark操作Kudu创建表

44

客快物流大数据项目(四十五)：Spark操作Kudu DML操作

45

客快物流大数据项目(四十六)：Spark操作Kudu dataFrame操作kudu

46

客快物流大数据项目(四十七)：Spark操作Kudu Native RDD

47

客快物流大数据项目(四十八)：Spark操作Kudu 修改表

48

客快物流大数据项目(四十九)：开发环境初始化

49

客快物流大数据项目(五十)：项目框架初始化

50

客快物流大数据项目(五十一)：数据库表分析

清单首页客快物流大数据项目上文章详情

清单「客快物流大数据项目上」 22/50

客快物流大数据项目(二十三)：OGG介绍

Lansonli·腾云先锋腾云先锋（TDP）成员

目录

一、OGG简介

二、应用场景

三、基本原理

四、基本架构

五、常用的拓扑结构

六、支持的环境

OGG介绍

一、OGG简介

OGG 是一种基于日志的结构化数据复制软件，它通过解析源数据库在线日志或归档日志获得数据的增删改变化（数据量只有日志的四分之一左右）
OGG 能够实现大量交易数据的实时捕捉，变换和投递，实现源数据库与目标数据库的数据同步，保持最少10ms的数据延迟。

二、应用场景

高可用容灾
数据库迁移、升级（支持跨版本、异构数据库、零宕机时间、亚秒级恢复）
实时数据集成（支持异构数据库、多源数据库）

三、基本原理

基于日志捕获技术的实时增量数据集成

Oracle GoldenGate 数据复制过程如下：

利用抽取进程(Extract Process)在源端数据库中读取Online Redo Log或者Archive Log，然后进行解析，只提取其中数据的变化信息，比如DML操作——增、删、改操作
将抽取的信息转换为GoldenGate自定义的中间格式存放在队列文件(trail file)中
再利用传输进程将队列文件(trail file)通过TCP/IP传送到目标系统。
目标端有一个进程叫Server Collector，这个进程接受了从源端传输过来的数据变化信息
把信息缓存到GoldenGate 队列文件(trail file)当中，等待目标端的复制进程读取数据。
GoldenGate 复制进程(replicat process)从队列文件(trail file)中读取数据变化信息，并创建对应的SQL语句，通过数据库的本地接口执行，提交到目标端数据库，提交成功后更新自己的检查点，记录已经完成复制的位置，数据的复制过程最终完成。

四、基本架构

Oracle GoldenGate主要由如下组件组成

组件	说明
Manager	不管是源端还是目标端必须并且只能有一个Manager进程，可以启动、关闭、监控其他进程的健康状态，报告错误事件、分配数据存储空间，发布阀值报告等，其作用： 1：监控与启动 GoldenGate 的其它进程 2：管理 trail 文件及 Reporting
Extract	Extract 进程运行在数据库源端上，它是Golden Gate的捕获机制，可以配置Extract 进程来做如下工作： 1：初始数据装载：对于初始数据装载，Extract 进程直接从源对象中提取数据 2：同步变化捕获：保持源数据与其它数据集的同步。初始数据同步完成后，Extract 进程捕获源数据的变化；如DML变化、 DDL变化等
Replicat	Replicat 进程是运行在目标端系统的一个进程，负责读取 Extract 进程提取到的数据（变更的事务或 DDL 变化）并应用到目标数据库，就像 Extract 进程一样，也可以配置 Replicat 进程来完成如下工作： 1：初始化数据装载：对于初始化数据装载，Replicat 进程应用数据到目标对象或者路由它们到一个高速的 Bulk-load 工具上； 2：数据同步，将 Extract 进程捕获到的提交了的事务应用到目标数据库中；
Collector	Collector 是运行在目标端的一个后台进程，接收从 TCP/IP 网络传输过来的数据库变化，并写到 Trail 文件里
Trails	为了持续地提取与复制数据库变化，GoldenGate 将捕获到的数据变化临时存放在磁盘上的一系列文件中，这些文件就叫做 Trail 文件
Data Pumps	Data Pump 是一个配置在源端的辅助的 Extract 机制，Data Pump 是一个可选组件，如果不配置 Data Pump，那么由 Extract 主进程将数据发送到目标端的 Remote Trail 文件中；如果配置了 Data Pump，会由 Data Pump将Extract 主进程写好的本地 Trail 文件通过网络发送到目标端的 Remote Trail 文件中

五、常用的拓扑结构

单向复制：由一个源数据库复制到一个目的数据库，一般用于高可用性和容灾，为生产机保持一个活动的备份数据库，从而在发生灾难的时候迅速切换，减少数据丢失和系统宕机时间；
双向复制：利用GoldenGate TDM可以实现两个数据库之间数据的双向复制，任何一方的数据变化都会被传递到另一端，可以利用此模式开展双业务中心；
广播复制：由一个数据库向多个数据库复制，利用GoldenGate TDM的数据过滤功能可以实现数据的有选择分发；
集中复制：由多个数据库向一个数据库复制，可以将分布的、跨平台或异构的多个数据库集中到一个数据库。此种模式广泛应用于n+1模式的容灾，通过将多个系统数据库集中到一起，可以充分利用备份中心的设施，大幅减少投资；另外也用于跨平台多系统的数据集成，为这些提供系统提供一个统一视图便于查询和统计数据。
多层复制：由A数据库向B复制，同时又由B向C复制，可以在以上几种模式基础上无限制扩展。

由此可见，GoldenGate TDM的复制模式非常灵活，用户可以根据自己的需求选择特定的复制方式，并根据系统扩展对复制进行扩展。

六、支持的环境

源和目标的操作系统和数据库可以进行任意的组合

举报