前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据,数据流,数据管道

数据,数据流,数据管道

作者头像
AustinDatabases
发布2019-11-11 22:58:37
1.6K0
发布2019-11-11 22:58:37
举报

最近比较忙,不过最近间接的获取了不少关于数据流,及数据融合,管道等方面的知识,由于脑子内存小,不写出来很快就会忘记,所以还是硬着头皮写一写。

数据作为一个专有名词,至少有10年的时间,围绕这个词衍生出很多词汇。

大数据分析,数据敏捷分析,数据spss, 大数据应用,智能数据AI,围绕这些词汇的产品也不少,HADOOP, SPARK, HIVE, Teradata,greenlum 等产品。

这些产品已经在很多公司中的大数据分析中得到广泛的应用。 今天想说的并不是这些产品,今天想谈的是一个最近悄然热门的行业 Datapiple, 数据管道。

什么是数据管道,为什么需要数据管道软件,数据管道在目前的企业中到底有什么地位,如何应用。

有人马上提到,你别糊弄人,你说的不就是ETL嘛,老掉牙了。 是吗那我提几个问题,你看看如何解决。

问题1 : 业务部门数据由于历史原因,使用的RDS 类型多种多样,有ORALCE ,有SQL SERVER ,有MYSQL ,甚至有MONGODB ,现在大数据分析,要整合部分这些数据库的数据,到一个大数据平台进行数据分析?

问题2: 业务部门数据表设计之初,没有考虑ETL数据抽取的问题,换言之没有时间字段,你如何在上百G的数据中,抽取增量数据?

问题3; 业务部门多种需求,要求在业务获得数据的1个小时内,将更新的业务数据传递到数据部门进行处理,获得DATAVIEW

问题4:业务部门中都有数据分析人员,有的人员精通 T-SQL, 有的擅长 PL/SQL, 还有的只会JAVA 你如何满足这样多种多样的数据目的地需求。

问题5,; 目前由于数据库更新,将ORACLE 数据库替代,使用PostgresQL 来代替ORACLE。目前需要进行灰度发布,ORACLE 和 POSTGRESQL 数据之间进行实时同步,当程序跑通,上线两个礼拜后没有问题,将ORACLE 清除。

说没有什么了不起的同学,站出来,把我上面的问题一并解决吧,估计已经吐血了。

在提升一个高度,站到CDO的角度,你公司使用的数据库类型,我不关心,我只关心,你的数据流,是否能及时的传导到我的各种目的地,让我进行分布式的运算。 同时数据必须在管道中,进行加工处理,而我还要一些RAW的数据对我计算的数据进行验证,也就是 单点多传,数据清洗,数据整理的要求。

估计说ETL 的同学你的胆汁都吐出来了吧!!

这时候我听到一个声音 ORACLE OGG , I am sorry,

1 OGG 有多贵你知道吗?

2 OGG 能满足上面所有的需求吗?

价格我们先放到一边,让OGG 支持 ORALCE 到 PG 的数据流, ORACLE 到 TIDB 的数据流, MONGO DB 到 传统数据的数据流(对你没有听错是MONGO DB 到传统数据库的数据流)

OGG还需要在数据的源端,安装AGENT,造成某些服务器的负担和不安全性,如果是外企,还要在评估一番你的数据获取方式安全与否,然后在推诿,扯皮,审批一番,在中国市场瞬息变化的行情下,半年过去了。等批准的时候,市场早就变化了,数据变质了。

而每次数据不能及时供应的背锅侠,运维,还是站在背锅侠的最前端,多个数据源数据获取不及时造成数据获取延迟,数据获取不准确,数据提供的格式不对,数据提取时,对业务系统的负担,造成业务投诉。

终上所述,集中了业务数据分析,大数据部门,运维,人的,机器的,程序的,各种问题,在这个 数据通道的需求中,集中爆发,各种不满和委屈淋漓尽致。

我们需要什么:

1 一个能实时获取数据流,将业务数据像水一样的方式,通过水管顺畅的流向各个目的端,支持者。

2 一个能支持各种数据库,及大数据软件的数据交换中心的支持者

3 一个能在数据交换的过程中,还能做点数据的小变动,将不必要的数据,截止在数据的源端的工具。

4 一个能方便快捷,部署,不在数据源端做任何安装的数据获取软件

5 将复杂的ETL + 数据调度,转换为无需担心的数据一致性必然传输。

——————————————————————————————

这样的软件有没有,根本就没有吧 NO NO NO

基于每个数据库的底层原理, ORACLE REDO ,ARCHIVE , SQL SERVER CDC , MYSQL BINLOG , POSTGRESQL WAL, MONGODB 的OPLOG 将这些底层编码破解的方法,就是获得上述能力的先决条件。

避免有广告的嫌疑,这里不提任何公司的名字,但在中国市场,已经有这样的高科技企业,实现了这样的功能。每个高速发展的企业,也需要这样的软件,将死的数据,变化为数据流,让每个数据的索取者,和数据提供者,皆大欢喜,一身轻松。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-11-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AustinDatabases 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档