前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据-数据中台搭建技术选型

大数据-数据中台搭建技术选型

作者头像
码客说
发布2022-11-03 15:29:33
7860
发布2022-11-03 15:29:33
举报
文章被收录于专栏:码客码客码客

前言

技术选型

  • 分布式存储 Hadoop(HDFS)
  • 分布式数仓 Hive
  • 分布式数据库 Hbase
  • 分布式计算 Flink
  • 分布式消息队列 Kafka
  • 批数据同步 DataX
  • 实时Mysql Canal 其他的数据库后续支持。
  • 作业调度 crontab 先实现简单的定时任务,之后再考虑任务流处理。
  • 数据湖 暂不考虑。

数据处理流程及分层

image-20221025110034919
image-20221025110034919

其中数据分层

  • 原始数据层 其他源的原始数据不进行处理
  • 原子层 数据附加来源标签
  • 转换层 数据字段转换为统一的形式
  • 汇总层 把不同来源的相同数据进行按策略汇总
  • 主题层 把数据分为不同的主题

API接口

对外提供API接口采取如下方式

  • Redis
  • Redis+Hbase

数据转换

  • 截取
  • 对应转换 例如:男=>1 女=>2
  • 日期字符串 => 时间戳
  • 数据类型转换 如 字符串转数字 数字转字符串

推荐项目

DataX ETL项目

https://gitee.com/psvmc/datax-web

对比

Taier

文档:https://dtstack.github.io/Taier/docs/guides/introduction/

视频:https://www.bilibili.com/video/BV13L4y1L71w/

源码:https://github.com/DTStack/Taier

推荐资源

数据中台是什么?

https://www.bilibili.com/video/BV1e3411W7f1?vd_source=e0fcc7abaacc3af8b556e0441cd6d47a

自己实现DataX

https://www.bilibili.com/video/BV1MP4y1F7qE?vd_source=e0fcc7abaacc3af8b556e0441cd6d47a

【网易大数据专家,为你剖析数据中台的现状及未来】

https://www.bilibili.com/video/BV1EQ4y1M7fW?vd_source=e0fcc7abaacc3af8b556e0441cd6d47a

Spark

UDF:User Defined Function,用户自定义函数。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2022-10-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 数据处理流程及分层
  • 数据转换
  • 推荐项目
  • 推荐资源
相关产品与服务
云数据库 Redis
腾讯云数据库 Redis(TencentDB for Redis)是腾讯云打造的兼容 Redis 协议的缓存和存储服务。丰富的数据结构能帮助您完成不同类型的业务场景开发。支持主从热备,提供自动容灾切换、数据备份、故障迁移、实例监控、在线扩容、数据回档等全套的数据库服务。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档