前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据平台建设路径

大数据平台建设路径

作者头像
全栈程序员站长
发布2022-08-12 14:50:02
4880
发布2022-08-12 14:50:02
举报
文章被收录于专栏:全栈程序员必看

大家好,又见面了,我是你们的朋友全栈君。

数字化转型这几年成为了集团公司或大型企业寻求业务突破的重要手段,而且各行各业都不乏成功案例,例如金融行业的建设银行、招商银行、平安保险等,还有一些生动的例子,例如百丽鞋业。而国外的经典案例就是亚马逊和特斯拉。

集团客户动静都很大,首先要做咨询规划,必须跟上投入和管理配套,然后可以开始平台建设,最终开始应用,赋能各业务线和产品线。

从技术的角度,一个完整的大数据平台通常会三期建设。先看下图:蓝色部分是第一期内容,绿色部分是第二期内容,橙色部分是第三期内容。

在这里插入图片描述
在这里插入图片描述

第一步,先建设大数据基础平台。首要满足的是数据汇聚、数据存储、数据计算三大块功能,也是最内核的功能。主要内容有数据仓库组建、数据抽取(ETL)、作业调度、数据服务、以及应对大规模节点和集群的监控运维管理功能等。当然还应包含用户、权限、数量统计等基础功能。根据目标数据量和SQL复杂度(例如多表JOIN)来规划采购内容,功能全、系统稳定、性能高、价格合理是技术产品选型的核心考量。这两年和长远看还要考虑国产化和信创。

第二步,基于大数据基础平台建设数据治理等功能。目标是把汇聚进来的海量数据,往往又是异构的数据经过预处理,再进一步进行数据治理和数据管理(二者区别参看CMMI的DMM)。主要内容有元数据管理、数据资产管理、数据质量管理、数据标准管理,以及数据全生命周期管理和必不可少的数据安全等。这里值得探讨的是,做平台的公司往往具备很强的抽象归纳能力,做的是下层的通用能力部分;但这部分内容往往还需要结合行业应用,有些行业侧的供应商也具备上层的行业侧定制化能力,并已经或初步形成了自己的产品。但若论通用能力设计和保障,特别是到十亿条(TB级别)以上数据量的分布式计算(JOIN等),还是需要硬核产品,这就自然而然来到了双方合作的契合点。

第三步,扩建大数据平台创新应用。主要内容是人工智能(包含机器学习和深度学习)、知识谱图(图数据库)、流计算和消息队列等。当然人工智能和图数据库本身也是硬核技术,也可以是平台,这要看所在公司的产品定位和赛道。而从数据智能这个角度看,数据仓库是底座,人工智能和知识图谱都算是一个应用,基于数据仓库优秀的算力,来挖掘数据间隐藏的数据关系,例如金融里的不带标签的反洗钱场景,公安行业的犯罪团伙多层关系网络挖掘。

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/131672.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年4月3,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档