首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

企业级数据湖构建探索

编者按

截至2018年2月,华为FusionInsight大数据解决方案已经赢得全球55个国家、1000多个客户的信赖,拥有300多家商业合作伙伴,并在全球多个地区设有OpenLab来支撑与客户合作伙伴的云和大数据方面的联合创新,广泛应用于金融、运营商、政府、能源、医疗、制造、交通等多个行业。

华为大数据&AI平台FusionInsight是企业级大数据集成、存储、查询、分析以及人工智能统一基础平台,为企业快速构建海量数据信息处理系统。通过实时和非实时的分析和挖掘,帮助企业从海量数据信息中获取到真正的价值,及时洞察机会、预防风险。提供文字识别、图像识别、语音识别等基础AI平台,提供智能物流、OCR等能力,使企业更智能。

华为是大数据&AI平台的提供者,也是数据湖建设的实践者。数据湖架构面向多数据源的信息存储,包括结构化、半/非结构化、流式、物联网数据在内。后续数据湖系列文章将向您展示:企业级数据湖构建原则、华为生产场景的数据湖建设实践、基于华为生产场景的近实时数据应用、实现大数据秒级服务方案、数据湖Data Mart建设实践等内容。

曾经有几个P的数据放在我面前,

我无法存储,如今想要用了只能叹息。

所以我们做了一个不算艰难的决定,

建设企业级——数据湖。

如果非要给这个湖加个限定,

我希望是一站式。

随着公司数字化转型战役打响,企业数据势必会迎来井喷发展,而且各个系统交叉分析,数据使用成本会变得越来越高,我们急需一站式数据解决方案,包括如下几点:

P级别存储规模:数据的集中式管理,包括原有的结构化数据存储(200T),以及数字化转型后越来越多的非结构化如用户行为日志、图片、视频、文档接入,大数据应用将嵌入越来越多的业务场景;

T级别计算能力:大规模加工预、测计算,如基于订单、合同、用户画像等将定义越来越多的超级大宽表(可能上千维度)汇总加工计算,以及T级别条码信息扫描;

同源异构数据访问:数据的存储将会多样化,比如原始区OGG过来表的在Oracle,而支持key-V快速查询的条码信息存储在Hbase,这些跨库的数据在做交叉分析时,我们只需要通过查询引擎Spark、Hive、ELK(华为自研)等,直接读取本地化元数据信息即可实现交叉分析,但实际数据存储可能在活动房是HDFS、Hbase或者Oracle等多个环境;

大吞吐数据管道:支持将海量业务数据快速汇聚到数据湖,供下游大数据分析计算,模型预测,如果时效跟不上预测在准也失去价值了。

基于以上,我们规划如下数据湖建设思路:

三大功能模块:接入、计算、存储

能力模型映射架构:对应组件以开源生态为主

当前数据接入我们将集中采用EIP平台打包服务,进行数据落地,目前已有物流GPS实时信息落地,后续将接入Item图片信息及GTS站点勘探信息,这些都是海量数据;

计算存储我们目前主要采用公司FusionInsight组件,同时我们也会拥抱开源生态,积极采用更合适平台扩充我们的IT装备,提升大数据开发人员作战能力;

当前开发者平台主要还是采用开源的Hue+Ooize,随着生态的建设,我们会逐渐完善我们一站式大数据开发平台,改善用户体验。

规划一站式大数据开发平台:

声明:本文观点仅代表作者个人,不代表任何公司。

随手点赞好习惯,点个赞鼓励鼓励小编吧(-᷅_-᷄)

(本文内容来源于网络,版权归原作者所有)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180515B1CV4R00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券