首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【案例】农业银行大数据平台项目——海量数据复杂运算处理

南大通用GBase 8a MPP Cluster产品也发展成为国内企业大数据、数据仓库领域基础平台软件的领先产品。...2013年8月,农行数据仓库正式立项,确定采用南大通用GBase 8a MPP Cluster与Hadoop的混搭架构。...2013年11月30日,数据仓库原型集群及资负、零售数据集市试运行(28节点MPP集群)。...2014年11月,数据仓库原型环境向生产环境(56节点MPP集群)的迁移与切换工作完成,迁移有效数据103T。 2014年12月,完成财会集市(16节点MPP集群)搭建。...关键技术2:MPP集群活架构示意图 通过运用GBase 8a MPP集群间同步工具识别主集群增量数据(以DC为单位),点对点传输至备集群,实现主备集群数据一致;同时结合大数据平台批量加工调度平台

6.8K100

数据库架构比较

这通常会使这个选项变得昂贵,尽管(理论上)它可以部署在廉价的商用服务器上,实际上,它通常部署在具有冗余磁盘,网络连接和电源的企业级硬件上。...MPP体系结构是数据仓库和分析平台的出色解决方案,因为查询可以分解为组件部分,并在服务器之间并行执行,从而显着提高性能。...“通过大规模并行处理(MPP)设计,查询通常比在对称多处理(SMP)系统上构建的传统数据仓库快50倍”。-微软公司。...成本和高可用性:一些基于MPP数据仓库解决方案旨在在廉价的商用硬件上运行,而无需可能包含成本的企业级冗余组件。这些解决方案通常使用自动数据复制来提高系统弹性并确保高可用性。...在此期间,关于数据仓库是否已经死亡以及Hadoop是否会取代 MPP平台的讨论很多,尽管普遍的共识似乎表明Hadoop充其量只是数据仓库的补充技术; 不是它的替代品。 什么是Hadoop?

3.9K21
您找到你想要的搜索结果了吗?
是的
没有找到

国产数据库|聊聊南大通用 GBase 数据库

大家,我是JiekeXu,很高兴又和大家见面了,今天和大家一起来聊聊南大通用 GBase 数据库 GBase 产品 GBase 系列是南大通用数据技术有限公司推出的自主品牌的数据库产品,其中包括: 分析型数据管理系统...今天来聊一聊分析型数据管理系统 GBase 8a 它是面向大数据分析类应用领域的一款高性能国产新型数据库产品,用于满足数据密集型行业日益增大的数据查询、数据统计、数据分析、数据挖掘和数据备份等需求,可用做数据仓库系统...GBase 8a MPP Cluster GBase 8a MPP Cluster 数据库,南大通用大规模分布式并行数据库集群系统,简称:GBase 8a MPP Cluster,GBase 8a MPP...GBase 8a MPP Cluster 采用 Shared Nothing MPP 的联邦架构,灵活部署,采用计算存储节点和管理节点集群的两级部署结构,无单点故障,扩展性,管理集群最多支持部署 64...(GBase 8aMPP Cluster 产品架构图 ) (GBase8a MPP Cluster 技术特点图) 核心技术就是:单节点数据行列混存存储技术和MPP 大规模并行计算技术。

5.9K10

Greenplum数据库使用总结(干货满满)--

业务数据的存储和存取 2.sql的解析并形成分布式的执行计划 2.执行由master分发的sql语句 3.将生成的执行计划分发到每个Segment上执行 3.对于master来说,每个Segment都是对等的...2 Greenplum数据库常用知识 2.1 Greenplum 概念 Greenplum的架构采用了MPP(大规模并行处理)。在 MPP 系统中,每个 SMP节点也可以运行自己的操作系统、数据库等。...与传统的SMP架构明显不同,通常情况下,MPP系统因为要在不同处理单元之间传送信息,所以它的效率要比SMP要差一点,但是这也不是绝对的,因为 MPP系统不共享资源,因此对它而言,资源比SMP要多,当需要处理的事务达到一定规模时...,MPP的效率要比SMP。...这就是看通信时间占用计算时间的比例而定,如果通信时间比较多,那MPP系统就不占优势了,相反,如果通信时间比较少,那MPP系统可以充分发挥资源的优势,达到高效率。

6.9K20

数据仓库模型全景

前面讲了数据仓库的价值、构建思路、实例,完成数据仓库的概念、逻辑、物理模型设计后,数仓的产品选型也是需要考虑的部分,根据数据存储量、查询效率、并发能力可以选用MPP数仓和基于Hadoop的分布式数仓等...一、MPP还是Hadoop 这里继续用之前用到的图讲解,数据仓库的特性是处理温数据和冷数据,面向业务分析提供偏于离线分析能力,因此一般选用Hadoop+MPP数仓结合的解决方法,Hive能够提供大批量历史数据的存储计算能力...,Hbase能够提供半结构化文档的快速检索能力,MPP能够提供强大高压缩比基础上的快速查询能力; 二、MPP数仓特性 在MPP解决方案中目前我已接触过的是vertica和GP,在teradata实习期间没有用到...td数仓; 数仓的特性是大批量的查询和索引,少量的改查工作,MPP (Massively Parallel Processing),即大规模并行处理数据库的一般特性: ① 列式存储意味着高压缩比、高IO.../slave模式,具备统一的查询入口(master),vertica是无中心架构,所有节点都提供查询服务,gbase是存储/管理中心架构; shared nothing 模式:x86机器构建计算/存储的高扩展集群

1.1K20

11 特供!临战前收下这几款小程序,分分钟省下一个亿

时效性攻略负责满足眼下最痛的痛点,像 11.11 刷什么卡优惠最多,宝宝安全座椅选 11 购指南,实实在在的干货贴。...除此之外,当大家都不知道吃什么,喝什么,或争执不下没有定论时,亮出 「抛个硬币」,顺应天意,很快也就有了结果。 爽快地接受今天的麻婆豆腐+雪碧吧!...无论是吃吃喝喝,还是买买买,受不了持续纠结的时候,一步点开这个小程序,舒缓下自己的决策压力也是的。毕竟双十一,是为了让自己的更开心,不是更焦虑。 ?...它最核心的益处就是告诉你分期付款哪家强,哪款分期产品最适合你。主流信用卡+互联网白条产品,基本覆盖了目前的常用分期选择。在各种选择中,你最关心的无非就是哪家利息少,或者每月可以少还款。...「消费分期计算器」小程序使用链接 https://minapp.com/miniapp/4092/ 有了这 3 件神器防身,双十一剁手还怕什么,蓄势待发吧!

56.8K40

Snova数仓简介

Snova为您提供简单、快速、经济高效的PB级云端数据仓库解决方案。...借助于Snova,您可以在数分钟内创建拥有数百节点的企业级云端数据仓库,并高效的完成日常维护工作;也可以使用丰富的Postgre开源生态工具,实现对Snova中海量数据的即时查询分析、ETL处理及可视化探索...性能卓越 基于分布式大规模并行处理MPP框架,可线性扩展存储及计算能力。支持行列混合存储,可按业务需求选择最佳存储方案。查询引擎深度优化,查询效率数倍于传统数据仓库。...安全可靠 节点同步冗余,实现用户无感的故障转移和容灾备份。分布式部署,计算单元、服务器、机柜三重防护,提高重要数据基础设施保障。用户集群独立部署,支持VPC隔离,数据访问安全多重保障。...借助于Snova数据仓库,在金融、零售、互联网、游戏等多个领域,可方便地搭建用于经营分析决策、海量日志分析、用户行为实时洞察等场景的一套解决方案。

1.8K20

大数据数据仓库—概念

大家不再大谈几个v了,落地到企业会发现,大部分场景还是传统的数据仓库的替换。今天梳理下数据仓库的使用场景,以及需要的技术。 1,先谈下数据仓库准确的概念是什么?...2,大数据技术相比传统的数据仓库有什么优势? 搞来搞去,又回到了传统的数据仓库吗?事实上,大部分企业的应用传统数据仓库支持就非常。...对于小于100T的结构化数据处理时,往往会发现MPP架构的数据仓库反而性能更高。但是数据仓库有非常明显的扩展瓶颈,目前已知的,最大生产数据仓库节点数据大概是几百个节点。...传统数据仓库,还停留在统计,钻取这些传统的BI分析方法。大数据技术衍生出非常多的交互式,BI工具等。 相比传统数据仓库,大数据也有很多劣势:1)小数量下面,比传统的mpp差。...本文先介绍数据仓库的基本概念,下一篇介绍大数据数据仓库的应用场景。

95860

铺天盖地云原生,什么才是真正的云原生数据仓库

导语 | 分析型数据仓库经历了共享存储、无共享MPP、SQL-on-Hadoop几代架构的演进,随着云计算的普及,传统的数据仓库架构在资源弹性,成本等方面已经很难适应云原生的要求。...云原生数据库或者云原生数据仓库还没有一个非常的定义。 我根据多年经验结合现在云原生的一些系统,梳理出了一个简单的定义。...引入数据湖的概念,就是把所有的数据,无论结构化、非结构化,都扔进来,没有经过严格的数据建模等等过程,原始数据放在这儿,大家可以去用,用完之后如果形成了一些的模型,可以转到数据仓库里。...传统的MPP数据仓库和Hadoop都很难解决高并发,数据孤岛等问题。...扫码立即参会赢礼?

2.6K20

云数据库的本质是什么?

第二代数据仓库采用MPP架构,采用无共享架构(比如Teradata),使用普通X86服务器,可扩展至几十节点,但很难满足大数据需求,架构不够灵活,比如难于实现秒级扩容。...另外,HAWQ从著名第二代MPP数据仓库系统Greenplum Database演化而来,继承了Greenplum Database的SQL以及对第三方工具的兼容性,所以,在兼容性和性能方面大大优于其他第三代...数据仓库的演进 ? 分析处理主要涉及的就是数据仓库。Teradata是最早期做数据仓库商业化的公司,于1984年推出了第一个MPP数据仓库。...需要注意的是最初的数据仓库应用技术并不是MPP而传统的共享存储方式。传统数仓可扩展性相对较差,最多只能到十几个节点,第一代MPP解决了部分可扩展性问题。...传统的共享存储数据仓库被放在左上角,中间部分是MPP,由于云数据库的本质架构并无太多变化,所以也位于中间。最后是第三类系统,他们性能往往不如老牌数据库优化的,兼容性也较差。

2.3K00

数据仓库构建方法论和简单实践

前面讲了数据仓库的价值、构建思路、实例,完成数据仓库的概念、逻辑、物理模型设计后,数仓的产品选型也是需要考虑的部分,根据数据存储量、查询效率、并发能力可以选用MPP数仓和基于Hadoop的分布式数仓等...一、MPP还是Hadoop 这里继续用之前用到的图讲解,数据仓库的特性是处理温数据和冷数据,面向业务分析提供偏于离线分析能力,因此一般选用Hadoop+MPP数仓结合的解决方法,Hive能够提供大批量历史数据的存储计算能力...,Hbase能够提供半结构化文档的快速检索能力,MPP能够提供强大高压缩比基础上的快速查询能力; 二、MPP数仓特性 在MPP解决方案中目前我已接触过的是vertica和GP,在teradata实习期间没有用到...td数仓; 数仓的特性是大批量的查询和索引,少量的改查工作,MPP (Massively Parallel Processing),即大规模并行处理数据库的一般特性: ① 列式存储意味着高压缩比、高IO.../slave模式,具备统一的查询入口(master),vertica是无中心架构,所有节点都提供查询服务,gbase是存储/管理中心架构; shared nothing 模式:x86机器构建计算/存储的高扩展集群

63820

【大数据100分】大数据架构及行业大数据应用(中级教程)

Teradata和Sybase IQ在数据分析应用上的性能其实都比Oracle,DB2等要普遍。 ? 图 1数据库发展历史 3....这类MPP产品可以有效支撑PB级别的结构化数据分析,这是传统数据库技术无法胜任的。对于企业新一代的数据仓库和结构化数据分析,目前最佳选择是MPP数据库。 ?...-数据仓库的案例 个人对数据仓库比较熟悉,所以可讲讲。我们拿大家熟悉的数据仓库(Data Warehouse=DW)来看看数据分析的价值。...可选的方案只能是混搭架构,用不同的分布式技术来支撑一个超越PB级的数据仓库系统。这个混搭架构主要的核心是新一代的MPP并行数据库集群+ Hadoop集群,再加上一些内存计算、甚至流计算技术等。...武新:非常,我们是一路的,可下来向你们请教。复杂的大表关联,分布式事务都支持了吗 ?

1.1K150

【揭秘】中国四大银行的大数据应用已到了哪个阶段?

非常的大数据的应用场景: 第一,交易反欺诈,需要利用大数据流数据的技术,用户在做交易的过程中采用主机旁路技术,交易没有完成之前通过大数据在内存中进行一个判断。...底下研了数据提取平台,外部监管和数据提取任务特别重,早期都得到生产去导带生成,现在我们通过单独建一个环境,把一些数据预加工,基本以宽表的模式,以前做加法的事情变成了做减法,至少80%的提出需求都在我的环境里直接提取...MPP数据库,我们搭建了活机制,两个库之间的同步加验证现在每天大概是22TB的数据,仅需要3小时。...我们做了MPP和Hadoop的交互,有些应用要交互,我们做了非结构化MPP和HDFS之间的融合。...后来启用了MPP和Hadoop之间的备份,大大提高了效率,300T也需要将近20个小时,所以我们做了活,如果活稳定的话我们就不用备份数据了。

74130

四大银行(工建农中)大数据进展如何?

非常的大数据的应用场景, 第一,交易反欺诈,需要利用大数据流数据的技术,用户在做交易的过程中采用主机旁路技术,交易没有完成之前通过大数据在内存中进行一个判断。...底下研了数据提取平台,外部监管和数据提取任务特别重,早期都得到生产去导带生成,现在我们通过单独建一个环境,把一些数据预加工,基本以宽表的模式,以前做加法的事情变成了做减法,至少80%的提出需求都在我的环境里直接提取...MPP数据库,我们搭建了活机制,两个库之间的同步加验证现在每天大概是22TB的数据,仅需要3小时。...我们做了MPP和Hadoop的交互,有些应用要交互,我们做了非结构化MPP和HDFS之间的融合。...后来启用了MPP和Hadoop之间的备份,大大提高了效率,300T也需要将近20个小时,所以我们做了活,如果活稳定的话我们就不用备份数据了。

1.9K40

大数据实战【千亿级数仓】阶段一

阶段三 学习数据仓库理论知识、创建数据仓库,并导入数据。 解决数据缓慢变化维问题。...(24) 基于用户的退货指标分析(5) 阶段五 学习、掌握kylin的使用,使用kylin,为数据仓库内的数据进行预计算 阶段六 用户浏览记录整理分析(点击流...2012年十一 ? 2019年十一 ? ? ? ? ?...要从海量的数据中寻找决策,离不开先进的数据仓库技术。 千亿级数仓模仿阿里巴巴双十一的大屏显示功能实现的互联网电商指标的离线,同时也模仿了阿里巴巴大数据平台上面数据仓库的设计思想和理念。...大家通过学习这个项目,能够掌握以下核心技能: 数据仓库的概念和建设过程 离线数据仓库的功能、使用场景和常用的技术栈 本次大数据数仓项目,主要围绕以下业务流程开展建设。

2K20

数据仓库的未来趋势:计算存储分离

二 为什么要计算存储分离 MPP(Massive Parallel Processing)架构为OLAP类数据库最普遍采用的技术架构。...即便是基于云平台构建的数据仓库,在查询低峰期时,也无法通过释放部分计算资源降低使用成本,因为这同样会引发数据的reshuffle。这种耦合的架构,限制了数据仓库的弹性能力。...三 业界趋势 1 Redshift 作为AWS上最热门的数据仓库产品,Redshift采用的是MPP架构,它也一直往弹性方向演进。...这样可以灵活地根据不同workload,为不同用户创建不同规格的VW,且用户之间具备非常的隔离性。...通过这些弹性能力,更好满足客户对于云数据仓库的诉求,也进一步降低客户的使用成本。 end

2.2K40

如何让数据湖仓达到数据仓库的性能

一种新颖的方法将数据湖仓分析的所有优势与数据仓库的高性能完美结合。...MPP架构与内存数据调度 数据湖查询引擎采用数据调度来实现可扩展性能,特别是在复杂的联接操作和聚合方面。...图2:MPP与MapReduce框架 为了应对这一挑战,并直接在数据湖仓库上运行低延迟查询,拥抱装备了内存数据调度的大规模并行处理(MPP)查询引擎是一个明智之举。...这种内聚架构简化了操作,并确保缓存以峰值效率运行,从而为数据检索和查询执行提供尽可能的性能。...创新解决方案如MPP查询执行、缓存框架和系统级优化可能弥合这些差距,并使企业能够享受湖仓库的所有好处,而无需承受任何缺点。

6210

腾讯云大数据发布数据生态战略,构建开源开放数仓生态

聂晶介绍,作为一个开放的云厂商,腾讯云结合腾讯数据技术实践、开源技术组织和商业化技术合作伙伴能力,在云端提供了涵盖Hadoop、ES、MPP数仓在内的,丰富易用、开源开放的开箱即用数据基础设施和数据工具...以下为腾讯云大数据产品总经理聂晶演讲实录: 大家,我是来自腾讯云大数据团队的聂晶。北京今天天很冷,非常感谢大家花费宝贵的周末时间来到我们techo的大数据专场。...随着30年的行业演进,小型机为代表的第一代单一传统关系数据库技术已经无法适应这个时代;因此,在技术领域持续涌现出了MPP数仓、SQL On Hadoop、ELK这样的优秀新兴技术,组成了第二代数仓技术的百花齐放时代...同时开放云生态的技术能力也将有足够能力保障企业未来数据技术演进中的技术安全性问题。...我们希望服务市场也开放给我们的合作伙伴和开发者,让大家都能发挥自己的能力服务我们的用户。我们的用户也能因为这个开源开放的生态,享受到更为透明和精细化的产品和服务能力所带来的的生产力极大提升的红利。

88370
领券