金融行业该如何在线替换金融核心场景数据库?在 TUG 陆金所企业行活动中,来自陆金所的数据架构 DBA 团队经理万霁春老师分享了陆金所的去 O 之路,以下内容整理自当天活动分享实录。
本文作者:张茄子,来源于专栏:https://zhuanlan.zhihu.com/p/59643962
作为DBA总是会有现场的救火工作,而如果尽可能早一些介入需求,设计,开发阶段,可能就会杜绝很多潜在的性能问题。很多问题都是如此,都是逐步积累,最终在某一个阶段会集中爆发出来。今天看老盖的感慨,前十年跟全表扫描斗争,后十年跟隐式转换斗争,几代DBA大约都会面临这样的事情,想想真是蛮有意思。 而且前些天和领导在聊天的时候,我说现在优化没啥动力,一方面业务的使用量是有富余的,一个SQL从10秒优化到5秒,好像也没什么特别的成就 感,说句俏皮的话,可能是你比较喜欢折腾。另一方面绝大多数的业务使用数据
熊聘,携程国际事业部公共研发团队Leader,目前主要负责国际化相关的基础组件和市场相关项目的研发。开源社区爱好者,喜欢阅读优秀的开源项目源码,对新技术有着深厚的兴趣。
本文来自9月1日在成都举行的Apache Flink China Meetup,分享来自于云邪。
本篇博客,博主为大家带来的是关于数据仓库中一个非常重要的知识点缓慢变化维的讲解!
1) 应用间耦合严重。系统内各个应用之间不通,同样一个功能在各个应用中都有实现,后果就是改一处功能,需要同时改系统中的所有应用。这种情况多存在于历史较长的系统,因各种原因,系统内的各个应用都形成了自己的业务小闭环;
1) 应用间耦合严重 。系统内各个应用之间不通,同样一个功能在各个应用中都有实现,后果就是改一处功能,需要同时改系统中的所有应用。这种情况多存在于历史较长的系统,因各种原因,系统内的各个应用都形成了自己的业务小闭环;
身处于大数据时代,即使我们使用的大规模并发对数据进行查询,由于数据量的原因,用户想快速的对数据进行分析还是较为困难的;预计算是其中一个比较直观的解决方案,提前将数据算好,需要的时候直接拿出来,看上去是非常美好的,但是预计算是需要成本的,由于分析场景的复杂,预计算的结果被复用的概率可能没那么高,但是这一步还是需要有人进行探索和实践。本文主要描述了Apache Kylin 4.0.1的原理来帮助大家打开思路。
公众号改版后文章乱序推荐,希望你可以点击上方“Java进阶架构师”,点击右上角,将我们设为★“星标”!这样才不会错过每日进阶架构文章呀。
恢复时间点之前首先将全量备份恢复之后,在此基础上回放增加的binlog直至指定的时间点
前篇: 《数据库中间件cobar调研笔记》 13年底负责数据库中间件设计时的调研笔记,拿出来和大家分享,轻拍。 一,TDDL是什么 TDDL是Taobao Distribute Data Layer的简称 淘宝一个基于客户端的数据库中间件产品 基于JDBC规范,没有server,以client-jar的形式存在 画外音:数据库中间件有基于服务端的,也有基于客户端的,TDDL属于后者;而cobar是一个中间层服务,使用mysql协议,属于前者。 二,TDDL不支持什么SQL 不支持各类join 不支持多表查询
集数据定义语言(DDL),数据操纵语言(DML),数据控制语言(DCL)功能于一体。
Kylin沿用了原来的数据仓库技术中的Cube概念,把无限数据按有限的维度进行“预处理”,然后将结果(Cube)加载到Hbase里,供用户查询使用。
记录每天的所有的最新状态的数据,有无变化都要上报,每次往全量表里面写数据都会覆盖之前的数据
今晚,我在知识星球:测试人员生存指南的线上会议里,与星球伙伴们进行了大数据测试主题的分享,此篇为《大数据测试实践之全量改增量》上半部分的文字版~
前言 数据库一般存放着企业最为重要的数据,它关系到企业业务能否正常运转,数据库服务器总会遇到一 些不可抗拒因素,导致数据丢失或损坏,而数据库备份可以帮助我们避免由于各种原因造成的数据丢失或着数据库的其他问题。本文将讲解 MySQL/MariaDB数据库的几种备份方法。 基础知识 备份类型 完全备份:备份整个数据库 部分备份:仅备份其中的一张表或多张表 增量备份:仅备份从上次完全备份或增量备份之后变化的数据部分 差异备份:备份上次备份后变化的数据部分,和增量备份区别在于差异备份只可以相对完全备份做备
参考:DBA和开发同事的一些代沟(一)(r7笔记第17天) 有些朋友给我反馈了他们遇到的小故事,我后续再整理整理,看看有多少。 我还是继续来分享我这边碰到的一些小插曲,这些除非你确实碰到,想遍出来还着实需要想象力。 和开发的博弈 在Oracle中有资源管理的概念,其中一个功能就是设置每个用户可以使用的session数,即sessions_per_user,这个设置通过profile来完成。 一般的线上库都还是有一定的配额设置,保证不会出现过量的资源使用情况,这一点也和开发达成了共识。如果违反了共识,那就需要
经过三个月的开发,项目通过了所有测试并上线,然而,我们发现项目的首页几乎无法打开,后台一直发生超时错误,导致CPU过度负荷。在这次项目开发过程中,我制定了一份详细的技术优化方案。考虑到客户无法提供机器硬件配置,我们只能从软件方面寻找解决方案,以满足客户的预期。同时,我还准备了一个简单的项目复盘,如果你对此感兴趣,也可以一起查看。
拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。
最近发现一本好书,读完感觉讲的非常好,首先安利给大家,国内第一本系统讲解数据血缘的书!点赞!
在腾讯云数据库举办的【国产数据库专题线上技术沙龙】中,4月30日陈爱声的分享已经结束,没来得及参与的小伙伴不用担心,以下是直播的视频和文字回顾。 关注“腾讯云数据库”公众号,回复“0430陈爱声”,即可下载直播分享PPT。 大家好,我是陈爱声,目前负责腾讯云TBase产品实施和运维相关工作。非常感谢大家百忙之中抽空来到TBase直播间。 今天的分享主题是“TBase优秀的企业级能力原理剖析”,主要分为四个特性。 第一:数据透明加密能力。 第二:基于任意时间点的恢复能力。 第三:异构数据同步能力。 第
Apache Spark在2016年的时候启动了Structured Streaming项目,一个基于Spark SQL的全新流计算引擎Structured Streaming,让用户像编写批处理程序一样简单地编写高性能的流处理程序。
拉链表是一种数据模型,主要是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。拉链表可以避免按每一天存储所有记录造成的海量存储问题,同时也是处理缓慢变化数据的一种常见方式。
1)增加记录时,可以不用指定id字段,不用担心主键重复问题。 2)数据库自动编号,速度快,而且是增量增长,按顺序存放,对于检索非常有利; 3)数字型,占用索引空间小,范围查找与排序友好,在程序中传递也方便; 为什么要设置主键,主键作用是什么?
备份是数据安全的最后一道防线,对于任何数据丢失的场景,备份虽然不一定能恢复百分之百的数据(取决于备份周期),但至少能将损失降到最低。衡量备份恢复有两个重要的指标:恢复点目标(RPO)和恢复时间目标(RTO),前者重点关注能恢复到什么程度,而后者则重点关注恢复需要多长时间。
对于简单的查询,例如根据某一个字段或ID进行查询,使用 MyBatisPlus 可以直接进行。
1、存储引擎其实就是如何实现存储数据,如何为存储的数据建立索引以及如何更新,查询数据等技术实现的方法。
合理的数据仓库分层一方面能够降低耦合性,提高重用性,可读性可维护性,另一方面也能提高运算的效率,影响到数据需求迭代的速度,近而影响到产品决策的及时性。建立数据分层可以提炼公共层,避免烟囱式开发,可见一个合适且合理的数仓分层是极其重要。
首先我们介绍什么是CDC?CDC的全称是Change data Capture,即变更数据捕获,它是数据库领域非常常见的技术,主要用于捕获数据库的一些变更,然后可以把变更数据发送到下游。它的应用比较广,可以做一些数据同步、数据分发和数据采集,还可以做ETL,今天主要分享的也是把DB数据通过CDC的方式ETL到数据湖。
本篇博客,博主为大家介绍的是关于Kylin的增量构建的步骤过程,以及其与全量构建的差异对比!看完之后,相信你也一定能够感受到这里面的大学问~
因此在生成(build)数据库 Docker 镜像的时候,每个阶段都需要翻新上一个版本,即在上一个版本的基础上,应用本次 source code 中的变更,使其生成一个新的镜像,然后发布到各个环境,比如开发,测试甚至生产。
ETL是数据抽取(Extract)、转换(Transform)、加载(Load )的简写,它是将OLTP系统中的数据经过抽取,并将不同数据源的数据进行转换、整合,得出一致性的数据,然后加载到数据仓库中。简而言之ETL是完成从 OLTP系统到OLAP系统的过程。
ETL是数据抽取(Extract)、转换(Transform)、加载(Load )的简写,它是将OLTP系统中的数据经过抽取,并将不同数据源的数据进行转换、整合,得出一致性的数据,然后加载到数据仓库中。简而言之ETL是完成从 OLTP系统到OLAP系统的过程
在上篇文章 从 SQL Server 到 MySQL (一):异构数据库迁移 中,我们给大家介绍了从 SQL Server 到 MySQL 异构数据库迁移的基本问题和全量解决方案。全量方案可以满足一部分场景的需求,但是这个方案仍然是有缺陷的:迁移过程中需要停机,停机的时长和数据量相关。对于核心业务来说,停机就意味着损失。比如用户中心的服务,以它的数据量来使用全量方案,会导致迁移过程中停机若干个小时。而一旦用户中心停止服务,几乎所有依赖于这个中央服务的系统都会停摆。
如果是使用 delete 语句误删了数据行,可以用 Flashback 工具通过闪回把数据恢复回来。 Flashback 恢复数据的原理,是修改 binlog 的内容,拿回原库重放。而能够使用这个方案的前提是,需要确保 binlog_format=row 和 binlog_row_image=FULL。
我们在数仓项目的时候往往是需要将它分层的,但是为什么分层你真正的了解过吗,那它分层的好处又是什么呢。好我们今天就针对这个话题进行讲解。如果你还不了解数仓中的模型可以去看这篇(数仓模型设计详细讲解),编写不易请给个一键三连。
0x00 前言 过了半年时间,对数据仓库的理解又有了一些不同的认识,翻出来之前写的关于拉链表的内容,稍作修改重新发出来。本篇将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。 内容 全文由下面几个部分组成: 先分享一下拉链表的用途、什么是拉链表。 举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在 Hive 的大规模使用,我们会以 Hive 场景下的设计为例)。 分析一下拉链表的优缺点,并对前面的提到的一些内容进
最近在了解 Presto 和 Trino 对于 Deltalake Connector 的相关实现原理,这里了解完刚好用一篇文章总结下,一是可以帮助自己未来的回顾,二是也希望能够帮助大家,下面都是个人理解,若理解有误,欢迎指出,共勉。
本文借助于《演进式架构》这本书中关于演进式架构体系的描述,探索我们如何在数据这个领域,设计出演进式数据架构。
1. 三层架构 界面层: 和用户打交道的, 接收用户的请求参数, 显示处理结果的。(jsp ,html ,servlet) 业务逻辑层: 接收了界面层传递的数据,计算逻辑,调用数据库,获取数据 数据访问层(持久层): 就是访问数据库, 执行对数据的查询,修改,删除等等的。
从全备份中恢复出某一个库里的一张表(以取出hellodb.students为例):
得到一个DataFrameGroupBy 类型的对象: <pandas.core.groupby.DataFrameGroupBy object at 0x10d45a128>
作者介绍:唐刘,PingCAP VP of Engineering,TiDB Hackathon 2021 特邀评委。
在一个新领域中学习,一个非常大的难点是需要找到一套高效的思考框架和交流语言。Web3 涉及到很多通证经济和金融相关的议题,在相关讨论中,资产负债表(balance sheet)是非常有用的工具,不仅可以帮你厘清思路,看清楚事情的本质,还能提高交流效率,甚至可以帮助你发现新的创新机会。我本人就从中获益匪浅。不过在实践中,我感到了解这个工具并且能够主动使用它分析问题的同业人士并不多,颇感惋惜,因此撰文予以介绍和提倡。此外,在本公众号后续的 Web3、通证经济和货币经济讨论文章中,也需要经常使用这个工具,所以本文也算是一篇参考文档,以后可以经常引用。
领取专属 10元无门槛券
手把手带您无忧上云