作者:vivo 互联网服务器团队- Deng Song
本文根据邓松老师在“2022 vivo开发者大会"现场演讲内容整理而成。
数据库运维面临着大规模数据库实例难以有效运维、数据库难以做好资源弹性伸缩以及个人隐私数据安全难以保障这三个方面的挑战。对此,vivo给出了自身的应对方案。
首先,vivo自研了数据库运维平台DaaS来支撑数据库运维工作。在规模覆盖、效率提升、故障告警处理等层面均衡发力,保障了数据的稳定性,以工单自助,故障自愈为核心,实现了数据库的高效运维。
其次,在数据库资源弹性管理层面,vivo重视资源成本优化。围绕资源分配、资源弹性伸缩、资源隔离分别给出了智能化解决方案,并通过套餐自动优化,进一步降低了管理成本。
最后,基于个人隐私数据,平台也提供了对业务几乎无影响的MySQL的透明加密方案,来减轻因为隐私数据加密带来的研发和运维工作量。
从数据库运维体系的演进历程来看,
1、2000年左右,PC互联网时代兴起,商业数据库是市场主流,而开源数据库方兴未艾。普遍的数据库运维方式,还是人工加脚本,当时大部分公司数据库规模量相对不大,这样做完全够用。人们面临的主要运维挑战是商业数据库软硬件成本高,而开源数据库软件和配套工具不成熟,通常要自研来满足开源数据库自身的稳定性和扩展性要求,门槛高。
2、到了2010年左右,移动互联网时代兴起,社会数字化进程陡然加速,数据量规模大增。此时,一个针对IT基础设施的革命性的概念提出来了,那就是云计算,简单来说,就是通过网络的方式提供服务器,数据库,或者某种软件服务资源。在数据库运维领域,则自然衍生出了云计算的一个分支概念,DaaS,data as a service,数据库的运维方式因此由人工脚本方式转变为了数据库平台的方式。同时,随着开源数据库技术以及各种周边生态软件走向成熟,开源数据库得到了广泛应用。这时,数据库运维的挑战变成了如何高效率交付资源,保障数据库稳定性,做好数据库成本优化。
3、到了2020年左右,后移动互联网时代,社会数字化程度进一步加深。云原生的概念被提了出来。微服务架构,资源弹性,容器等云原生技术广为传播。数据库的稳定性方面,因为开源数据库的高可用体系普遍成熟而大大缓解。数据库规模方面,实例数量和品类都进一步大增。数据库安全方面,2021年8月我国正式出台了个人信息保护法,个人隐私数据保护成为了数据库运维的时代重点。
这样的时代背景下,我以为数据库运维主要有三个方面的挑战:
挑战讲完了,接下来我们看下vivo在这三个挑战方向的应对。
vivo是自研了数据库运维平台DaaS来支撑数据库运维工作。
综上所述,数据库高效运维的核心就是,工单自助,故障自愈。接下来将详细介绍这两点。
首先看工单自助,要实现工单自助,主要有三点:
随着数据库规模的成倍增加,故障告警的数目也急剧增多,vivo日均数百数据库故障告警,存粹靠手工进行告警问题排查处理越来越不能满足数据库稳定性的要求。
数据库故障自愈的需求就被自然提了出来。故障处理简单分为:发现,定位,恢复 三个步骤,针对已经发生的故障我们反复分析确认,其中定位环节是最耗时,所以当前故障自愈系统主要做的就是故障分析定位的工作。整体上故障自愈主要是两个难点,一个故障自愈方案的确认,另一个是相关基础工具的开发。
通常认为故障自愈方案最好是全面信息采集+机器学习自动确认的,这样的方案具备普适性,也更有效率且准确。但是立足于团队和问题现状,我们认为当前的故障自愈方案可以是全基于运维专家经验确认的。这是因为在数据库运维方向,目前常见数据库相关故障场景不到50个,且变量因素单一,所以即便凭借优秀专家经验枚举处理办法,也能自动解决大部分故障,简单实用。另外在故障自愈的基础工具上,我们主要自研了:Redis流量分析,热key分析,MySQL 根因SQL分析等工具。
接下来介绍故障自愈的逻辑架构:
整个系统是由故障告警驱动,系统获取到告警消息后去查找相匹配的预案,然后执行预案中设定的基础操作,包括分析操作和恢复操作,例如Redis流量分析或者MySQL binlog清理等,最终生成执行报告,其中包括中间状态的现场监控快照,智能的分析结果等,同时也提供案例标注的能力。最后执行结果会自动分配并通知到对应负责的数据库运维人员或者消息群组当中。
通过这套架构,最后实现了超70%的故障自动分析或者处理,包括至少30个基础能力建设,26个故障预案,10个故障场景全自动处理。
我们先来看vivo数据库资源管理上要面临的现状和问题:
针对上述问题,vivo数据库平台主要做了如下工作:
在资源成本优化上,除了刚才提过的混合部署,还可以做套餐自动优化,进一步降低成本。
下面介绍下具体的套餐自动优化流程:
大概在这个功能上线后的4个月内,平台自动发起超千次缩容,节省了超百T空间。
在线数据库有数十万张“表”,总计超千万个字段,其中隐私数据识别覆盖100% ,涉及MySQL,MongoDB,Elasticsearch,TiDB四种数据库,人工抽查识别准确度79%。而当个人隐私数据识别出来了,处理的主要手段就是加密,所以平台也提供了对业务几乎无影响的,MySQL的透明加密方案,来减轻因为隐私数据加密带来的研发和运维工作量。
隐私数据库保护应该是贯穿业务研发阶段,运营阶段的全链路保护。
对于数据安全来说,数据库加密是最后一道防线。前面提到隐私数据识别出来了,那么加密的目标有了。基础加密算法业界也比较成熟,加密方式也不缺。唯一的问题是,加密的过程。
对于新增业务来所,加密过程比较简单,没有业务访问怎么做都行。但是对于存量的成熟业务来说,几十张表,数据规模千万记录都是常事,怎么加密还能不影响用户访问,就是个麻烦的问题。为了解决这个痛点,目前数据库平台提供了一个存量业务数据无损加密方案,因为主要隐私数据都在MySQL中,所以这是基于MySQL的。
首先介绍加密涉及的三个组件:数据库平台是用户操作入口,表结构变更工具gh-ost负责历史数据加密转化,MySQL代理负责让加解密过程对业务程序透明。
接下来介绍无损加密的主要流程:
个人认为故障自愈的演进可以分为三个阶段:
接下来在弹性资源管理这个方向,个人认为其发展可以分为三个阶段:
在个人隐私数据这个方向,还有两个待解决的问题:
最后谈下数据库平台建设,概括来说8个字,统一标准,开源共建。
展开来说,如今的数据库技术市场百花齐放,DBengines网站榜上有名的数据库就有395种,单个系统构建依赖多个品类数据库的情况逐渐普及,通过统一的数据库平台来支撑数据库运维工作,几乎成了企业的刚性需求。但我们缺乏一个公认的跨品类的数据库运维标准,也缺乏一个主流的跨越多品类的开源数据库平台。
个人期望用这样的开源平台来承载数据库厂商,数据库生态工具开发者以及企业用户对数据库服务共建的诉求,加速数据库服务建设速度,让云原生时代没有难运维的数据库。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。