首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

蚂蚁技术风险:极致稳定的“面子”,技术创新的“里子”

在蚂蚁技术体系中,活跃着一支特别的队伍,他们专搞“破坏”,被称之为“技术蓝军”,蓝军的任务就是不断地攻击系统,而防守方则被称为“技术红军”。

给红军团队不停的制造“麻烦”已成为技术蓝军的“常态”,据说这样的技术攻防演练每周都在进行,除了每年5月底的“期中考试”周,12月第三个星期为年度技术“期末考试”周,“技术蓝军”随时也会组织突袭攻击“测验”,通过实战中发掘出来的脆弱点来牵引红军进行能力升级。

蚂蚁集团技术风险部负责人陈亮

这是9月25日“Inclusion·外滩大会”技术风险分论坛上,蚂蚁集团技术风险部负责人陈亮分享的真实故事。在他看来,“技术驱动+攻防演练,始终是促进蚂蚁技术风险能力自主持续增长的最重要方式。”

确实如此,对于蚂蚁这种每秒能够处理百亿、千亿级资金的平台来说,技术风险的管控是生死攸关的大事,更何况是金融级的,且是基于互联网开展的,这对技术风险提出了兼具稳定和快速的更高要求,它的难度远超其他单纯的互联网或者金融机构。

也正是为了应对这种独特的挑战,蚂蚁在国内率先组建了第一支SRE团队,这支团队不仅锤炼出了技术风险防控平台TRaaS(Technological Risk-defense as a Service)这样的解决方案,更探索出了与众不同的基于技术风险管理的一整套体系和文化,真正为蚂蚁集团支撑起了一条无形的、牢不可破的技术防线。

宝剑锋从磨砺出背后

对于蚂蚁集团资深技术专家李铮来说,SRE团队组建前后的经历直到今天仍然让他“记忆犹新”。

他说:“技术风险之于蚂蚁而言非常重要,互联网业务要求快速,而金融业务又十分强调稳定,但我们则要求又快又稳,这种挑战如果还是沿用过去常规的、传统的方式来应对,肯定是没有办法实现的,这就必须把技术沉淀到风险管理中,去保障蚂蚁业务和应用的稳妥创新。”

毫无疑问,系统的业务连续性保障和资损风险监控,始终是每一位蚂蚁技术人员的工作中的“重中之重”,如同每一笔交易支付中要始终确保安全一样,技术风险的管控也要确保系统和应用不能够出现任何的故障和风险,这种保障压力尤其在每年的“双11”和“双12”中就显得更加的突出。

在这样的背景之下,2013年,蚂蚁技术团队开始沉淀故障检测等方面的平台化能力;2014年,技术质量部正式成立,并在次年升级为技术风险部,专注应对技术风险问题,从全域视角落地相应的解决方案;2016年,蚂蚁技术风险部再度升级为SRE团队,该团队主要由研发、运维和测试人员组成,这个概念最早由国外提出,在蚂蚁内部则被进一步诠释为“Site Risk Engineer”。

李铮认为,之所以有如此之高的要求,是因为蚂蚁有金融级业务的属性,每一笔支付背后都对应着上百个系统,背后的技术风险管理难度可想而知。因此,解决技术风险的挑战,本质上还是要回归到技术创新这条道路上来,即需要用软件或者说代码的方式化解这些难题,同时还要把这些技术能力抽象和沉淀出来,以平台化的方式更好地管理风险。

以“变更”为例,它指的是代码上线到实际生产环境的过程,这就要求SRE团队需要围绕变更建立各种技术手段,减少变更导致的故障,并研发变更相应的平台,为此,该团队建立了一系列制度保证系统内的任何变更都符合可监控、可灰度、可回滚的“三板斧”要求,并且构建了一套变更防御的微服务让“三板斧”能力系统化实时检测,变更风险秒级拦截。

其实,类似“变更”这样的操作,只是蚂蚁SRE团队日常技术风险创新工作中的“缩影”,也正是得益于这样对日常技术风险工作的长期的沉淀和积累,蚂蚁打造出了技术风险防控平台TRaaS,该架构被称之为“免疫系统”,具备三大特性,包括高达99.999%的高可用性;万亿级资金秒级实时核对;5分钟发现,5分钟自愈的免疫能力。

这种强大的技术创新能力,正是蚂蚁集团在金融科技领域所独有的“杀手锏”。更为关键的是,这也让蚂蚁的SRE团队不仅仅是一个工种、一个岗位,更是一种能力,它的价值不仅能增强团队的整体风险意识,更成为了蚂蚁技术创新体系中的“新引擎”。

可以看到,今天身处蚂蚁SRE团队,不仅要负责全面业务风险分析、线上风险应急处置、业务变更防线研发、资金安全防线研发等工作,更担负着智能监控应急、纵深变更防御、全局容量调度,以及还需要解决世界级的分布式系统处理难题,识别和解决潜在的技术风险等,这也就催生了文章开头中所提到的红蓝攻防演练机制等等。

对此,李铮表示:“今天蚂蚁构建起来的这种稳妥创新的技术风险管理体系,背后既有技术创新的支撑,也有团队组织的保障,更有将技术风险融入日常研发、融入技术平台的文化,三者缺一不可。”

我们常说,宝剑锋从磨砺出——经历过极限洗礼和考验的蚂蚁SRE团队,可以说真正打造出了自身不断创新、并随技术风险演变而不断进化的基因,这是其能够支撑蚂蚁在金融级的业务场景中实现“稳妥创新”关键价值所在。

为技术转型“保驾护航”

事实上,这种“稳妥创新”机制今天已经贯穿到蚂蚁的技术风险体系之中。以云原生架构转型为例,今天蚂蚁大量的业务也开始大量转向更具可靠性和扩展性、更加易于维护的云原生应用。

但在此过程中,随着云原生应用、容器、微服务以及DevOps开发流程的倍速发展,越来越多的应用基于云原生构建,并与核心系统深度集成,由此也带来了前所未有的挑战。

这些挑战包括:产品需求变更频繁、软件开发速度也越来越快,这个过程中带来风险的可能性和频率也越来越高;基础架构的迁移要求系统进行全面的测试,带来了巨大的测试工作量;原有的技术风险基础设施和中台部分系统不适应云原生架构,需要重新研发等等。

蚂蚁集团资深技术专家李铮

李铮形容说:“技术架构的云原生化,这种转变意味着蚂蚁的技术体系需要做大量的变革,可以比喻成“为高速飞行中的飞机换引擎”,那么作为守门员的技术风险团队,不仅仅只是做一名守护者,同时也要对技术创新的成败负责,这就要求SRE团队发挥更加重要的协同创新作用。”

首先,作为技术风险的“守护者”,SRE团队的工作就是要把好“上线关”。此前,蚂蚁就开始尝试使用安全容器,但在正式上线之前,SRE团队就必须对安全容器进行灰度验证,并且要反复的进行压测。比如系统的性能,加上安全容器之后系统的性能也需要要有稳定、持续的保证,如果性能指标下降超过某个规定的“阈值”,那么SRE团队只能要求技术研发人员把容器安全应用重新回炉“再造”。

“我们在这个过程中,就会投入比较大的精力去做前期的评估和验证,以确保云原生应用中的每个技术组件到底有没有问题,到底跟当前的业务系统运行是不是契合,性能是不是能够得以保证,这些都是十分关键的点,也是非常重要的工作。”李铮表示。

其次,SRE团队也要发挥协同创新的能力,包括进行容器应用的前瞻性判断,也要基于现有的技术风险体系做出决策和分析,最终保证云原生应用的高效落地。

以Service Mesh应用为例,我们知道业务容器内独立进程的好处在于与传统的部署模式兼容,易于快速上线;但独立进程强侵入业务容器,对于镜像化的容器更难于管理,而云原生化,则可以将Service Mesh本身的运维与业务容器解耦开来,实现中间件运维能力的下沉,但要让Service Mesh大规模的落地,就必须做好充分的技术风险管理和保障工作。

李铮认为,“要完成这项工作,除了为Service Mesh落地配备专属的SRE团队,还要基于成本、运维效率、稳定性做全面的评估和保障,构建一套支撑Service Mesh大规模无人值守变更和秒级故障定位和应急处置的稳定性服务,最终让Service Mesh的落地更加高效和可靠。”

最后,SRE团队更要积极主动的释放自身的技术创新红利。从某种程度上来说,蚂蚁在走向云原生架构的转型时,其技术风险能力也在经历着云原生化的“升级”。

如今,蚂蚁基于云原生技术稳定性实践方面也积累了很多的经验。例如,从不可变基础设施到极速恢复能力的构建;通过统一变更的标准接入,强制系统化“三把斧”,构建了无人值守的变更防御体系;此外,通过云原生统一调度+变更防御+数据算法驱动,蚂蚁SRE团队实现了全局大规模容量可靠托管,大幅减少了运维成本等等。

由此可见,蚂蚁SRE团队技术风险能力云原生化的“升级”, 不仅保证了其业务创新的高效可落地,同时也把国内的技术风险能力再次提升到了一个全新的高度。

创新筑基与智赋未来

正所谓高度决定视野,视野决定格局。李铮认为,技术风险在各业务领域中不是横向的,而是“自上而下的贯穿”:从最底层的云原生到最上层的具体业务场景,无处不在,一以贯之。因此,面向未来,蚂蚁的SRE团队的工作也将在两个方向展开:

一方面,就是针对下一代技术风险体系持续做好技术创新,其重点包括三个方面:在智能化方面,SRE团队重点关注如监控点自动生成、阈值调整、容量提前预测等技术,最终让技术风险的管理走向“无人值守的变更”。

在云原生方面,SRE团队也会找到属于自己的生态位,为原本以“外挂式”居多的技术能力内置到架构中提供更多的可能;在精细化方面,SRE团队会力争每一笔业务中可能存在的资金问题、技术问题、稳定性问题都得到快速识别和全面防控,进一步夯实业务“稳妥创新”的基础。

李铮强调,智能化是未来技术风险领域最重要的方向之一,以监控应急和故障定位来说,目前最重要的挑战就在于既要更好的数据分析能力的前提下,还要把运维人员排查故障的经验沉淀到系统和平台中,最终发现问题的根源,实现自动驾驶的基础设施,自动来保障技术风险体系的落地,这些都是SRE团队目前正在“攻克”的关键领域。

此外,SRE团队也正在构建一套“仿真环境”的测试系统,其作用在于把预发布的应用在该环境中模拟“Run”一遍,相比目前采用的灰度测试方法,“仿真环境”能够把线上请求数据同步复制到一个完整的虚拟环境中,由此去考验应用上线和技术架构的健壮性及技术人员的应急能力,从而全面地提升系统的高可靠性和高可用性。

另一方面,站在整个金融行业数字化转型的重要关口,蚂蚁SRE团队也在积极思考如何把沉淀了多年的技术风险能力赋能给更多的金融企业客户,进一步提升技术风险管控水平,应该说这既是SRE团队自身的优势,也是其使命所在。

对此,李铮表示:“目前SRE团队已经沉淀出了一些产品化的解决方案,更多基于技术风险的产品和方案也在不断打磨之中,目前国内其实也有部分金融客户在参考和借鉴了我们的这套体系,未来除了向更多的金融客户共享我们的经验之外,SRE团队也会在时机成熟时,通过技术输出的方式赋能更多的金融客户,让整个行业都能受益于蚂蚁在技术风险领域创新的独特价值。”

总的来说,在技术风险这条创新之路上,蚂蚁SRE团队既是创新的探索者,也是落地的实践者,更是未来的引领者,这种坚持用不断的技术创新来提升技术风险的“免疫力”,在为蚂蚁构筑了坚实的技术风险“护城河”的同时,还可以为更多的产业和行业赋能,最终为业务的落地和用户体验的提升更好的“保驾护航”。

正如蚂蚁技术风险部负责人陈亮所言:“新的技术为我们带来了新的能力,但同时也会带来新的风险。技术风险的宗旨,就是用技术创新构建风险免疫系统,让每笔业务精准可靠,让每次体验丝般顺滑。”

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200927A0AU9X00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券