前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据SLA服务保障

数据SLA服务保障

原创
作者头像
平常心
发布2022-05-25 14:26:16
2.1K0
发布2022-05-25 14:26:16
举报
文章被收录于专栏:个人总结系列个人总结系列

一.背景

        团队成员在数据SLA服务保障缺乏意识认识、行动的执行策略、以及事故的档案管理、进行经验积累与复盘。基于时间推演,复盘总结不断迭代完善,最终目标是达到服务可用性在4个9。

二. SLA服务保障体系

三. 前置条件

1.如何意识到重要性

  • 从告警信息开始,含技术告警余人肉通知,电话与短信告警信息类似SOS标识(告警的级别与收敛)。
  • SLA的影响成本也是从异常发生的时间开始计算(含休息时间)。     

2.如何找到人

  • 在职期间(含请假时间),owner对数据服务可用性负全责。
  • 请假期间,A角梳理请假期间需要代理的工作内容,同时邮件知会团队成员。优先考虑B角作为代理人,代理人(同离职交接人)全责,owner协助处理(离职人员友情协助)。
  • 假设所有问题是owner第一时间发现,资源协调由owner 通知小组长 > 团队负责人进行统筹处理。
  • 非owner第一時間/业务方第一时间发现,团队成员有义务与责任基于进行通知团队负责人,团队负责人跟踪解决问题(重复前面3条)。其次推动开展基于SLA做复盘管理,迭代与完善。

3.如何响应

  • AB机制

横向选择:B角色同职级担任,进行工作代理与SLA服务保障。

纵向选择:B角团队建设与培养担任,补位工作,需要A角进行远程协助或操作指引。。

  • 工作代理机制

              候选人:优先B角色进行工作代理,代理期间与公司要求保持一致,A角尽远程协助的义务。

              工作内容:A角梳理请假期间需要代理的工作内容,同时邮件知会团队成员,妥善安排了工作内容。B角清楚工作的内容也了解工作内容的影响性。

  • 告警机制

             数据流:采用彻头彻尾的机制,源头数据异常(即数据接入、数仓ODS层) 与 结果输出(数据服务接口、数仓ADS层)异常告警立即响应与处理机制,避免异常数据流入,错误数据流出造成不可预估的影响。

             时间线:采用数据应用末尾时间机制,ODS系统业务发现异常最早时间是08:30 am后,则告警与异常解决应该是在这个时间前。如果异常响应未能即时解决,则对外公告是在9:00am。

凡是电话告警,需要立即响应,涉及到关联方定位后第一时间通知对方。电话告警范围(失败,数据质量强规则红色预警可以触发电话告警,任务阻塞(数据量为0,数据量波动超过经验阈值))。

  • SLA操作流程

            操作流程:主要owner操作完成,若B角进行操作,需要提供对应自己的操作文档,未提供操作文档的,算A角失位。同时需要远程协助与操作指引,否则A角失位责任。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一.背景
  • 二. SLA服务保障体系
  • 三. 前置条件
    • 1.如何意识到重要性
      • 2.如何找到人
        • 3.如何响应
        相关产品与服务
        大数据
        全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档