前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >你带的团队,线上故障频发?并不是技术能力问题

你带的团队,线上故障频发?并不是技术能力问题

作者头像
IDO老徐
发布2020-03-12 19:13:16
4410
发布2020-03-12 19:13:16
举报
文章被收录于专栏:简尚简尚

某团队,做SaaS平台的,业务很复杂,接入的第三方系统繁多;每月总能有那么一次线上故障 。

而且,一旦出故障,还是那种几个小时才能恢复的那种 。

另,一个严重的问题是:每次出故障,平台自身并没有任何的预警,用户反馈了,才知道自己平台某个环节(业务流、功能等),出故障了 。

另外,出故障,就得紧急修复,慌忙之中,紧急上线,修复一个问题,往往带来新的Bug 。

客户一堆投诉 。

老板一顿痛骂 。

团队开会反省 。

最后,出了一堆的复盘报告、后续处理措施... ;1个月后,其他模块的,类似问题,又来了 。

如此反复,1年结束了 。

总是在「出故障 -> 紧急修复 -> 客户投诉、老板痛骂 -> 团队开会复盘」的循环中 。

这里的问题是什么 ?

1、故障应急预案 。

2、核心业务的数据监控 、 可用性监控 。

3、巡检机制 。

4、上线流程 。

等等 。

注:如上的这个案例,场景熟悉否 ?你的团队是否有类似情况 ?

这里的问题,跟技术强相关么 ?

有哪些是测试团队可以做的 ?

做了一个混了十几年的老司机,老徐觉得「核心业务/核心业务场景 的 自动化回归」,测试团队得做(而且投入不了太多资源,就有效果) 。

核心业务,业务流回归、业务场景回归 ,确保上线任何版本,不会导致已有问题出故障、而团队不自知的情况 。

如果做不到自动巡检 。

定期人工巡检 ,这种最传统最土的方式,但有效 ;

每天早上,专人把核心业务走一遍,出问题及时联系开发解决,在用户发现前,把问题修复了(这一条,没任何的技术含量,但会有一点点效果)。

类似的,可以做的,非技术手段,很多很多 。

对于,质量团队Leader,每天都应该思考这些 ;而不是把自己陷入各种无意义的会议,或者具体的测试执行中 。

End 。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-03-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 简尚 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档