事故描述:
上周客户的大促活动中,客户反馈,存在部分已发货的订单退款成功,造成了惨重的损失,直接影响在客户信任感。事后我们对这次事故进行了专项复盘。
涉及问题订单100余单,累计金额近万元。
WMS发货完成后,回传OMS物流信息,调用订单发货接口失败,订单发货接口未做特殊异常处理,导致订单状态未能及时同步给平台。正确的业务逻辑应该是买家发起退款申请,在客服人员手动点击发货重新同步平台状态之前,进行退款申请,OMS系统自动拦截WMS发货,此时因为WMS已发货成功,所以拦截失败,但是平台订单状态未更新,所以退款申请默认同意。核心问题是订单服务的其中一个实例加载mq配置文件失败,导致这个实例不能发送mq消息,缺乏消息重试机制。
项目是客户私服部署,由客户的运维进行发布维护,监控系统被替换成客户自己搞的监控系统。
对于异常的报警机制不完善。
通过对这次事故的复盘,针对这次的事故的解决方案如下:
正视每一次事故,刨析事故原因,有针对性的解决事故原因,对于事故的预防工作该如何优化,避免下一次更严重的事故。希望技术人敬畏每一行代码!
- END -