2022年4月5日Atlassian开始出现中断,之后数百个Atlassian Jira和Confluence用户停运。
用本周这家软件公司的原话来说,这起事件是在该公司运行一个流氓脚本(rogue script)后发生的。
该脚本原本用来删除遗留数据,却不料“误删除了一些站点,以及那些站点的所有相关产品,包括相连接的产品、用户和第三方应用程序。”
受Atlassian中断影响的客户在4月11日收到了这条消息:“由于为您的站点重新构建的过程很复杂,到目前为止,我们都无法确认更确切的估计恢复时间(ETA)。我们正开始让一些客户恢复正常,估计重新构建的工作还要持续长达两周的时间。”
据Atlassian声称,其226000个用户中总共只有400个用户受到Jira和Confluence中断的影响,35%的用户(状态更新页面显示是40%的用户)的数据已经恢复。
该公司竭力澄清这不是一起网络攻击,而是维护脚本出了岔子。
对于规模如此之大的公司(Atlassian的年收入超过20亿美元)而言,这么长的停运时间几乎前所未有,这让用户们对其恢复系统到底经过了多完善的测试深感担忧。
Atlassian中断原因:Insight资产管理插件被清除了吗?
一位受影响的客户称:“中断开始时,Atlassian无意中透露了消息,称这起中断与Insight资产管理插件有关。我们使用该Insight插件已有一年多。”
“这起初是添加到我们部署的Atlassian云的一个插件。我们开始在生产环境中使用它,用了没多久接到了通知,称Insight将被集成到Jira Service Management(收费版)ITSM解决方案中。对方的通知是,该插件于2022年3月31日停产弃用。今年早些时候我们从该插件成功迁移到了这个‘新的Insight’,但留下了一些数据库,不知何故我们无法移除这些数据库,希望Atlassian帮我们移除。”
该用户通过电子邮件补充道:“由于受到影响的公司数量有限,而且根据原始事件报告(通过Atlassian支持工单)上引用的信息、Reddit上许多确认的留言以及匹配的时间,我认为这次中断是清除原始的Insight 插件和数据库造成的。”
“我们的团队运行脚本以删除遗留数据……”
Atlassian本周在回复媒体时说:“作为对几款有所选择的云产品进行定期维护的一部分,我们的团队运行了一个脚本来删除遗留数据。这些数据来自一项已弃用的服务,该服务已被移至我们产品的核心数据存储系统中。但是脚本并未删除旧数据,而是误删除了站点以及这些站点的所有相关产品,包括相连接的产品、用户和第三方应用程序。”
该软件公司补充道:“我们维护众多的备份和恢复系统,迄今为止已恢复的客户并没有丢失任何数据。这起事件不是网络攻击造成的,也并非有人未经授权访问客户数据……我们知道这次中断是不可接受的,我们在全力以赴解决这个问题。我们的全球工程团队正在夜以继日地工作,为大约400个受影响的客户实现全面安全的恢复,他们在这起事件上继续取得进展。”
“目前,我们已为超过35%的受服务中断影响的用户重新构建了功能。”
Atlassian发言人通过电子邮件补充道:“我们知道现在自己让客户颇感失望,我们正在竭尽全力防止将来再次发生类似情况。”
事后分析报告可能披露Atlassian中断原因的细节。情况可能更糟……
尽管这起事件可能很糟糕,但与2021年12月日本京都大学的超级计算机中77TB的研究数据被永久删除相比还是相形见绌。那起事件是HPE发布的软件更新导致脚本不受控制、删除备份内容所引起的。
HPE当时表示:“备份脚本含有一个查找命令,用于删除超过10天的日志文件。除了脚本的功能改进外,传递给查找命令以便删除文件的变量名称也进行了更改,以提高可见性和可读性。”
HPE补充道:“然而,对这个修改后的脚本的发布程序缺乏全面考虑。我们没有意识到这种行为带来的副作用,就发布了[更新后]的脚本,结果覆盖了一个仍在运行中的[bash脚本]。这导致在执行过程中重新加载修改后的shell脚本,因而导致了未定义的变量。结果,/LARGE0[备份磁盘存储]中的原始日志文件被删除,而不是原计划的删除日志目录中保存的文件。”
相关阅读 ·