首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

一文读懂微软蓝屏来龙去脉,为何让全球网安头部企业暴跌20%

腾讯科技作者 郭晓静

编辑 郝博阳

2024年7月19日,全球大量微软Windows用户遭遇蓝屏,相关话题登上热搜。同日,微软报告其Microsoft 365应用程序和服务出现中断,影响了全球的企业和用户。根据网站故障追踪软件Downdetector的数据,日本用户报告Microsoft 365出现了问题,截至当地时间下午1:35,共有2800多份故障报告。

微软支持中心客服人员表示,大部分蓝屏是由于公司电脑安装了三方杀毒软件CrowdStrike之后出现的。具体原因是CrowdStrike Falcon Sensor更新后,内核驱动文件csagent.sys导致全球大面积Windows系统蓝屏。

用简单的语言来描述,就是CrowdStrike给所有设备推送了一个更新,触发了某些Windows的bug导致了系统蓝屏。这不止影响了普通用户使用的Windows,也让许多用Windows Server(Windows服务器)的云服务宕机,所以影响极为广泛。

为什么一个第三方杀毒软件的更新,能够让windows系统出现蓝屏?

腾讯科技特别咨询了网络安全专家。CrowdStrike是一家领先的网络安全技术公司,专注于提供下一代终端安全、威胁情报、响应服务和云计算安全解决方案。它成立于2011年,以其创新的云原生架构、人工智能(AI)和机器学习技术而闻名,这些技术用于预防、检测、调查和响应网络安全威胁。Windows 估计安装在 15 亿台设备上,CrowdStrike 拥有约 23,000 名订阅客户,大部分为企业用户、各国政府及公共组织机构。受影响的 15 亿台 Windows 设备所占比例较小。然而,这些特定设备宕机的影响极为严重,因为最有可能的是,运行核心基础设施的关键 Windows 机器都采用了 CrowdStrike。

CrowdStrike是一个基于Windows的软件,它的特别之处在于它是一款安全防护软件。作为安全防护软件,它需要系统里一些非常底层的权限,这样才能监控和管理所有正常软件的行为。“CS的解决方案就是往Windows系统的内核里面注入一个自己的Agent,用来做这些高危操作,也就是这次事件里出问题的组件。”

CrowdStrike在海外安全市场处于一个领导地位,大量企业级Windows的用户、还有全球的很多公共服务机构都会安装。这也造成了这次的事故影响面积极大。“由于此类安全产品对中国禁售,所以中国用户受到的影响较小。仅有部分外企用户受到了相关影响。”

网络安全专家也进一步向腾讯科技解释:“理论上操作系统不该因为应用程序的 bug 而直接整个崩溃,但是 CrowdStrike 似乎是直接加在内核上的(不是普通的用户空间的应用程序),所以现在也无法确认,微软要承担的责任有多少。”腾讯科技也就此向微软官方求证,但是截至发稿,还未得到明确回应。

为什么影响仅仅在Windows系统发生,而没有发生在MacOS上?专家解释道:”两方面的原因,一方面是这次有问题的驱动只给Windows下发了,MacOS的版本没出这个驱动。另一方面是因为MacOS根本不对第三方开放自己的内核,所以即使有东西炸了也不会炸到系统本身去。“

“大致是因为这些跑在内核空间的程序可能会极大增加系统不稳定性,MacOS 从几年以前就开始不鼓励写这些需要跑在内核空间的程序,并且提供了一些系统框架来用别的方式实现类似的功能。”

但是这种做法也是有利有弊的,“Windows、MacOS、Linux都提供了一定的框架,让用户空间的程序可以实现一些安全能力,但是这些肯定都没有你在内核里驻留一个Agent来得彻底。你如果同样身为一个普通的用户空间进程,你在操作系统里就是一个没有特权的普通人,你做的所有监控都是可以被病毒轻松反制的。”

影响有多大?

系统蓝屏还引发的包括云在内大量基础设施的故障。截至发稿,美股CrowdStrike盘前股价一度暴跌超20%;微软盘前下跌3.3%。资本市场担心, CrowdStrike 可能会承受可能威胁其生存的大量指责。

此次事件影响了包括美国、英国、澳大利亚、德国、法国、中国等在内的20多个国家。各国关键基础设施和企业纷纷受到波及,导致大范围的服务中断。

多个国家的银行系统、政府服务、医院和铁路公司中断服务,公共交通和医疗系统压力巨大。

澳大利亚:媒体公司(ABC、SBS等)、主要航空公司(澳航、维珍澳大利亚航空)和超市(伍尔沃斯、科尔斯)受影响最大。

美国:联合航空、达美航空、美国航空发布停飞令,阿拉斯加911紧急呼叫中心无法正常运作。

英国:Sky News、BBC儿童频道无法直播,NHS服务和多个机场运营受阻。

法国:2024年巴黎奥运会系统在开幕前一周受影响,启动应急预案。

此次“蓝屏故障”将如何修复?影响将有多久?

专家回应称:“微软侧对修复这个问题可能起不到太大的作用,主要还是要靠CrowdStrike来解决。崩溃发生在CrowdStrike内部,微软不太好干涉第三方驱动软件。”

如果不能等待CrowdStrike的解决方案,最快的方案就是用安全模式启动然后禁用CS。”对于数据中心来说,大部分是可以通过带外管理做重启+切换安全模式之类的操作的。但是有个小问题就是安全模式启动后,大部分的自动化管理工具(比如Chef),也是不会启动的。也就意味着大部分操作要回归带外手动操作,一台一台切过去。“这需要超大的工作量,但是这样的缺点就是服务器要裸奔一段时间,没有防护。

截至发稿,CrowdStrike已经公布了故障的解决方案,目测解决方案是回滚了服务器下发下来的有问题的组件。但由于蓝屏系统无法启动,用户需要在安全模式下重启电脑进行操作。

Crowdstrike首席执行官乔治·库尔茨(George Kurtz)发帖写道:“CrowdStrike正在积极与受影响的Windows主机客户合作,解决单一内容更新缺陷问题。Mac和Linux主机不受影响。这并非安全事件或网络攻击,问题已被识别、隔离并已发布修复程序。我们建议客户访问支持门户网站获取最新更新,并持续关注我们的网站获取完整的持续详细更新。我们进一步建议组织应通过官方渠道与CrowdStrike代表沟通,以确保信息准确传达。我们的团队已全力以赴,确保CrowdStrike客户的安全和稳定。”

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OW2c_YEIlf-2yiCAX5SRX33Q0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券