北京时间2024年9月10日早上8时左右,一场突如其来的火灾让阿里云新加坡地域可用区C机房陷入了前所未有的困境。火灾持续超过36小时,对阿里云及其托管在该机房的其他科技公司的服务造成了重大影响,引发了业界的广泛关注与深思。
据阿里云官方发布的《新加坡可用区C机房火灾》公告显示,火灾发生后不久,阿里云监控便发现新加坡地域可用区C网络访问出现异常,部分云产品服务随之受到影响。随着火灾的持续,影响范围不断扩大,包括Lazada和字节跳动等主要科技公司托管的服务也遭遇了严重中断。在Lazada以及TikTok Shop等电商平台上,卖家反馈无法通过平台接口同步订单信息;TikTok Shop的用户也透露,系统故障使得小黄车功能无法正常使用。
据初步调查,此次机房火灾的原因是锂电池爆炸。锂电池作为现代电子设备中常见的储能元件,虽然其安全性已得到广泛验证,但在特定条件下仍有可能发生爆炸并引发火灾。此次火灾中,锂电池的爆炸导致了机房内部温度急剧升高,火势迅速蔓延,给灭火工作带来了巨大挑战。在灭火过程中,消防人员使用了水枪、房内洒水灭火系统、灭火机器人等多种手段。然而,对于锂电池火灾而言,水消防并不可取,因为锂电池在燃烧时,水分可能引发电池短路,加剧火势;同时,水与锂电池内部的电解液发生化学反应,可能产生大量有毒气体和热量,进一步加剧火灾风险。因此,灭火过程中更多地依赖于其他灭火剂,如全氟己酮等,这些灭火剂能够迅速吸收热量、隔绝氧气,从而实现有效灭火。
面对火灾,阿里云迅速启动了应急预案。首先,通过快速切换备份系统,保障了云网络和安全产品的基本运行;其次,对于关键云产品如云数据库、对象存储等,也及时完成了灾备切换,确保了客户的业务连续性。然而,由于火灾对机房的物理破坏较为严重,部分机房业务仍需等待物理条件的恢复。在火灾得到初步控制后,阿里云开始着手进行灾后恢复工作。运维工程师进入机房评估损坏情况,并制定了详细的恢复计划。对于无法原地恢复的机房业务,阿里云将执行服务器设备迁移恢复预案,以确保客户的业务能够尽快恢复正常。
此次阿里云新加坡机房火灾事件再次提醒我们,数据中心的安全性和稳定性不容忽视。数据中心相关方应加强行业间的交流与合作,共同推进数据中心安全技术的研发和应用。通过不断的技术创新和管理优化,提高数据中心的可靠性和可恢复性,为数字化、智能化的发展提供坚实的安全保障。
此外,该事件也引发了对数据中心火灾扑救难点的广泛讨论。数据中心通常采用封闭式空间设计,无窗或窗户不易开启,这使得火灾时热量和烟雾难以散发,导致火势迅速蔓延,增加了扑救的难度。同时,数据中心内部设备密集、发热量大,且线路复杂、用电量大,这些都给火灾预警和扑救带来了巨大挑战。因此,加强数据中心的防灾设计和应急演练显得尤为重要。
目前,阿里云正在积极应对火灾带来的影响,并与各方密切合作,努力恢复受影响的服务。我们期待阿里云能够尽快度过难关,并以此为契机,进一步加强数据中心的安全管理和应急响应能力。