编者按:2021年3月10日,欧洲云计算巨头OVH位于法国莱茵省首府斯特拉斯堡的数据中心发生严重火灾。火灾造成约360万个网站瘫痪,其中部分用户资料永久丢失。如今,3年过去,OVH此次火灾的起因调查和客户赔偿却迟迟不见下文。国际数据中心媒体DCD就此撰写了一篇评论文章,全面回顾和追踪了OVH火灾后续。
在OVHcloud数据中心被烧毁三年后,关于该事件的问题仍然多于答案。
在2021年3⽉10⽇星期三上午12点40分之前,SBG2是⼀个不起眼的数据中心,位于斯特拉斯堡⼀个不太有趣的工业基地,斯特拉斯堡则是⼀个以作为欧洲官僚机构中心而闻名的小城市。
SBG2的外墙挂着一个大大的OVH标志(它的全名是OVHcloud),外墙五颜六色的覆层为这座外表平平无奇的建筑增添了一抹亮色。高达五层的SBG2位于法国与德国接壤的莱茵河西岸,提供了500平方米(5,380平方英尺)的数据中心空间。
直到今天还不清楚到底发生了什么,但在六个小时内,SBG2成为了世界上最受关注的数据中心,它也不复存在了。
黎明前,大火吞噬了大楼。亮眼外立面变成了一个畸形的、冒烟的外壳。里面的30,000台服务器被摧毁,相邻的SBG1被严重破损毁坏。数据丢失,客户企业服务中断。在火灾发生期间,360万网站无法访问,这些网站对应着464,000个域名。
没有人受伤。但是,就财产而言,这是有史以来数据中心的最大单一灾难。在这之前或之后,从未有过一个完整的数据中心被烧毁。
数据中心的存在是为了提供较为可靠的数据存储,并自豪于会为每场有几率发生的灾难做出详细准备。数据中心不会彻底瘫痪。但SBG2不单单是瘫痪,它完全自毁了。
在其他行业,我们会知道发生了什么。当飞机坠毁时,“黑匣子”飞行记录仪讲述了这一个故事。当公司入股时,法医会计师会详细重建这样的一个过程。与此形成鲜明对比的是,以其运营精度为荣的数据中心部门对SBG2保持沉默。
三年过去了,没有关于它最后几个小时的官方说明。OVHcloud已经清除了残垣断壁,建立了一个新的数据中心,并忽略了任何有关事故的信息请求。
火灾发生后,数百名OVHcloud客户威胁要起诉。然而,在三年内,只有两个客户在法院成功申诉。两人都获得了赔偿,但由于案件正在上诉,两个客户目前未得到任何赔付。
这种保密性对数据中心人员来说并不奇怪。掩盖失败是正常的做法,正如行业观察家一次又一次地评论的那样,这是极其糟糕的做法——因为这在某种程度上预示着同样的事情很有可能会再次发生。
i3 Solutions的顾问Ed Ansett在2017年告诉媒体,数据中心中断往往是“反复出现的故障”。
多年来,Ansett一直在接受关于数据中心故障事件的咨询,并告诉我们,许多事件都有相同的最终的原因。故障数据被保密协议隐藏起来,错误会重演。Ansett说:“我前段时间得出的结论是,人们没有从经验中学习。”
在英国航空公司数据中心发生停电导致数千个航班停飞几天后,Ansett及其同事宣布了DCIRN,这是一项“坠机报告”服务,用于共享数据中心事件数据,从错误中吸取这次的教训,避免重蹈覆辙。
在SBG2被烧毁后的几天里,Ansett 和他的 DCIRN 同事Dennis Cronin分享了数据中心火灾的清单,并表示希望这场火灾能够说服数据中心行业最终开放相关数据。
三年过去,这种希望破灭了。SBG2的火灾从未得到充分解释。DCIRN本身于2021年8月
解散。Ansett在SBG2火灾⼀周年之际告诉媒体:“我们没办法吸引赞助商,所以我们搁置了这项倡议。”
尽管如此,我们仍旧是可以拼凑出很多关于火灾的事实。虽然它们读起来会让人感到很不舒服。
但首先,我们为何需要关心OVHcloud?从名字能够准确的看出,它是一家云服务商,与市场领导者AWS有一些相似之处。它现在在美国、新加坡、澳大利亚和印度设有设施,但它与其他云的特征非常不同。它的规模要小得多,总部在欧洲巴黎,它在每个阶段都做出了自己的工程选择,并公开它们。
OVH由里尔Icam大学24岁的计算机科学学生Octave Klaba于1999年创立,他发现了对互联网托管的需求商机,并借了约3000美元(法国欧元前货币为25,000法郎)。
柏林墙倒塌后,克拉巴的家人从波兰移民到法国;他的父母亨利克和哈利纳帮助贷款,他的兄弟米罗斯拉夫加入了这项创业。
该公司最初在巴黎数据中心租用服务器,但于2003年在巴黎有自己的3000平方米(32,390平方英尺)的空间,然后于2005年扩展到巴黎西北部鲁贝的一个被遗留的工业基地。
OVH专注于内部建设。早在2001年,Klaba就一直在建造基础系统,以及内部的“GreenBox”服务器。2003年,他增加了自己的水冷系统模块设计。当OVH搬到鲁贝综合体时,Henryk Klaba经营了一个金属车间,使用行业独有的水平机架设计来制造OVH的外壳和机架。
该公司的水冷机架对建筑冷却器的要求较低,因此该公司能够在鲁贝废弃工厂的工厂内零散扩展,而不是建造新的高科技设施。但在2012年,该公司在加拿大扩建了新的数据中心,并在斯特拉斯堡站点上设有了第一个设施。
到那时,OVH自豪地宣布了EcoRoom,这是一个取消空调的数据中心设计,转而使用“使用冷热气流的自然通风系统”。在此期间,OVH是一家极客托管公司,拥有极客客户。他们喜欢在年度公司展上看到Klaba与音乐家在舞台上即兴演奏。
OVHcloud吸引了一些主要客户,但也以支持更无政府状态的行业客户而闻名,包括游戏玩家、密码货币公司以及好的和坏的黑客。2010年左右,朱利安·阿桑奇的维基解密网站在OVH落户。
但到2021年,当SBG1被烧毁时,情况正在发生明显的变化,焦黑的服务器保存着那些公司的数字化转型的记忆。
OVH拥有数以万计的传统客户:小企业、在线举办和反乌托邦生存游戏Rust。卡巴斯基的安全研究人员讽刺地评论说,该建筑中有很多APT安全威胁。其他被影响的网站包括巴黎的蓬皮杜艺术中心、几个法国政府部门、英国车辆许可局和欧洲航天局。
这些迹象说明,OVHcloud已经接受了新类型的客户,随网络越来越普及,他们获得了新的身份。2019年,该公司更名为OVHcloud,并任命了一位新任首席执行官——Michel Paulin——他从电信行业引进,他之前曾领导过法国电信公司SFR。Klaba作为创始人和首席技术官仍然在位,他仍然拥有公司80%的股份。
它正在成为欧洲企业冠军,关注新兴云行业的一部分。OVHcloud绝不是巨人。它可能是美国和中国以外最大的公共云提供商,但它远远超出了AWS、Azure和谷歌云,它们拥有三分之二的市场。
大多数消息来源将OVHcloud放在甲骨文、IBM(Kyndryl)和中国阿里巴巴、华为和腾讯的后面。它可能拥有全球云业务的百分之一,也许更多一点。
但公共部门机构选择它作为支持欧洲本土科技部门的一种方式,并朝着数字主权迈出一步——将欧洲公民的数据存储在欧洲境内的服务器上,在那里它受到欧洲GDPR隐私立法法的保护。
新的OVHcloud正在与德国电信、Atos和Capgemini等区域服务企业建立合作关系。OVHcloud正在达到一个新的可敬水平,它即将迈出下一步。
一百名消防员带着44辆消防车花了6个小时才控制住了大火。在大火高峰期,斯特拉斯堡的法国消防部门召集了一艘在莱茵河上运营的法德泵船。
我们大家都知道火灾是从供电室开始的。可能涉及水,以及大量电池,旨在在电网故障时提供连续电力。火灾发生后的头几天我们知道的就这么多。
火灾发生一年后,下莱茵消防员的报告公布了。它后来从网络上被删除,但在此之前,评论员注意到了令人震惊的细节,其中许多在工业风险调查和分析局(BEA-RI)的调查中得到了证实。
消防员在凌晨1点前一分钟到达现场。他们发现电弧线超过一米长,在电力室的门周围闪烁。他们的报告说,闪光令人印象非常深刻,噪音震耳欲聋。
后来的BEA-RI报告可以访问闭路电视录像和传感器数据,这一些数据重现了电力室起火的那一刻。它还指出,在火灾开始前一小时内,电力室的一个逆变器附近有很高的湿度读数。
消防员根据经验,知道这是一场电气火灾。他们试图做的第一件事就是关闭大楼的电源,但事实上这比听起来更复杂。
凌晨1点13分,消防员试图断电,但电源仍然流动。根据消防员的报告,凌晨1点30分,他们让当地公用事业公司切断了上游的电力供应,但至少直到凌晨2点14分,电力仍然进入大楼。
BEA-RI报告增加了一些细节。像许多数据中心一样,SBG2有一个基于一组柴油发电机的备用电源,这些发电机设计用于在电网中断时自动启动。当公用事业公司停电时,柴油机的控制管理系统启动了它们,尽管大楼着火了,这在某种程度上预示着,当大楼着火时,一些OVH客户的服务器仍在运行。
关闭电源的延迟使消防员没办法进入电源室,并让火焰有时间蔓延。动力室有一个木制天花板,可以抵御火灾一小时,电力管道没有隔热。到凌晨1点30分,大火已经到达了大楼的其余部分。
火灾显然没有受到任何洒水系统或其他防火措施的阻碍,并在拥有木制地板和天花板的主楼中加快了步伐。
到凌晨2点14分,SBG2“完全着火”,消防员将工作转向防止火势蔓延到SBG1,SBG1险些完全被摧毁。
SBG2的“EcoRoom”设计旨在通过建筑物创造空气流动。火灾发生时,气流变成了烟囱,建筑变成了地狱。
这种设计听起来可能很奇怪,但EcoRoom是OVHcloud技术文化的产物,诞生于对成本、速度和效率的关注,并不断发展。
斯特拉斯堡的第一批OVH设施,SBG1和SBG4,是用海运集装箱建造的,没有标准的冗余功能。这导致2017年严重停电,关闭了OVH服务,但没有损坏建筑物。
SBG2是一个EcoRoom设施,使用“免费”冷却的想法,让服务器的余热从建筑物中升起,并从外部吸入冷空气。
OVHcloud似乎没意识到,这将产生在大楼内蔓延任何火灾的风险。该公司显然也不知道消防员注意到的多重危险。
在火灾发生后的头几天,Octave Klaba一直是认真、可爱的极客。他在现场进行清理、发推文、发布视频,并承诺提供支持和完全透明。
3月11日,他发布了一段视频,其中包含关于火灾可能如何开始的有趣细节。他说,当消防员到达时,他们的热成像摄像机显示两个电源(UPS7和UPS8)着火了。这很有趣,因为UPS7在火灾发生前一天就接受了维护。
BEA-RI报告后来指出了一些维护工作:电源室2的逆变器要关注,因为“切换到旁路模式的反复出现一些明显的异常问题”是“无法解释的”。
在火灾发生后第二天的视频中,Klaba说:“供应商来了,在UPS7内更换了很多部件,他们在下午重新再启动了它。它似乎在起作用,但早上我们着火了。”
在接下来的几周里,Klaba在推特上发布了该公司清理服务器、检索数据和重新再启动SBG2以及网站上其他设施的细节,所有这些设施都已关闭。服务器被带到鲁贝进行清洁,SBG1、SBG3和SBG4的机架被逐一供电。
2021年3月16日星期二,火灾发生后不到一周,OVHcloud将电力设备交给了警方调查人员。
Klaba将这一事件视为一项技术挑战,但客户并不都以同样的方式看待事情。许多人认为他们一直在为可靠的备份服务付费,并对他们的数据丢失感到震惊。
Klaba承诺,全部客户将来都会默认提供免费备份,并承诺做出重大改变:“我相信这一事件将改变行业标准,”他说。
周五,受损的SBG1的电池室发生了第二场小火灾。周末,OVHcloud放弃了重启该瘫痪设施的努力,Klaba开始陷入回避。
OVHcloud创始人继续在推特上发布从斯特拉斯堡逐步恢复服务的细节。该公司的官方网站上的实时显示显示服务器恢复了活力。
但他不再谈论火灾,开始对未来做出承诺,包括一项计划,以领导数据中心防火的行业研究。
这一变化似乎是由他的首席执行官推动的。克拉巴的推文和视频慢慢的变多地谈论“与米歇尔”做出的决定。
火灾发生一个月后,当OVHcloud公布其对受影响客户的赔偿报价时,态度的变化变得更明显。
对许多人来说,这是令人失望的。OVHcloud为服务损失提供退款,而不是对业务损失进行赔偿。客户甚至没有为数据丢失获得补偿,除非他们支付了备份费用,该公司表示,云客户应该处理自己的灾难恢复计划。
拥有虚拟专用服务器的客户在服务不可用时能够得到几个月的退款。如果服务器被销毁,他们还有六个月的时间,如果数据丢失......好吧,这取决于他们是否一直在向OVHcloud支付备份费用。
较大的客户将有一个更定制的计划,因为他们必重建服务或从任何能重新启动的服务器迁移服务。克拉巴仍旧能动手,这些客户能访问,他在推特上写道:“我们已创建了迁移过程,包括从SBG到RBX的PB数据副本。进展很快,但我们应该与每个客户交谈,私信我。”
这并没有让每一个人都满意。一些人以疏忽为由起诉OVHcloud,巴黎律师事务所Ziegler Associates开始为集体诉讼收集姓名——这是一个不寻常的过程,直到最近才在法国法律中引入。
该集体诉讼似乎从未兑现,因为原告人数攀升至140人,寻求赔偿总额为1000万欧元。
2022年6月,Ziegler告诉媒体,它准备向OVHcloud发送一封正式信函,作为谈判进程的开始。OVHcloud从未确认收到这封信,Ziegler和OVHcloud都在2022年7月停止回答媒体的问题。
齐格勒集体诉讼可能已经秘密解决,也可能没有秘密解决,其基础是对消防的疏忽,消防员的报告似乎揭示了这一点。OVHcloud表示该报告无效,因为消防员不了解数据中心。它承诺自己的报告会给出更全面的解释,但该报告从未出现。
与此同时,多达四家公司因略微不同的问题单独起诉OVHcloud。这一些企业认为OVHcloud已经安全地备份了他们的数据,但无论如何都丢失了。
其中两起案件于2022年送达法院,OVHcloud两起败诉。法院的判决完全谴责了其后备程序。
原告Bati Courtage和Bluepad都向OVHcloud支付了额外费用,以安全地备份他们的数据——但在火灾发生后得知该公司没有这样做。他们数据的备份副本与实时服务器位于同一个数据中心,两者都在火灾中丢失。
里尔大都会商业法院于2023年2月裁定,这没提供OVHcloud承诺的服务,并命令它分别向Bati Courtage和Bluepad支付10万欧元和15万欧元。
当房地产公司Bati Courtage的备份丢失时,OVHcloud的代表试图在他们的备份合同信中争辩说,将备份与主数据放在同一个房间里是可完全的。法官对这一论点进行了短暂的回避,他指出,服务提供商有大量其他数据中心可以保留备份。
SaaS软件供应商Bluepad的情况有点不同。该公司向OVHcloud支付了额外的服务器,并执行了自己的备份。Bluepad可以访问OVHcloud的管理控制台,该控制台显示其主数据在SBG1中,备份在SBG2中。
火灾发生后,Bluepad震惊地发现控制台在撒谎。两台服务器都在SBG2中,并且都烧毁了。
OVHcloud对Bluepad的数据是撒谎还是无能?我们不知道,但我们更了解一件事。数据本可以保存,因为OVHcloud从残骸中检索了一个未损坏的Bluepad硬盘。数据任旧存在——直到OVHcloud打破自己的程序并打开驱动器,此时它自行格式化,数据丢失。
一年后,这些发现并没有导致其他发现。OVHcloud已经上诉了,此事再次由司法裁决。在上诉审理之前,结果将被密封。法国的律师警告说,该国的法律制度在大多数情况下要很久才能最终解决这些案件,更加不用说任何其他案件了。
评论员怀疑,该进程被故意停滞,这是为了尊重OVHcloud作为全国冠军的地位,该国家冠军过去曾得到法国政府的大量支持。
与此同时,OVHcloud似乎绝对没受到灾难的影响。2021年结束时,股市上市成功,筹集了约3.5亿欧元(3.8亿美元),公司估值超过40亿欧元(43.6亿美元)。
此后,该公司的价值已回落到约20亿欧元(21.8亿美元),但它作为欧洲冠军的角色一如既往地具有银行价值。2022年,它从欧洲投资银行获得了2亿欧元(2.18亿美元)的贷款。
它一直在建设新的数据中心,包括在SBG2现场建造一个新的(希望是防火的)设施。
SBG5是第一个新的OVHcloud数据中心,基于旨在防止SBG2灾难重演的新设计。该建筑拥有1700平方米(18,300平方英尺)的数据中心空间,位于19个由砖石墙隔开的隔离房间中,“提供长达两小时的防火能力”。
OVHcloud还表示,它有一个燃气灭火系统,并在大楼外建造了数据中心的七个能源室和三个电池室。
该公司紧跟了行业的热门趋势,提供人工智能培训服务,并托管了法国IT咨询公司Atos的量子计算机。
尽管SBG2的工程失败,但它已经在数据中心技术方面擦亮了其资质,展示了其液体冷却系统的逐步发展,该系统将单个服务器密封在自己的浸入式水箱中,这些水箱被连接到现有水冷却系统的管道穿透。
Octave Klaba仍然在OVHcloud的所有活动中可见。但即使在首次公开募股后,克拉巴家族也拥有该公司约70%的股份,奥克塔夫作为企业家一直在另外的地方花费一些钱。
甚至在火灾之前,Klaba就正在收购游戏公司Blade,该公司运营着Shadow云游戏服务。他在OVHcloud数据大厅内。该公司继续扩张。
2023年,他购买了法国搜索引擎Qwant,并开始做出宏伟的承诺。正如OVHcloud希望成为欧洲AWS一样,Klaba在接受媒体采访时表示,他可以将Qwant发展成欧洲谷歌。
2023年,Qwant在公共资金上花费了5000万欧元,并处于最后阶段。Klaba收购了它,并将其合并到一家名为“Synfonium”的新SaaS公司,他承诺该公司将以欧洲技术将谷歌的服务与服务相匹配。
OVHcloud和Klaba现在都不会谈论SBG2火灾,但他们都以令人惊讶的方式利用了这一经验,因为他们看到全国冠军得到了特殊待遇。
这些信息似乎显示,OVHcloud运行着一个危险且不可靠的数据中心,并看着它着火。这不是忏悔。如果有的话,它为自己感到骄傲,将SBG5作为复原力的最后一个词,源于它所获得的知识。
OVHcloud知道,法国准备原谅并方便地忘记其最重要业务的失败。另一位受膏的法国科技领袖服务公司Atos已经看到了这种效果。
看起来OVHcloud和Klaba都吸取了教训:成为欧洲技术冠军会让你防火。