日前 AWS 服务故障,影响众多网站。AWS 公开了故障原因,表示员工在除错时输入错误指令,移除了较正常数目为多的服务器,进而影响 S3 两个子系统的运作。 两个 S3 子系统需重新启动 AWS 北维吉尼亚州的数据中心(US-EAST-1)日前发生故障,影响众多网站,现在公开更多细节。他们表示,S3 团队日前发现支付系统的运作较慢,于是输入指令,打算移除 S3 子系统中用于处理支付的少量服务器,但其中一个指令有误,导致更多的服务器也被移除。 该些服务器是用作支持另外两个 S3 子系统的运作。一个是索引子系统 (Index subsystem),用于管理 S3 物件的元资料(metadata)和地方资料,需要处理所有 GET、LIST、PUT 和 DELETE 请求;另一个是存放子系统(Placement subsystem) ,负责管理新储存的分布,atv,需要索引子系统方可正常运作,当要处理 PUT 请求时便会用到。 由于为数不少的容量(capacity)被移除,子系统需要重新启动,过程中 S3 无法处理服务请求。因此其他依赖 S3 运作的储存服务,如 S3 控制台、Amazon EC2 建立新执行个体(instance)、Amazon EBS 和 Amazon Lambda 都无法运作。 AWS 称,由于两个子系统已经多年未有完全重新启动,加上 S3 近年迅速发展,重新启动和检查数据的时间较预期中久。 他们又指,之前的工具把容量移除得太快,现在他们已改良工具,减慢移除速度,并确保子系统不会有过少的容量,避免相同事件发生。他们也就事件致歉,将汲取教训提升可靠度。 Summary of the Amazon S3 Service Disruption in the Northern Virginia (US-EAST-1) Region ,开奖 (责任编辑:本港台直播) |