本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【j2开奖】从AWS宕机事件说开去,热闹看完该学会什么?

时间:2017-03-06 09:51来源:本港台现场报码 作者:开奖直播现场 点击:
上周二,因为一条错误指令导致的AWS 宕机事件,影响了大量流行的网站和服务。此事件对用户来说,是服务的中断;对AWS来说,是巨额的损失;对旁观者来说,是宝贵的经验。 1 编者

  上周二,因为一条错误指令导致的AWS 宕机事件,影响了大量流行的网站和服务。此事件对用户来说,是服务的中断;对AWS来说,是巨额的损失;对旁观者来说,是宝贵的经验。

  1编者按

想象一下:一个工作日的上午,你使用的云服务的可用性瞬间从平均水平跌至0;丢包率则上升到100%。作为一名用户,你会做出怎样的判断?这应该不是著名的DDoS攻击,因为在遭遇DDoS攻击时,丢包率与可用性是随着时间推移而发生变化的。而这种瞬间的停机现象应该是云服务商出现了故障。

上个周二,云计算鼻祖AWS就发生了这样的事故。AWS美国东一服务区基础设施的出入流量瞬间消失。那么,AWS是如何解决这次事故?接下来会有哪些优化举措?技术人应该从中学习到什么经验?

  2事件回顾

2月28日上午(太平洋时间)AWS发生了服务宕机事件。事件的起因是AWS S3(云存储)团队在进行调试时输入了一条错误指令,本应该将少部分的S3计费流程服务器移除,可是最终意外移除了大量服务器。被错误移除的服务其中运行着两套S3的子系统,从而导致S3不能正常工作,S3 API处于不可用状态。

由于S3负责存储文件,为AWS体系中的核心组成部分,这导致北弗吉尼亚日(美国东一)服务区中,依赖于S3存储服务的其他AWS的S3 控制台、Amazon弹性计算云(简称EC2)新实例启动、Amazon弹性块存储(简称EBS)分卷(限于需要读取S3快照的数据)以及AWS Lambda均受到影响。

  3AWS的修复动作

一条错误命令直接导致了AWS两套子系统无法工作:

第一套子系统为索引子系统(Index):负责管理该服务区内全部S3对象的元数据与位置信息。此子系统为一切GET、LIST、PUT与DELETE请求正常运作的必要基础。

第二套子系统为位置子系统(Palcement):负责管理新存储空间的分配并需要配合之前的索引子系统以实现正常运作。这套位置子系统用于在响应PUT请求时为新对象分配存储空间。

两套子系统容量被大量移除,发生故障重启,但是S3依然无法正常响应请求。位置子系统依赖于索引子系统,因此AWS选择了按照顺序修复两个子系统,再解决S3和其他服务的问题。

  

码报:【j2开奖】从AWS宕机事件说开去,热闹看完该学会什么?

  4哪些用户受到了影响?

S3于2006年发布,是 AWS 最早的诸多服务之一,官方曾称其具备99.999999999% 的持久性(durability)和 99.99% 的可用性(availability)。

它的一些典型使用场景如下:

存储用户上传的文件,如头像,照片,视频等静态内容

静态网站的托管

当作一个的key value store,承担简单的数据库服务功能

数据备份

大数据分析

S3拥有很多明星用户:Airbnb(处理超过10PB的用户图像)、Nasdaq(支持 FinQloud 的监管记录保留 (R3) 数据存储解决方案和 Query)、Netflix(分发数十亿小时的内容)。

此次事故波及众多公司,外媒的统计名单中A-Z的26个字母全部占满,其中包括Adobe、Docker、GitHub、Slack、GE、Quora等知名公司。在此期间,部分Apple用户们也受到影响;不过苹果一直在打造自己的数据中心,报道称苹果预计斥资五千余万美元进行数据中心的扩建。

  5对AWS而言,这次事故意味着?

Thousandeyes公司是AWS S3的使用者,产品营销高级主管Nick Kephart在接受采访中认为,根据S3服务水平协议,此次停机(持续达3小时)可能意味着S3已经无法达到协议中指定的99.9%正常运行阈值。因此,美国东一服务区内最具人气的S3服务以及其它受影响AWS服务可能给Amazon带来高达10%的月度营收影响。根据粗略估算,这一服务水平协议违约可能造成数百万乃至数千万美元的损失。

AWS在Amazon公司的财务构成当中扮演着越来越重要的角色;2016年第四季度,AWS为其母公司贡献了高达35.3亿美元营收,利润则为9.26亿美元。

其实除了经济损失之外,这也不失为AWS的技术学习机会。

  6AWS的技术反思

  为什么这么久?

  存储量庞大

AWS在其官方声明中成虽然S3子系统的有故障承受能力,但是此次事故中涉及的两个子系统再数年来在大规模服务区未曾重启。S3的服务规模快速提升,而对这些服务进行重启并运行必要安全检查以验证元数据完整性,这些流程最终所需时间远超AWS预期。对于此说法,曾经在Amazon工作过的陈皓表示认同,他称AWS没有公布的存储数量级相当惊人;要先恢复索引子系统再恢复位置子系统,就像个人的操作系统从异常关机后启动,文件系统要做系统自检那样,硬盘越大,文件越多,这个过程就越慢。

  服务没有被拆分成更小

同时AWS表示,服务需要被进一步分解成更小的单元:S3团队已经计划于今年晚些时候对该索引子系统进一步拆分,很可能立刻着手进行。

  为什么Dashboard失效?

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容