3月1日:RCA – Storage Latency Issue on China East 事件总结:北京时间2017年3月1日03:00到21:45,部分客户在访问其位于中国东部的存储资源时可能遇到了延迟变高或者访问超时的问题。 问题原因:Azure内部的一系列数据操作意外触发了大量存储访问请求,这些请求在存储服务的前端快速积累并形成严重的资源争用,导致来自客户的数据访问请求难以被及时处理从而出现了明显的延迟增高。 Azure运维团队对引起资源争用的请求采取了隔离措施并成功恢复了服务。 根本原因及解决办法:Azure存储服务是一个多租户环境,通过流量隔离来优化资源分配。 在此次事件中,受影响的存储缩放单元对一类特定的访问流量的隔离优化不够完善,导致在前端服务器上出现了过度资源争用,最终耗尽了工作线程并导致访问延迟增高。 下一步举措:我们对由此给您带来的影响表示诚挚的歉意。我们正在采取措施来优化Microsoft Azure平台和运维流程,以帮助避免此类问题再次发生。 对于本次事件(包括但不限于):Azure工程团队对导致问题的流量模式进行了深入检视并改进了流量隔离机制;优化存储缓存设计来降低资源争用的发生。 3月2日:App Service Web Apps - China North 事件总结:自北京时间2017年3月2日08:55(大概时间)至 20:14,直播,中国北部App Service Web Apps的部分客户在尝试执行管理操作(如创建,更新,删除,发布)时可能会收到错误通知。 初步调查结果:工程师确定最近的一次部署可能是导致此次问题的根本原因。 解决办法:工程师撤销了最近的部署任务,问题得到解决。 下一步:工程师将审查部署程序,以防止问题再次发生。 3月17日:Stream Analytics - China East 事件总结:从北京时间2017年3月17日4:43到9:45,在中国东部使用Stream Analytics的部分客户在启动streaming jobs时可能会收到错误通知,但是服务管理操作,例如Streaming Jobs的创建,更新和删除操作都可以正常执行。此区域已经存在的streaming jobs也可能受到影响。 初步调查结果:该问题是由近期的一个部署任务导致的。 解决办法:工程师快速修复了故障并且重新启动了所有受此次影响而停止运行的streaming jobs。 下一步举措:工程师将审查部署程序,以防止问题再次发生。 3月21日:Root Cause Analysis - Virtual Machines - China East 事件总结:北京时间2017年3月21日8:00到14:50,部分客户在中国东部尝试创建新虚拟机或者启动处于"已停止 (已取消分配) "状态的虚拟机时可能会收到错误信息。 原因是中国东部的两个扩展单元达到了一个操作阈值从而导致资源分配受到了临时性限制。工程师通过优化操作阈值设置来改进资源分配和利用效率从而解决了此问题。 客户影响:客户可能在执行以下操作时收到错误信息: 创建新的或者启动"已停止 (已取消分配) "状态的非空可用性集里的资源管理型虚拟机。 创建新的或者启动"已停止 (已取消分配) "状态的非空云服务或地缘组里的经典模式虚拟机。 根本原因及解决办法:此次故障的根本原因是中国东部的两个扩展单元达到了一个操作安全阈值,系统自动冻结了部分管理操作以保证扩展单元上的其他运算任务安全运行。 下一步举措:我们诚挚的向所有被本次故障影响到的客户表示歉意。我们正在不断采取措施来优化Microsoft Azure平台及运维流程,力争避免将来该问题再次发生。 对于本次事件(包括但不限于):预留足够的缓冲资源以确保系统在操作阈值安全范围之内平稳运行。 4月6日:Power BI Embedded - China East 事件总结:从北京时间2017年4月6日04:07至2017年4月6日19:16,部分用户在使用中国东部的Power BI 的资源时可能会收到连接错误的通知。 初步调查结果:工程师发现一个错误的配置导致了请求无法完成。 解决办法:工程师修复了错误配置,解决了此问题。 下一步举措:工程师将持续调查该问题的根本原因,以防止该问题再次出现。 4月7日:RCA - Storage, Virtual Machines, SQL Database, Azure Active Directory - China East and China North 事件总结:北京时间2017年4月5日20:00到2017年4月10日15:18,部分客户在连接或者管理中国东部和中国北部的存储服务、虚拟机、HDInsight服务、Azure活动目录并需要部署虚拟机或虚拟磁盘时可能遇到问题。到存储资源的现存连接没有受到影响。在北京时间2017年4月6日16:00到2017年4月7日18:54,非常有限的一小部分客户在使用中国北部和中国东部的SQL数据库时可能遇到了无法访问数据库服务的问题。新建连接到现存数据库时可能会遇到错误信息或者连接超时,现存的连接可能被意外中止。 (责任编辑:本港台直播) |