云服务商 OVH 因 EMC VNX 5400 存储子系统崩溃,5万多个网站受到影响! 2017-07-04 16:39来源:云头条 原标题:云服务商 OVH 因 EMC VNX 5400 存储子系统崩溃,5万多个网站受到影响! OVH Group近日披露,它在法国巴黎的其中一个存储托架EMC VNX 5400无法启动,结果影响了其众多客户,大约50000多个网站。 这家法国公司是规模最大的欧洲托管服务提供商之一,直播,共有20个数据中心、100多万个客户和300万个托管网站,遍布四大洲138个国家。2016/2017年收入将近4亿欧元。这家公司刚融资4亿欧元,以支持业务发展。 这家公司在官网上声称自己“确保旗下所有品牌为客户提供稳定而可靠的产品和服务。” 但是它在6月29日傍晚4:30却遇到了一个严重的技术问题,开奖,当时它在巴黎P19数据中心的其中一个VNX5400系统遇到了故障事件:含有数据库的这个系统无法启动。该系统由几个物理托架上的96只固态硬盘(SSD)组成,这些SSD配置了双活技术。但是这些数据库只是每天备份到位于鲁贝的另一个法国站点(RBX1)的另一个数据中心。 这家托管服务公司声称,EMC技术不是事件的根源。OVH的技术主管奥克塔夫·克拉巴(Octave Klaba)说:“我们的数据中心无法适应这种类型的事件。只有一些机房是专门针对这种类型的托管服务准备的,但这个托架并非如此,这可以解释问题的根源。” Our data centers are not adapted for this type of incident. Only some rooms are especially prepared pour this type of hosting but not this bay, which explains the origin of the problem." OVH正与供应商一起力求找到解决办法。另一个VNX 5400已从鲁贝紧急调往巴黎,但是这家托管服务提供商不知道重启托架、恢复数据要花多长时间。早上,数据库15%的数据已恢复,但处于只读模式。6月30日子夜,所有数据库已恢复正常,OVH目前确保数据可访问之前搞清楚存储托架的状态。 这家托管服务公司在2016年也遭到了迄今为止最严重的DDoS攻击,当时峰值攻击流量超过1Tb/s。 Details Bonjour, Pour héberger les 3 millions de sites web en hébergement mutualisé nous utilisons 2 datacentres: le DC historique à Paris (P19) et le nouveau DC à Gravelines (GRA1). Sur P19, nous utilisons différentes technologies pour stocker les données pour les sites web et les bases de données. Dans la majorité de cas nous utilisons notre technologie NAS ou NAS-HA basée sur le ZFS. Aussi sur P19, dans certains cas nous utilisons les baies de stockage propriétaires d'EMC VNX 5400 avec les disques SSD. Il s'agit d'une solution que nous avons mis en place en 2012 pour palier aux problèmes de performances de stockage que nous avons eu en 2012 sur les bases de données. Depuis nous avons fixé la performance sur nos NAS-HA et sur GRA nous n'utilisons plus que nos solutions interne. Le jeudi 29 juin à 18h30, nous avons eu un incident sur l'une de baies de stockage EMC VNX 5400 que nous utilisons pour stocker une partie de bases de données de hébergement mutualisé à P19. Il s'agit d'un ensemble composé de 96 disques SSD configurés en active/active sur plusieurs baies physiques. L'ensemble ne veut plus redémarrer. Nous avons contacté le constructeur et nous essayons de trouver une solution pour récupérer les données hébergés sur cette baie. La technologie d'EMC n'est pas à l'origine de l'incident. Nos datacentres ne sont pas adaptés pour héberger ce type d'infrastructure. Seules certaines salles sont spécialement préparées pour ce genre d'hébergement, mais cette baie de stockage n'y a pas été hébergé ce qui est l'origine du problème. Nous remercions EMC de nous aider à résoudre cet incident. Cette baie de stockage est utilisée pour héberger les bases de données d'hébergement mutualisé. Aussi toutes les bases de données sont backupés tous les 24 heures sur d'autres systèmes de stockage qui sont dans un autre DC à Roubaix: RBX1. Nous avons 2 actions en cours: 1) nous sommes en contact avec EMC avec qui nous avons essayé de redémarrer le système. une équipe de RBX a pris une baie de stockage EMC VNX 5400 que nous avons eu en spare à Roubaix pour la transporter à P19. La baie est arrivée à P19 vers 3H du matin et nous essayons de redémarrer les disques dans cette nouvelle baie de stockage. Nous avons demandé l'intervention d'EMC sur le site pour nous aider à la redémarrer au plus vite. Nous ne savons pas encore combien de temps va prendre le redémarrage de la baie et si nous arriverons à récupérer les données. Nous n'avons pas d'ETA. Le technicien d'EMC devrait être sur le site vers 10H00. Nous aurons plus d'information à ce moment là. 2) c'est pourquoi nous avons lancé la restauration de bases de données à partir de backup. Cette restauration a commencé vers minuit du matin. Ce matin à 9h, environ 15% de bases de données ont été remises en route en mode "lecture seule" c'est à dire que les sites web peuvent lire les données dans les bases de données mais ne peuvent pas encore les modifier. Nous continuons la restauration qui va prendre jusqu'à environ ce soir 20h. L'ensemble de process est désormais automatisé et nous avons assez de stockage pour deployer toutes ces bases de données sur P19. Next step. Il y a 2 choix. Le plan A et le plan B. A) si nous arrivons à récupérer les données de la baie nous allons immédiatement redémarrer toutes les bases de données. aucune perte de données. b) si nous n'arrivons pas à redémarre la baie. Dans ce cas là nous allons activer le mode "lecture et écriture" sur les bases de données qui ont été restaurées à partir du backup qui aura un retard de minimum 1H et maximum 22H sur la version de bases de données à l'heure de la panne. Pour suivre les tasks de travaux sur la restauration de bases de données: ?do=details&id=25697 113 VM avec les bases de données ont été impactées. Nous sommes sincèrement désolés pour cette panne. La dernière panne de cette ampleur date de 2006 et à l’époque nous avons remis en question toutes les technologies de stockage que nous utilisons chez Ovh. Cette panne est une leçon de plus et nous allons vous communiquer les changements qui vont s’opérer dés la fin de cet incident pour éviter de revivre la prochaine panne de cette ampleur dans 10 ans encore. Amicalement (责任编辑:本港台直播) |