wzatv:云服务商 OVH 因 EMC VNX 5400 存储子系统崩溃，5万_本港台直播_J2开奖直播

云服务商 OVH 因 EMC VNX 5400 存储子系统崩溃，5万多个网站受到影响！

2017-07-04 16:39来源:云头条

原标题：云服务商 OVH 因 EMC VNX 5400 存储子系统崩溃，5万多个网站受到影响！

OVH Group近日披露，它在法国巴黎的其中一个存储托架EMC VNX 5400无法启动，结果影响了其众多客户，大约50000多个网站。

这家法国公司是规模最大的欧洲托管服务提供商之一，直播，共有20个数据中心、100多万个客户和300万个托管网站，遍布四大洲138个国家。2016/2017年收入将近4亿欧元。这家公司刚融资4亿欧元，以支持业务发展。

这家公司在官网上声称自己“确保旗下所有品牌为客户提供稳定而可靠的产品和服务。”

但是它在6月29日傍晚4：30却遇到了一个严重的技术问题，开奖，当时它在巴黎P19数据中心的其中一个VNX5400系统遇到了故障事件：含有数据库的这个系统无法启动。该系统由几个物理托架上的96只固态硬盘（SSD）组成，这些SSD配置了双活技术。但是这些数据库只是每天备份到位于鲁贝的另一个法国站点（RBX1）的另一个数据中心。

这家托管服务公司声称，EMC技术不是事件的根源。OVH的技术主管奥克塔夫·克拉巴（Octave Klaba）说：“我们的数据中心无法适应这种类型的事件。只有一些机房是专门针对这种类型的托管服务准备的，但这个托架并非如此，这可以解释问题的根源。”

Our data centers are not adapted for this type of incident. Only some rooms are especially prepared pour this type of hosting but not this bay, which explains the origin of the problem."

OVH正与供应商一起力求找到解决办法。另一个VNX 5400已从鲁贝紧急调往巴黎，但是这家托管服务提供商不知道重启托架、恢复数据要花多长时间。早上，数据库15%的数据已恢复，但处于只读模式。6月30日子夜，所有数据库已恢复正常，OVH目前确保数据可访问之前搞清楚存储托架的状态。

这家托管服务公司在2016年也遭到了迄今为止最严重的DDoS攻击，当时峰值攻击流量超过1Tb/s。

Details

Bonjour,

Pour héberger les 3 millions de sites web en hébergement mutualisé

nous utilisons 2 datacentres: le DC historique à Paris (P19) et

le nouveau DC à Gravelines (GRA1). Sur P19, nous utilisons

différentes technologies pour stocker les données pour les sites

web et les bases de données. Dans la majorité de cas nous

utilisons notre technologie NAS ou NAS-HA basée sur le ZFS.

Aussi sur P19, dans certains cas nous utilisons les baies

de stockage propriétaires d'EMC VNX 5400 avec les disques

SSD. Il s'agit d'une solution que nous avons mis en place

en 2012 pour palier aux problèmes de performances de stockage

que nous avons eu en 2012 sur les bases de données. Depuis

nous avons fixé la performance sur nos NAS-HA et sur GRA

nous n'utilisons plus que nos solutions interne.

Le jeudi 29 juin à 18h30, nous avons eu un incident sur

l'une de baies de stockage EMC VNX 5400 que nous utilisons

pour stocker une partie de bases de données de hébergement

mutualisé à P19. Il s'agit d'un ensemble composé de 96

disques SSD configurés en active/active sur plusieurs

baies physiques. L'ensemble ne veut plus redémarrer. Nous

avons contacté le constructeur et nous essayons de trouver

une solution pour récupérer les données hébergés sur cette

baie.

La technologie d'EMC n'est pas à l'origine de l'incident.

Nos datacentres ne sont pas adaptés pour héberger ce type

d'infrastructure. Seules certaines salles sont spécialement

préparées pour ce genre d'hébergement, mais cette baie de

stockage n'y a pas été hébergé ce qui est l'origine du

problème. Nous remercions EMC de nous aider à résoudre cet

incident.

Cette baie de stockage est utilisée pour héberger les bases

de données d'hébergement mutualisé. Aussi toutes les bases de

données sont backupés tous les 24 heures sur d'autres systèmes

de stockage qui sont dans un autre DC à Roubaix: RBX1.

Nous avons 2 actions en cours:

1) nous sommes en contact avec EMC avec qui nous avons

essayé de redémarrer le système. une équipe de RBX a pris

une baie de stockage EMC VNX 5400 que nous avons eu en

spare à Roubaix pour la transporter à P19. La baie est

arrivée à P19 vers 3H du matin et nous essayons de

redémarrer les disques dans cette nouvelle baie de stockage.

Nous avons demandé l'intervention d'EMC sur le site pour

nous aider à la redémarrer au plus vite. Nous ne savons

pas encore combien de temps va prendre le redémarrage de

la baie et si nous arriverons à récupérer les données.

Nous n'avons pas d'ETA. Le technicien d'EMC devrait être

sur le site vers 10H00. Nous aurons plus d'information à

ce moment là.

2) c'est pourquoi nous avons lancé la restauration de bases de

données à partir de backup. Cette restauration a commencé

vers minuit du matin. Ce matin à 9h, environ 15% de bases de

données ont été remises en route en mode "lecture seule"

c'est à dire que les sites web peuvent lire les données

dans les bases de données mais ne peuvent pas encore les

modifier. Nous continuons la restauration qui va prendre

jusqu'à environ ce soir 20h. L'ensemble de process est

désormais automatisé et nous avons assez de stockage pour

deployer toutes ces bases de données sur P19.

Next step. Il y a 2 choix. Le plan A et le plan B.

A) si nous arrivons à récupérer les données de la baie

nous allons immédiatement redémarrer toutes les bases

de données. aucune perte de données.

b) si nous n'arrivons pas à redémarre la baie. Dans

ce cas là nous allons activer le mode "lecture et

écriture" sur les bases de données qui ont été

restaurées à partir du backup qui aura un retard de

minimum 1H et maximum 22H sur la version de bases

de données à l'heure de la panne.

Pour suivre les tasks de travaux sur la restauration

de bases de données:

?do=details&id=25697

113 VM avec les bases de données ont été impactées.

Nous sommes sincèrement désolés pour cette panne. La

dernière panne de cette ampleur date de 2006 et à

l’époque nous avons remis en question toutes les

technologies de stockage que nous utilisons chez Ovh.

Cette panne est une leçon de plus et nous allons vous

communiquer les changements qui vont s’opérer dés la

fin de cet incident pour éviter de revivre la prochaine

panne de cette ampleur dans 10 ans encore.

Amicalement

(责任编辑：本港台直播)