Ouvert le | Samedi 27 janvier 2018, 03:07 |
Dernière édition | |
Type | Maintenance |
Etat | Terminé |
Avancement | 100% |
Un remplacement en urgence du transformateur doit être réalisé ce mardi 30 Janvier et mercredi 31 janvier 2018.
Le test de passage sur groupe a été réalisé ce soir, l'inverseur a pu être configuré correctement. Aucun impact n'a été observé pendant la bascule.
Le remplacement du transformateur est officiellement terminé.
Nous sommes repassé sur le secteur vers 3h00 cette nuit.
Le transfert de la charge a été réalisé sans incident particulier. Quelques VPS ont étés freezé quelques minutes pour délester un onduleur.
Une anomalie est cependant apparue sur l'inverseur de source, une nouvelle intervention est planifiée mardi 3 Avril à partir de 00h. Aucun impact à prévoir sur cette intervention.
Le transformateur a été mis en tension avec succès ce jour.
La bascule sur secteur est prévue à partir de 00h30.
Un impact pourra être observé sur les services VPS lors de la bascule. Une coupure de quelques minutes peut être constatée.
La mise en service du nouveau transformateur a pris du retard. La bascule sur secteur aura lieu finalement dans la nuit de vendredi à samedi (vers 00h30).
Les groupes électrogènes sont stable et fonctionnent correctement. Nous continuons à surveiller la situation.
Les 3 salles d'hébergement sont désormais sur groupe électrogène.
Pas eu d'autre impact sur le passage de la salle 1.
Le prochain update de cette tache aura lieu demain soir (jeudi 29/03) sauf incident entre temps.
Suite à une surchauffe d'un câble, nous avons modifié le câblage ayant entrainé une seconde coupure partielle des services VPS.
Certaines machines type M610 ont également été touchés, elles sont toutes redémarrés.
Nous allons poursuivre sur la salle 1.
Moins de 5 % des infras ont étés impactés.
Nous avons commencé la bascule sur groupe électrogène.
Nous avons basculé la salle N°3. Un onduleur n'a pas tenu le temps de la bascule, ce qui impacte l'infrastructure VPS (environs 20 %).
Celle ci est déjà en cours de redémarrage, votre VPS s'il est impacté devrait revenir dans quelques minutes.
Nous continuons avec la salle 1 et 2 d'ici quelques minutes.
Bonjour,
Le remplacement du transformateur a été reprogrammé dans la période du 26 au 27 Mars 2018.
Lors de cette maintenance, notre datacenter sera basculé sur un ensemble de 2 groupes électrogène synchronisé de 150kVA pour tenir notre charge pendant une durée d'environ 24h.
La bascule sera réalisée manuellement par nos propres services, et nous serons ainsi isolés complètement du réseau électrique.
Notre équipe va être renforcée lors de ce remplacement afin de surveiller le bon fonctionnement des groupes. Une astreinte mécanique a été prévue pour palier à tout incident sur un groupe pendant leur utilisation.
Soyez assuré de notre totale implication dans la bonne réussite de cette intervention.
L'équipe Firstheberg.com
Nous vous informons que le datacenter est en cours de mise en route.
Si votre serveur ne répond pas, nous vous invitons à patienter environs 30 mn pour ouvrir un ticket support.
Par prevention, nous avons eteint le datacenter @Firstheberg de maniere sécurisée pour une durée de 2h. On préfère éviter la casse avec un autre down maitrisé.
Plus d'infos sous peu
Le retour à la normal est planifié vers 02H00
Une intervention est programmée ce soir dans le but de réparer l'armoire du TGBT qui a explosée.
L'intervention ne devrait pas provoquer de coupure en salle et devrait durer environs 2H.
En cas d'incident, notre support est mobilisé sur place pour palier à toute coupure électrique.
L'enquête concernant l'incident est en cours. Pour l'heure, il y a plusieurs pistes allant de l'erreur humaine, à un défaut matériel sur le disjoncteur qui a explosé.
Le remplacement du transformateur doit toujours avoir lieu. Nous envisageons une autre approche pour alimenter notre datacenter de manière autonome le temps de l'intervention.
Notre confiance envers le sous-traitant est désormais fortement entachée.
Nous mettrons à jour ce fil au fur et à mesure de l'avancement de ce chantier.
Merci au nom de toute l'équipe pour vos encouragements et vos soutiens nombreux pendant cette période très compliquée. Nous avons eu beaucoup de casse matérielle liée à la surtension, et cela va avoir des conséquences importantes pour notre santé financière le temps que les assurances fassent leur job.
Nos services sont presque revenu en situation nominale après l'incident électrique du 30/01. Encore qq dizaine de VPS qui ont besoin de soin (Grub HS), et un flux + important sur les tickets (donc délais plus élevés). Bravo à l'équipe @FirstHeberg pour le travail accompli !
Bilan de la journée chez @FirstHeberg
Ce matin : 48 serveurs HS et 375 VPS.
Ce soir à 17h : 24 serveurs HS et 210 VPS.
On continue à restaurer. La suite sera longue, nous attendons des pièces qui arriveront demain (on a consommé tout notre stock :( ). Merci pour votre patience.
Bonjour à tous, vous l'avez probablement vu cette nuit, nous avons connu l'un de nos plus grave désastre interne depuis la création de Firstheberg. Il s'agit à l'origine d'une maintenance visant à remplacer le transformateur du bâtiment qui montre de grave signes de fatigue.
Lors de l'isolation de l'armoire TGBT Non secourue, une manipulation de dévissage du Neutre était en cours quand le master pack a explosé.
Le prestataire sur place réalisant les opération n'a semble t-il pas anticipé l'état de l'installation et a donc réalisé cette opération sans inquiétude particulière. Résultat : Boule de feu et éclat de métal, coupure générale de tous les circuits et 1 technicien blessée.
Suite à cela, nous avons entrepris de trouver une solution pour rétablir les alimentations d'urgence (salle Completel, et DC Firstheberg). A 6h, une équipe de renfort du ss traitant est arrivé pour réfléchir à sang frais. Solution trouvée : on bypass l'armoire explosée.
Cette solution a fonctionnée puisque le circuit qui n'a pas explosé est remonté en tension vers 7h00. Les infras redémarrent. A cette heure (8h30), 90 % des systèmes sont OK et répondent au ping. Bravo à l'équipe d'astreinte de @FirstHeberg !
Bonjour ,
Cette nuit , un incident majeur est survenu dans le datacenter @FirstHeberg (Un masterPack du TGBT a explosé au cours de cette maintenance programmé ), de ce fait , nous sommes resté dans le noir pendant quelques heures.
Depuis 7H30 , nous rétablissons tous les services le plus vite possible .
Notre équipe reste à votre disposition pour tout renseignement complémentaire via ticket support.
Suite à des tests réalisés sur l'huile de refroidissement du transformateur alimentant notre datacenter, un remplacement en urgence va être réalisé ce lundi soir. Nous passerons sur groupe électrogène pendant cette procédure.
Le passage sur groupe devant durer environs 24h, nous avons prévu un second groupe électrogène en parallèle du premier en cas de défaillance du premier groupe. Cependant, nous n'écartons pas un désastre interne et avons mobilisé l'ensemble de notre équipe.
En cas de coupure totale liée à une défaillance en cascade, nous seront capable de rallumer l'ensemble du datacenter en quelques minutes. Une note d'information sera transmise à l'ensemble de nos clients ce samedi.
Notre équipe reste à votre disposition pour tout renseignement complémentaire via ticket support.