Une configuration SGSTEAM à toute épreuve.

Par franck_29 - Le 19/02/14 - Affichages : 2886
Souvenez-vous, notre "jeudi noir", le 23 janvier 2014, les sites de la Galaxy's Team accusaient la plus longue indisponibilité de leur histoire (presque 4 ans), soit près de 24 heures d'arrêt. Et dans cet article, où nous vous rendions compte de ce qui s'était passé, nous vous avions laissé entendre que nous allions "durcir" notre configuration.

Image

Aujourd'hui, près d'un mois après, il est temps de vous faire connaître les mesures qui ont été mises en place pour que ce "traumatisme" ne se reproduise plus.

Premièrement nous avons acquis un second serveur, mais ceux qui connaissent se doutent bien que l'achat le plus facile, restait ensuite à insérer cette seconde machine dans une architecture, réfléchie, robuste et taillée pour réellement augmenter notre disponibilité.

Pour vous faire partager la conception de cette architecture, il faut revenir sur :
- Les services que vous offre SGSTEAM et de leur degré d'importance (de criticité, ex : est-ce grave de perdre pendant une heure la capacité de générer un topic pour un firmware qui vient de sortir ?)
- Les problèmes qui ont sont survenus lorsqu’il s'est agit de réouvrir les services après reconstitution.

Les services principaux offerts à la communauté, ainsi que leur criticité (selon nous) sont les suivants :
  1. [CRITIQUE] Le forum et l'accessibilité de l'entraide
  2. [CRITIQUE] L'hébergement des Firmwares (pour mémoire, les fichiers torrent générés permettent le download de firmware hébergés par SGSTEAM
  3. [NON CRITIQUE] Le blog et l’hébergement de certaines services de la communauté (exemple : les Mods GSTEAM)
  4. [NON CRITIQUE] La génération de topic "automatique" en cas de disponibilité d'un nouveau Firmware
  5. [NON CRITIQUE] La génération de fichiers torrent

Les principaux problèmes rencontrés ont été les suivants :
  1. Temps nécessaire pour reconstituer un serveur avec tous les services de base nécessaire (Serveur HTTP, MySQL, phpBB, etc...)
  2. Temps nécessaire à reconstituer un jeu de données valide à partir des sauvegardes (bases de données du forum, du blog, données filesystem, etc...)
  3. Temps de propagation DNS de près de 24 heures

Et la bonne architecture est celle qui permet, en cas de défaillance, de rendre les service critiques de nouveau disponibles le plus rapidement possible en connaissant les écueils à attendre.
Et c'est ce qui a été fait. Concrètement voici quelques uns des éléments clés de cette nouvelle architecture SGSTEAM et quelques mots de commentaires en face de ces éléments clés.
  • Deux machines équipées du même sous système de base (cf. a)
    on traite le temps nécessaire à la reconstruction d'une machine)
  • Bases de données du forum répliquées en temps réel d'un serveur "maître" vers un serveur "secondaire"
    on traite le service critique 1) en s'affranchissant de b)
  • Fichiers Firmware répliqués à fréquence convenable d'un serveur vers l'autre
    ainsi, service critique 2) les firmwares restent disponible en cas d'arrêt d'un serveur en s'affranchissant de b)
  • Mise en place du service IP Failover, qui permettra en cas de panne du serveur maître de basculer sur l'autre serveur sans attendre une mise à jour des DNS (contrainte c))

Dans le même temps, et cette fois pour offrir une meilleure qualité de service, nous avons réparti les services sur les deux serveurs de façon à maintenir les services critiques les plus fluide possible, ainsi, en régime nominal (quand il n'y a pas de panne) :
- le serveur principal gère les sites web (blog, forum) et les bases mysql
- le serveur secondaire traite les firmwares et fournit les torrents[/quote]
De cette façon, le traitement d'un nouveau firmware (c'est assez lourd), ou de nombreux téléchargements ne viendront plus pénaliser l'interactivité du forum.

Voilà en quelques mots ce qui a été construit ces dernières semaines, un seul objectif, permettre que les services critiques soient recouvrés le plus rapidement possible (5 minutes MAX) dans la plupart des cas de panne. J'ai bien sûr passé sous silence bien d'autres actions qui ont été mises en place ou tout simplement prolongées (par exemple nos sauvegardes quotidiennes hors site) dans le seul but d'augmenter la qualité du service offert par SGSTEAM.

Juste un dernier mot pour dire que ces quelques lignes qui paraissent simples, voir de l'évidence, cachent une expertise de haut niveau de notre administrateur @Gabs qui a tout mis en place et surtout tout documenté, tout cela à notre profit, à votre profit. Il mérite un grand coup de chapeau. Soyons conscient de la chance que nous avons, notre architecture technique dépasse aujourd'hui celle de bon nombre d'entreprises. Ce n'est pas rien.

Alors au nom de tous, un grand merci à toi Pascal (@Gabs), je sais qu'il n'aime pas ça, mais tant pis ;)

Crédit illustration : http://www.sagam.be/fr/produits/desktop ... redondance
4 réponse(s) -