eviden-logo

Evidian > Produits > SafeKit : logiciel tout-en-un de haute disponibilité « SANless » et de clustering d'applications > Cas d'isolement du réseau et cas de coupure de courant dans un cluster

Cas d'isolement du réseau et cas de coupure de courant dans un cluster

Evidian SafeKit

Quels sont les différents scénarios en cas d'isolement réseau dans un cluster ?

Un seul réseau

Lorsqu'il y a un isolement réseau, le comportement par défaut est :

  • comme les heartbeats sont perdus pour chaque nœud, chaque nœud passe en ALONE et exécute l'application avec son adresse IP virtuelle (double exécution de l'application modifiant ses données locales),
  • lorsque l'isolement est réparé, un nœud ALONE est obligé de s'arrêter et de resynchroniser ses données depuis l'autre nœud,
  • à la fin, le cluster est PRIM-SECOND (ou SECOND-PRIM selon la détection d'adresse IP virtuelle en double faite par Windows).

Deux réseaux avec un réseau de réplication dédié

Lorsqu'il y a un isolement réseau, le comportement avec un réseau de réplication dédié est :

  • un réseau de réplication dédié est implémenté sur un réseau privé,
  • les heartbeats sur le réseau de production sont perdus (réseau isolé),
  • les heartbeats sur le réseau de réplication fonctionnent (réseau non isolé),
  • le cluster reste à l'état PRIM/SECOND.

Un seul réseau et un checker split-brain

Lorsqu'il y a un isolement du réseau, le comportement avec un split-brain checker est :

  • un split-brain checker a été configuré avec l'adresse IP d'un témoin (typiquement un routeur),
  • le split-brain agit lorsqu'un serveur passe de PRIM à ALONE ou de SECOND à ALONE,
  • en cas d'isolement du réseau, avant de passer en ALONE, les deux nœuds testent l'adresse IP,
  • le nœud qui peut accéder à l'adresse IP passe à ALONE, l'autre passe à WAIT,
  • lorsque l'isolement est réparé, le nœud WAIT resynchronise ses données et devient SECOND.

Remarque : Si le témoin est en panne ou déconnecté, les deux nœuds passent à WAIT et l'application n'est plus en cours d'exécution. C'est pourquoi vous devez choisir un témoin robuste comme un routeur.

Quels sont les différents scénarios en cas de coupure de courant dans un cluster ?

Coupure de courant du nœud primaire

Lorsqu'une panne de courant arrête uniquement le nœud primaire :

  • il y a un basculement automatique sur le nœud secondaire, qui devient ALONE et redémarre l'application,
  • lorsque le nœud 1 est redémarré, il devient SEDOND après resynchronisation des données répliquées,
  • les rôles de primaire et de secondaire peuvent être échangés par un administrateur si nécessaire.

Coupure de courant du nœud secondaire

Lorsqu'une panne de courant arrête uniquement le nœud secondaire :

  • il n'y a pas de basculement, le primaire devient ALONE et l'application continue son exécution sur le nœud 1,
  • lorsque le nœud 2 est redémarré, il devient SEDOND après resynchronisation des données répliquées.

Coupure de courant générale - cas 1

Lorsqu'une panne de courant arrête les deux nœuds, le comportement par défaut est :

  • les deux nœuds passent à STOP,
  • lorsque le nœud 1 est redémarré, il ne passe pas à l'état ALONE et ne redémarre pas l'application car il ne sait pas s'il dispose des données à jour. Il passe donc à l'état WAIT en attendant le redémarrage de l'autre nœud,
  • lorsque le nœud 2 est redémarré, les deux nœuds reviennent à leurs états PRIM/SECOND précédents.

Coupure de courant générale - cas 2

Lorsqu'il y a un isolement du réseau, le comportement avec un split-brain checker est :

  • un split-brain checker a été configuré avec l'adresse IP d'un routeur (un témoin),
  • en cas d'isolement du réseau, avant de passer en ALONE, les deux nœuds testent l'adresse IP,
  • le nœud qui peut accéder à l'adresse IP passe à ALONE, l'autre passe à WAIT,
  • lorsque l'isolation est réparée, le nœud WAIT resynchronise ses données et devient SECOND.

Remarque : Si le témoin est en panne ou déconnecté, les deux nœuds passent à WAIT et l'application n'est plus en cours d'exécution. C'est pourquoi vous devez choisir un témoin robuste comme un routeur.

🔍 Hub de navigation SafeKit Haute Disponibilité

Explorez SafeKit : fonctionnalités, vidéos techniques, documentation et essai gratuit
Type de ressource Description Lien direct
Fonctionnalités clés Pourquoi choisir SafeKit pour une haute disponibilité simple et économique ? Voir pourquoi choisir SafeKit pour la Haute Disponibilité
Modèle de déploiement HA SANless tout-en-un : Cluster logiciel sans partage (Shared-Nothing) Voir SafeKit HA SANless tout-en-un
Partenaires SafeKit : La référence en haute disponibilité pour les partenaires Voir pourquoi SafeKit est la référence HA pour les partenaires
Stratégies HA SafeKit : Infrastructure (VM) vs Haute Disponibilité au niveau applicatif Voir SafeKit HA & Redondance : Niveau VM vs Niveau Applicatif
Spécifications techniques Limitations techniques pour le clustering SafeKit Voir les limitations de la Haute Disponibilité SafeKit
Preuve de concept SafeKit : Démos de configuration HA et de basculement Voir les tutoriels de basculement SafeKit
Architecture Fonctionnement du cluster miroir SafeKit (Réplication et basculement en temps réel) Voir Cluster miroir SafeKit : réplication et basculement en temps réel
Architecture Fonctionnement du cluster de ferme SafeKit (Répartition de charge réseau et basculement) Voir Cluster de ferme SafeKit : répartition de charge et basculement
Avantages concurrentiels Comparaison : SafeKit vs Clusters de Haute Disponibilité (HA) traditionnels Voir la comparaison SafeKit vs Clusters HA traditionnels
Ressources techniques SafeKit Haute Disponibilité : Documentation, téléchargements et essai Voir l'essai gratuit SafeKit HA & la documentation technique
Solutions préconfigurées Bibliothèque de modules applicatifs SafeKit : solutions HA prêtes à l'emploi Voir les modules applicatifs de Haute Disponibilité SafeKit
FAQ Questions fréquemment posées sur l'architecture, la technique et les fonctionnalités Voir la FAQ SafeKit HA