eviden-logo

Evidian > Produits > Logiciel de haute disponibilité - Zéro surcoût matériel > Cas d'isolement du réseau et cas de coupure de courant dans un cluster

Cas d'isolement du réseau et cas de coupure de courant dans un cluster

Evidian SafeKit

Quels sont les différents scénarios en cas d'isolement réseau dans un cluster ?

Un seul réseau

Lorsqu'il y a un isolement réseau, le comportement par défaut est :

  • comme les heartbeats sont perdus pour chaque nœud, chaque nœud passe en ALONE et exécute l'application avec son adresse IP virtuelle (double exécution de l'application modifiant ses données locales),
  • lorsque l'isolement est réparé, un nœud ALONE est obligé de s'arrêter et de resynchroniser ses données depuis l'autre nœud,
  • à la fin, le cluster est PRIM-SECOND (ou SECOND-PRIM selon la détection d'adresse IP virtuelle en double faite par Windows).

Deux réseaux avec un réseau de réplication dédié

Lorsqu'il y a un isolement réseau, le comportement avec un réseau de réplication dédié est :

  • un réseau de réplication dédié est implémenté sur un réseau privé,
  • les heartbeats sur le réseau de production sont perdus (réseau isolé),
  • les heartbeats sur le réseau de réplication fonctionnent (réseau non isolé),
  • le cluster reste à l'état PRIM/SECOND.

Un seul réseau et un checker split-brain

Lorsqu'il y a un isolement du réseau, le comportement avec un split-brain checker est :

  • un split-brain checker a été configuré avec l'adresse IP d'un témoin (typiquement un routeur),
  • le split-brain agit lorsqu'un serveur passe de PRIM à ALONE ou de SECOND à ALONE,
  • en cas d'isolement du réseau, avant de passer en ALONE, les deux nœuds testent l'adresse IP,
  • le nœud qui peut accéder à l'adresse IP passe à ALONE, l'autre passe à WAIT,
  • lorsque l'isolement est réparé, le nœud WAIT resynchronise ses données et devient SECOND.

Remarque : Si le témoin est en panne ou déconnecté, les deux nœuds passent à WAIT et l'application n'est plus en cours d'exécution. C'est pourquoi vous devez choisir un témoin robuste comme un routeur.

Quels sont les différents scénarios en cas de coupure de courant dans un cluster ?

Coupure de courant du nœud primaire

Lorsqu'une panne de courant arrête uniquement le nœud primaire :

  • il y a un basculement automatique sur le nœud secondaire, qui devient ALONE et redémarre l'application,
  • lorsque le nœud 1 est redémarré, il devient SEDOND après resynchronisation des données répliquées,
  • les rôles de primaire et de secondaire peuvent être échangés par un administrateur si nécessaire.

Coupure de courant du nœud secondaire

Lorsqu'une panne de courant arrête uniquement le nœud secondaire :

  • il n'y a pas de basculement, le primaire devient ALONE et l'application continue son exécution sur le nœud 1,
  • lorsque le nœud 2 est redémarré, il devient SEDOND après resynchronisation des données répliquées.

Coupure de courant générale - cas 1

Lorsqu'une panne de courant arrête les deux nœuds, le comportement par défaut est :

  • les deux nœuds passent à STOP,
  • lorsque le nœud 1 est redémarré, il ne passe pas à l'état ALONE et ne redémarre pas l'application car il ne sait pas s'il dispose des données à jour. Il passe donc à l'état WAIT en attendant le redémarrage de l'autre nœud,
  • lorsque le nœud 2 est redémarré, les deux nœuds reviennent à leurs états PRIM/SECOND précédents.

Coupure de courant générale - cas 2

Lorsqu'il y a un isolement du réseau, le comportement avec un split-brain checker est :

  • un split-brain checker a été configuré avec l'adresse IP d'un routeur (un témoin),
  • en cas d'isolement du réseau, avant de passer en ALONE, les deux nœuds testent l'adresse IP,
  • le nœud qui peut accéder à l'adresse IP passe à ALONE, l'autre passe à WAIT,
  • lorsque l'isolation est réparée, le nœud WAIT resynchronise ses données et devient SECOND.

Remarque : Si le témoin est en panne ou déconnecté, les deux nœuds passent à WAIT et l'application n'est plus en cours d'exécution. C'est pourquoi vous devez choisir un témoin robuste comme un routeur.

Partenaires, le succès avec SafeKit

Cette solution indépendante de la plateforme est idéale pour un partenaire revendant une application critique et qui souhaite proposer une option de redondance et de haute disponibilité simple à déployer auprès de nombreux clients.

Avec de nombreuses références dans de nombreux pays gagnées par des partenaires, SafeKit s'est avéré être la solution la plus simple à mettre en œuvre pour la redondance et la haute disponibilité des logiciels de gestion des bâtiments, vidéosurveillance, contrôle d'accès, systèmes SCADA...

Logiciel de gestion des bâtiments (BMS)

Logiciel de gestion vidéo (VMS)

Contrôle d'accès électroniques (EACS)

Logiciels SCADA (Industrie)

Comment fonctionne le cluster miroir de SafeKit avec Windows ou Linux ?

Etape 1. Réplication en temps réel

Le serveur 1 (PRIM) exécute l'application Windows ou Linux. Les utilisateurs sont connectés à une adresse IP virtuelle. Seules les modifications faites par l'application à l'intérieur des fichiers sont répliquées en continue à travers le réseau.

Réplication de données temps réel reprise sur panne avec Windows ou Linux

La réplication est synchrone sans perte de données en cas de panne contrairement à une réplication asynchrone.

Il vous suffit de configurer les noms des répertoires à répliquer dans SafeKit. Il n'y a pas de pré-requis sur l'organisation du disque. Les répertoires peuvent se trouver sur le disque système.

Etape 2. Basculement automatique

Lorsque le serveur 1 est défaillant, SafeKit bascule l'adresse IP virtuelle sur le serveur 2 et redémarre automatiquement l'application Windows ou Linux. L'application retrouve les fichiers répliqués à jour sur le serveur 2.

L'application poursuit son exécution sur le serveur 2 en modifiant localement ses fichiers qui ne sont plus répliqués vers le serveur 1.

Basculement automatique de Windows ou Linux dans un cluster miroir

Le temps de basculement est égal au temps de détection de la panne (30 secondes par défaut) et au temps de relance de l'application.

Etape 3. Réintégration après panne

A la reprise après panne du serveur 1 (réintégration du serveur 1), SafeKit resynchronise automatiquement les fichiers de ce serveur à partir de l'autre serveur.

Seuls les fichiers modifiés sur le serveur 2 pendant l'inactivité du serveur 1 sont resynchronisés.

Réintégration après panne de Windows ou Linux dans un cluster miroir

La réintégration du serveur 1 se fait sans arrêter l'exécution de l'application Windows ou Linux sur le serveur 2.

Etape 4. Retour à la normale

Après la réintégration, les fichiers sont à nouveau en mode miroir comme à l'étape 1. Le système est en haute disponibilité avec l'application Windows ou Linux qui s'exécute sur le serveur 2 et avec réplication temps réel des modifications vers le serveur 1.

Retour à la normale d'un cluster Windows ou Linux actif-passif

Si l'administrateur souhaite que son application s'exécute en priorité sur le serveur 1, il peut exécuter une commande de basculement, soit manuellement à un moment opportun, soit automatiquement par configuration.

Choisissez entre une redondance au niveau application ou au niveau machine virtuelle

Redondance au niveau de l'application

Dans ce type de solution, seules les données applicatives sont répliquées. Et seule l'application est redémarrée en cas de panne.

Application HA - redondance au niveau applicatif

Avec cette solution, des scripts de redémarrage doivent être écrits pour redémarrer l'application.

Nous livrons des modules applicatifs pour mettre en œuvre la redondance au niveau applicatif (comme le module Windows ou Linux fourni dans l'essai gratuit ci-dessous). Ils sont préconfigurés pour des applications et des bases de données bien connues. Vous pouvez les personnaliser avec vos propres services, données à répliquer, checkers d'application. Et vous pouvez combiner les modules applicatifs pour construire des architectures avancées à plusieurs niveaux.

Cette solution est indépendante de la plate-forme et fonctionne avec des applications à l'intérieur de machines physiques, de machines virtuelles, dans le Cloud. Tout hyperviseur est supporté (VMware, Hyper-V...).

  • Solution pour une nouvelle application (scripts de redémarrage à écrire) : Windows, Linux

Redondance au niveau de machine virtuelle

Dans ce type de solution, la machine virtuelle (VM) complète est répliquée (Application + OS). Et la machine virtuelle complète est redémarrée en cas de panne.

VM HA - redondance au niveau de la machine virtuelle

L'avantage est qu'il n'y a pas de scripts de redémarrage à écrire par application et pas d'adresse IP virtuelle à définir. Si vous ne savez pas comment fonctionne l'application, c'est la meilleure solution.

Cette solution fonctionne avec Windows/Hyper-V et Linux/KVM mais pas avec VMware. Il s'agit d'une solution active/active avec plusieurs machines virtuelles répliquées et redémarrées entre deux nœuds.

Utilisation typique avec SafeKit

Pourquoi une réplication de quelques Tera-octets ?

Temps de resynchronisation après panne (étape 3)

  • Réseau 1 Gb/s ≈ 3 heures pour 1 téraoctet.
  • Réseau 10 Gb/s ≈ 1 heure pour 1 téraoctet ou moins en fonction des performances d'écriture disque.

Alternative

Pourquoi une réplication < 1 000 000 fichiers ?

  • Performance du temps de resynchronisation après panne (étape 3).
  • Temps pour vérifier chaque fichier entre les deux nœuds.

Alternative

  • Placez les nombreux fichiers à répliquer sur un disque dur virtuel / une machine virtuelle.
  • Seuls les fichiers représentant le disque dur virtuel / la machine virtuelle seront répliqués et resynchronisés dans ce cas.

Pourquoi un basculement ≤ 32 VMs répliquées ?

  • Chaque VM s'exécute dans un module miroir indépendant.
  • Maximum de 32 modules miroir exécutés sur le même cluster.

Alternative

  • Utilisez un stockage partagé externe et une autre solution de clustering de VMs.
  • Plus cher, plus complexe.

Pourquoi un réseau LAN/VLAN entre sites distants ?

Alternative

  • Utilisez un équilibreur de charge pour l'adresse IP virtuelle si les 2 nœuds sont dans 2 sous-réseaux (supporté par SafeKit, notamment dans le cloud).
  • Utilisez des solutions de backup avec réplication asynchrone pour un réseau à latence élevée.

Modules SafeKit pour des solutions de redondance et de haute disponibilité plug&play

Architectures de clustering avancée

Plusieurs modules peuvent être déployés dans le même cluster. Ainsi, des architectures de clustering avancées peuvent être mises en œuvre :

Webinaire SafeKit (Anglais)

Evidian SafeKit Overview Slides

  • Demonstration
  • Examples of redundancy and high availability solution
  • Evidian SafeKit sold in many different countries with Milestone
  • 2 solutions: virtual machine cluster or application cluster
  • Distinctive advantages
  • More information on the web site

More slides

Clients de SafeKit dans tous les domaines d'activité

  • Meilleurs cas d'utilisation de haute disponibilité avec SafeKit

    Meilleurs cas d'utilisation [+]

  • Haute disponibilité de la gestion vidéo, du contrôle d'accès, de la gestion des bâtiments avec SafeKit

    Gestion vidéo, contrôle d'accès, gestion des bâtiments [+]

  • Harmonic utilise SafeKit pour la haute disponibilité dans la télédiffusion

    Télévision numérique [+]

  • Natixis utilise SafeKit comme solution de haute disponibilité de ses applications bancaires

    Finance [+]

  • Fives Syleps met en œuvre la haute disponibilité SafeKit dans la logistique automatisée

    Industrie [+]

  • Copperchase déploie la haute disponibilité SafeKit dans le contrôle du trafic aérien

    Transport aérien [+]

  • Wellington IT déploie la haute disponibilité SafeKit dans les banques

    Banque [+]

  • La RATP choisit la solution de haute disponibilité SafeKit pour ses lignes de métro

    Transport métropolitain [+]

  • Systel déploie la haute disponibilité SafeKit dans les centres d'appels des pompiers et du SAMU

    Santé [+]

  • La haute disponibilité de l'ERP de l'armée Française est réalisée avec SafeKit à la DGA

    Gouvernement [+]

Différentiateurs de la solution de haute disponibilité SafeKit par rapport à la concurrence

Evidian SafeKit 8.2

Toutes les nouvelles fonctionnalités par rapport à la 7.5 décrites dans le release notes

Packages

Licence d'essai gratuit d'un mois

Documentation technique

Training

Modules et installation rapide

SafeKit 8.2 Training

Introduction

  1. Overview / pptx

    • Demonstration
    • Examples of redundancy and high availability solution
    • Evidian SafeKit sold in many different countries with Milestone
    • 2 solutions: virtual machine or application cluster
    • Distinctive advantages
    • More information on the web site
    • SafeKit training
  2. Competition / pptx

    • Cluster of virtual machines
    • Mirror cluster
    • Farm cluster

Installation, Console, CLI

  1. Install and setup / pptx
    • Package installation
    • Nodes setup
    • Upgrade
  2. Web console / pptx
    • Configuration of the cluster
    • Configuration of a new module
    • Advanced usage
    • Securing the web console
  3. Command line / pptx
    • Configure the SafeKit cluster
    • Configure a SafeKit module
    • Control and monitor

Advanced configuration

  1. Mirror module / pptx
    • start_prim / stop_prim scripts
    • userconfig.xml
    • Heartbeat (<hearbeat>)
    • Virtual IP address (<vip>)
    • Real-time file replication (<rfs>)
    • How real-time file replication works?
    • Mirror's states in action
  2. Farm  module / pptx
    • start_both / stop_both scripts
    • userconfig.xml
    • Farm heartbeats (<farm>)
    • Virtual IP address (<vip>)
    • Farm's states in action
  1. Checkers / pptx
    • userconfig.xml
    • errd checker
    • intf and ip checkers
    • custom checker
    • splitbrain checker for a mirror module
    • tcp, ping, module checkers
    • Checkers in action

Troubleshooting

  1. Troubleshooting / pptx
    • Analyze yourself the logs
    • Take snapshots for support
    • Boot / shutdown
    • Web console / Command lines
    • Mirror / Farm / Checkers
    • Running an application without SafeKit

Support

  1. Evidian support / pptx
    • Get permanent license key
    • Register on support.evidian.com
    • Call desk