Perte de données ou non sur basculement d'une application critique ?

Il existe une grande différence entre une réplication synchrone versus une réplication asynchrone. Le choix détermine s'il y a perte de données sur panne lors du basculement et de la reprise d'une application critique sur le serveur secondaire.

La réplication synchrone est essentiel pour le basculement d'applications transactionnelles. Avec une réplication synchrone, toutes les données committées sur le disque du serveur primaire se retrouvent sur le disque du serveur secondaire. Avec une réplication asynchrone, des données committées sur le disque du serveur primaire peuvent être perdues en cas de panne. Il existe une solution alternative appelée réplication semi-synchrone, avec les données committées sur le serveur secondaire mais pas forcément sur son disque.

Pour vous aider à prendre la bonne décision entre réplication synchrone versus réplication asynchrone, nous expliquons maintenant les mécanismes techniques et leurs impacts sur le basculement d'une application.

Réplication synchrone

Avec une réplication synchrone comme le propose le logiciel SafeKit, lorsqu'une IO disque est réalisée par l'application ou le cache système sur le serveur primaire, SafeKit attend l'acquittement de l'IO du disque local et du serveur secondaire avant d'envoyer l'acquittement à l'application ou au cache système. Ce mécanisme est indispensable pour la reprise d'applications transactionnelles lorsqu'elles committent leurs transactions.

Réplication asynchrone

Avec la réplication asynchrone mise en œuvre par la plupart des solutions, les IOs sont mises dans une file sur le serveur primaire et les acquittements du serveur secondaire ne sont pas attendus. Donc, toutes les données qui n'ont pas eu le temps d'être recopiées à travers le réseau sur le serveur secondaire sont perdues en cas de panne du serveur primaire. Une application transactionnelle perd des transactions committées lors d'une reprise après panne.

Réplication semi-synchrone

Avec une réplication semi-synchrone, SafeKit attend toujours l'acquittement des deux serveurs avant d'envoyer l'acquittement à l'application ou au cache système. Mais dans le cas semi-synchrone, le serveur secondaire envoie l'acquittement au serveur primaire dès réception de l'IO puis écrit sur disque. Dans le cas synchrone, le serveur secondaire écrit l'IO sur disque puis envoie l'acquittement au serveur primaire.

Conclusion

Une réplication asynchrone perd des données en cas de basculement et de reprise après panne. Même une réplication semi-synchrone perd des données dans le cas particulier d'une double panne électrique simultanée sur les deux serveurs avec l'impossibilité de redémarrer sur l'ex serveur primaire et l'obligation de redémarrer sur le serveur secondaire. Donc soyez prudent sur les conséquences du choix entre réplication synchrone versus réplication asynchrone. Préférez toujours une réplication synchrone ou semi-synchrone pour une application critique.

Autres facteurs à prendre en compte lors du choix d'une architecture à haute disponibilité avec réplication synchrone ou asynchrone

Meilleures pratiques pour un cluster miroir avec réplication et reprise sur panne

Cluster miroir d'Evidian SafeKit avec réplication de fichiers temps réel et reprise sur panne

Toutes les fonctionnalités de clustering All clustering features

Like  La solution inclut toutes les fonctionnalités de clustering: surveillance de la défaillance des serveurs, surveillance de la défaillance réseau, surveillance de la défaillance logicielle, redémarrage automatique de l'application avec un temps de reprise rapide, une adresse IP virtuelle basculée en cas de panne pour rerouter automatiquement les clients

Dislike  Ce n'est pas le cas avec les solutions de réplication pure comme la réplication au niveau base de données

Dislike  Un redémarrage rapide de l'application n'est pas assuré avec une réplication complète de machines virtuelles. En cas de panne d'un hyperviseur, une machine virtuelle doit être rebootée sur un nouvel hyperviseur avec un temps de redémarrage inconnu

Like   La configuration du cluster est très simple et réalisée au moyen d'un module de haute disponibilité applicatif. Il n'y a pas de contrôleur de domaine ou d'Active Directory à configurer sur Windows. La solution fonctionne sur Windows et Linux

Réplication synchrone Synchronous replication

Like  La réplication en temps réel est synchrone sans perte de données en cas de panne

Dislike  Ce n'est pas le cas avec une réplication asynchrone

Retour d'un serveur tombé en panne totalement automatisé (failback) Automatic failback

Like  Suite à une panne lorsqu'un serveur reboot, le retour du serveur tombé en panne se fait de manière totalement automatique dans le cluster avec une resynchronisation de ses données et sans arrêter l'application sur le seul serveur restant

Dislike  Ce n'est pas le cas avec la plupart des solutions de réplication particulièrement celles avec une réplication au niveau base de données. Des opérations manuelles sont requises pour resynchroniser le serveur défaillant. Il peut être même nécessaire d'arrêter l'application sur le seul serveur restant

Réplication de n'importe quel type de données

Like  La réplication fonctionne pour les bases de données mais aussi pour n'importe quel fichier qui doit-être répliqué

Dislike  Ce n'est pas le cas pour la réplication au niveau base de données

Réplication de fichiers vs réplication de disque File replication vs disk replication

Like  La réplication est basée sur des répertoires de fichiers qui peuvent être localisés n'importe où (même dans le disque système)

Disike  Ce n'est pas le cas avec la réplication de disque où une configuration spéciale de l'application est nécessaire pour placer les données applicatives dans un disque spécial

Réplication de fichiers vs disque partagé File replication vs shared disk

Like  Les serveurs peuvent être placés dans deux sites distants

Dislike  Ce n'est pas le cas avec les solutions à disque partagé

Sites distants Remote sites

Like  Toutes les fonctionnalités de clustering SafeKit fonctionnent pour 2 serveurs sur des sites distants. Les performances de la réplication dépendent de la latence d'interconnexion pour la réplication synchrone en temps réel et de la bande passante pour la resynchronisation des données sur un serveur défaillant.

Like   Si les deux serveurs sont connectés au même réseau IP via un réseau local étendu entre deux sites distants, l'adresse IP virtuelle de SafeKit fonctionne avec une redirection au niveau 2

Like   Si les deux serveurs sont connectés à deux réseaux IP différents entre deux sites distants, l'adresse IP virtuelle peut être configurée au niveau d'un load balancer. SafeKit propose un "health check": le load balancer est configuré avec une URL gérée par SafeKit qui renvoie OK sur le serveur primaire et NOT FOUND sinon. Cette solution est implémentée pour SafeKit dans le Cloud, mais elle peut être également mise en œuvre avec un load balancer sur site

Quorum Quorum

Like   Avec des sites distants, la solution fonctionne avec seulement 2 serveurs et pour le quorum (isolation réseau), un simple split brain checker vers un routeur est offert pour supporter une seule exécution

Dislike  Ce n'est pas le cas pour la plupart des solutions de clustering où un 3ième serveur est nécessaire pour le quorum

Solution de haute disponibilité uniforme Uniform high availability solution

Like  SafeKit implémente un cluster miroir avec une réplication et une reprise sur panne. Mais il implémente aussi un cluster ferme avec load balancing et reprise sur panne. Ainsi une architecture N-tiers peut-être rendue hautement disponible et load balancée avec la même solution sur Windows et Linux (même installation, configuration, administration avec la console SafeKit ou les commandes en ligne). Ceci est unique sur le marché

Dislike  Ce n'est pas le cas avec une architecture mixant des technologies différentes pour le load balancing, la réplication et la reprise sur panne

Comparaison d'architectures de haute disponibilité

(cliquez sur la fonctionnalité pour plus d'information)

FonctionnalitéCluster SafeKitAutres clusters
Cluster logiciel vs cluster matériel Un cluster simple avec SafeKit installé sur deux serveurs
Un cluster logiciel simple avec le package SafeKit installé sur deux serveurs
Cluster matériel avec stockage externe Boîtiers de load balancing ou serveurs proxy dédiés

Un cluster matériel complexe avec du stockage externe ou des boîtiers de load balancing
Cluster de type "shared nothing"" vs cluster à disque partagé SafeKit est un cluster de type shared-nothing: simple à déployer même dans des sites distants
SafeKit est un cluster sans partage de type "shared-nothing": simple à déployer même sur des sites distants
Un cluster à disque partagé est complexe à déployer
Un cluster à disque partagé est complexe à déployer
Haute disponibilité applicative vs Haute disponibilité de machines virtuelles complètes
La haute disponibilité applicative de SafeKit supporte les pannes matérielles, logicielles et les erreurs humaines avec un temps de reprise rapide
La haute disponibilité de machines virtuelles (VM) complètes supporte seulement les pannes matérielles avec un reboot de la VM et un temps de reprise indéfini
La haute disponibilité de machines virtuelles complètes (VM) supporte seulement les pannes matérielles avec un reboot de la VM et un temps de reprise indéfini si le reboot OS dysfonctionne
Réplication synchrone vs réplication asynchrone
SafeKit met en œuvre une réplication temps réel synchrone sans perte de données en cas de panne
Avec une réplication asynchrone, il y a une perte de données en cas de panne
Avec une réplication asynchrone, il y a une perte de données en cas de panne
Réplication de fichiers au niveau octet vs réplication de disque au niveau du bloc SafeKit met en œuvre la réplication de fichiers au niveau octet et se configure simplement avec des répertoires à répliquer même sur le disque système
SafeKit met en œuvre la réplication de fichiers temps réel au niveau octet et se configure simplement avec les répertoires applicatifs à répliquer même dans le disque système
La réplication de disque au niveau du bloc est complexe et nécessite de mettre les données de l'application dans un disque spécial
La réplication de disque au niveau bloc est complexe à configurer et nécessite de mettre les données de l'application dans un disque spécial
Heartbeat, reprise sur panne et quorum pour éviter 2 serveurs maîtres Pour éviter 2 serveur maîtres, SafeKit propose un simple split brain checker configuré sur un routeur
Pour éviter 2 serveur maîtres, SafeKit propose un simple "split brain checker" configuré sur un routeur
Pour éviter 2 serveur maîtres, les autres clusters demande une configuration complexe avec une 3ième machine, un disque de quorum spécial, un reset hardware distant
Pour éviter 2 serveur maîtres, les autres clusters demandent une configuration complexe avec une 3ième machine, un disque de quorum spécial, une interconnexion spéciale
Load balancing réseau Aucune configuration réseau particulière n'est requise dans un cluster SafeKit pour l'équilibrage de la charge réseau
Aucun serveur dédié et aucune configuration réseau particulière ne sont requis dans un cluster SafeKit pour l'équilibrage de la charge réseau
Une configuration réseau spéciale est requise dans d'autres clusters pour l'équilibrage de la charge réseau
Une configuration réseau spéciale est requise dans d'autres clusters pour l'équilibrage de la charge réseau

Modules SafeKit pour des solutions de haute disponibilité plug&play

Modules de haute disponibilité miroir et ferme de SafeKit

Les architectures HA cluster de SafeKit

Modules de haute disponibilité gratuits de type ferme

Déployez un module ferme sur N serveurs.
Et mettez en œuvre un load balancing réseau dans un cluster actif-actif avec reprise applicative automatique sur panne.
La cible est une application avec des services Web dont la charge est à équilibrer entre plusieurs serveurs et avec un redémarrage automatique en cas de défaillance.

Cliquez sur les boutons bleus pour une description complète de la solution et une procédure d'installation étape par étape

Modules fermes (partage de charge et reprise sur panne)

Windows

Linux

Module IIS-
Module Apache
Module ferme générique pour n'importe quelle application

Modules de haute disponibilité gratuits de type miroir

Déployez un module miroir sur 2 serveurs.
Et mettez en œuvre une réplication temps réel et continue avec reprise applicative automatique sur panne dans un cluster actif-passif.
La cible est une application avec une base de données ou des fichiers plats à répliquer et avec un redémarrage automatique en cas de panne.

Cliquez sur les boutons bleus pour une description complète de la solution et une procédure d'installation étape par étape

Modules miroirs (réplication et reprise sur panne)

Windows

Linux

Microsoft SQL Server-
Oracle
MySQL
PostgreSQL
Firebird
Hyper-V-
Milestone XProtect (basé sur Microsoft SQL Server)-
Hanwha SSM (basé sur PostgreSQL Server)-
Module miroir générique pour n'importe quelle application

Démonstrations de solutions de haute disponibilité avec SafeKit

Webinaire SafeKit

Ce webinaire présente en 10 minutes Evidian SafeKit.

Dans ce webinaire, vous comprendrez :

  • les clusters ferme et miroir
  • les économies par rapport aux solutions de clustering matériel
  • les meilleurs cas d'utilisation
  • le processus d'intégration d'une nouvelle application

Cluster Microsoft SQL Server

Cette vidéo montre la configuration d'un module miroir avec réplication temps réel synchrone et reprise sur panne.

La réplication de fichiers et le basculement sont configurés pour Microsoft SQL Server mais fonctionnent de la même manière pour d'autres bases de données.

Essai gratuit ici

Cluster Apache

Cette vidéo montre une configuration d'un module ferme avec équilibrage de charge et reprise sur panne.

L'équilibrage de charge et le basculement sont configurés pour Apache mais fonctionnent de la même manière pour d'autres services Web.

Essai gratuit ici

Cluster Hyper-V

Cette vidéo montre un cluster Hyper-V avec des réplications complètes de machines virtuelles.

Les machines virtuelles peuvent s'exécuter sur les deux serveurs Hyper-V et elles sont redémarrées en cas de panne.

Essai gratuit ici