Infrastructure
Haute disponibilité et PRA : Garantir la continuité de service sous Windows Server

Haute disponibilité et PRA : Garantir la continuité de service sous Windows Server

Introduction

La Haute Disponibilité (HA) vise à minimiser les temps d'arrêt non planifiés. Le Plan de Reprise d'Activité (PRA) définit les procédures à suivre lors d'un sinistre majeur. Ces deux concepts sont complémentaires et indispensables pour toute infrastructure de production.

Métriques fondamentales

  • RTO (Recovery Time Objective) : durée maximale acceptable pour restaurer le service
  • RPO (Recovery Point Objective) : perte de données maximale tolérée (exprimée en temps)
  • MTTR (Mean Time To Repair) : temps moyen de réparation d'un incident
  • MTBF (Mean Time Between Failures) : temps moyen entre deux pannes

Windows Server Failover Clustering (WSFC)

Le clustering de basculement permet à plusieurs nœuds de fonctionner ensemble pour assurer la continuité de service :

# Installer le rôle Failover Clustering
Install-WindowsFeature -Name Failover-Clustering -IncludeManagementTools

# Valider la configuration avant de créer le cluster
Test-Cluster -Node SRV01, SRV02 -Include "Storage Spaces Direct", "Inventory", "Network", "System Configuration"

# Créer le cluster
New-Cluster -Name CLUSTER-PROD -Node SRV01, SRV02 -StaticAddress 192.168.1.100

Network Load Balancing (NLB)

Pour les services web et les terminaux sans état, le NLB distribue la charge entre plusieurs serveurs :

  • Idéal pour les rôles web servers et RDS Web Access
  • Détection automatique des nœuds défaillants
  • Configuration via l'interface graphique NLB Manager ou PowerShell

DFS Replication – Réplication des partages de fichiers

# Créer un groupe de réplication DFS
New-DfsReplicationGroup -GroupName "ProdFiles-RG"
Add-DfsrMember -GroupName "ProdFiles-RG" -ComputerName SRV-FILE01, SRV-FILE02
New-DfsReplicatedFolder -GroupName "ProdFiles-RG" -FolderName "Documents"

Stratégie de sauvegarde 3-2-1

La règle d'or de la sauvegarde pour garantir la récupération en toutes circonstances :

  • 3 copies des données
  • 2 supports différents (ex : disque local + NAS)
  • 1 copie hors site (ou cloud via Azure Backup)

Tests réguliers du PRA

Un PRA non testé est un PRA qui ne fonctionne pas. Planifiez :

  • Tests de basculement cluster trimestriels
  • Exercices de restauration de sauvegarde mensuels
  • Revue annuelle complète du document PRA

Conclusion

Investir dans la haute disponibilité et un PRA solide, c'est s'épargner des incidents majeurs et des nuits blanches. Ces mécanismes ne sont pas des options : ils font partie des bonnes pratiques d'administration de toute infrastructure de production.

MAKHZOUM Hussein
Auteur
MAKHZOUM Hussein
Consultant Cloud & Infrastructure Engineer
Voir le profil

Articles similaires