Centre d'information

Le seul guide de reprise après incident dont vous aurez besoin

La reprise après incident (DR) fait référence à la partie de la planification de la sécurité qui vise à protéger votre organisation contre les effets négatifs d'événements indésirables importants. Elle permet à une organisation de maintenir ou de reprendre rapidement ses fonctions critiques après un sinistre de données sans encourir de pertes significatives dans les opérations de l'entreprise ou les revenus.

Les sinistres se présentent sous différentes formes et tailles. Il ne s'agit pas seulement d'événements catastrophiques tels que les tremblements de terre, les tornades ou les ouragans, mais aussi d'incidents de sécurité tels que les défaillances d'équipement, les cyberattaques, voire les actes terroristes.

En préparation, les organisations et les entreprises créent des plans de reprise après incident détaillant les processus à suivre et les mesures à prendre pour reprendre leurs fonctions critiques.

Qu'est-ce que la reprise après incident ?

La reprise après incident se concentre sur les systèmes informatiques qui aident à prendre en charge les fonctions commerciales critiques d'une organisation. Elle est souvent associée au terme de continuité des affaires, mais les deux ne sont pas complètement interchangeables. La reprise après incident fait partie de la continuité des affaires. Elle se concentre davantage sur le maintien de tous les aspects de l'entreprise malgré les sinistres.

Les systèmes informatiques étant devenus essentiels à la réussite d'une entreprise, la reprise après incident est désormais un pilier principal du processus de continuité des affaires.

La plupart des propriétaires d'entreprise ne considèrent généralement pas qu'ils peuvent être victimes d'une catastrophe naturelle jusqu'à ce qu'une crise imprévue se produise, ce qui finit par coûter cher en pertes opérationnelles et économiques pour leur entreprise. Ces événements peuvent être imprévisibles et, en tant que propriétaire d'entreprise, vous ne pouvez pas risquer de ne pas avoir de plan de préparation aux sinistres en place.

À quel type de sinistres les entreprises sont-elles confrontées ?

Les sinistres pour les entreprises peuvent être d'ordre technologique, naturel, ou même d'origine humaine. Les inondations, les tornades, les ouragans, les glissements de terrain, les tremblements de terre et les tsunamis sont des exemples de catastrophes naturelles. Les sinistres d'origine humaine et technologiques impliquent entre autres les déversements de matières dangereuses, les pannes d'électricité ou d'infrastructure, les menaces d'armes chimiques et biologiques, les explosions ou les effondrements de centrales nucléaires, les cyberattaques, les actes de terrorisme, les explosions et les troubles civils.

Les sinistres potentiels à prévoir comprennent :

  • Défaillance d'application
  • Défaillance de la VM
  • Défaillance de l'hôte
  • Défaillance du rack
  • Échec de communication
  • Sinistre du datacenter
  • Sinistre du bâtiment ou du campus
  • Sinistres à l'échelle d'une ville, d'une région, d'une nation ou de plusieurs

Pourquoi vous avez besoin de la reprise après incident

Quelle que soit la taille ou l'industrie, lorsque des événements imprévus se produisent, entraînant l'arrêt des opérations quotidiennes, votre entreprise doit se rétablir rapidement pour assurer la continuité de la fourniture de vos services aux clients.

Les temps d'arrêt comptent sans doute parmi les dépenses informatiques les plus importantes auxquelles une entreprise est confrontée. Sur la base de statistiques de reprise après incident de 2014-2015 d'Infrascale, une heure de temps d'arrêt peut coûter jusqu'à 8 000 $ pour les petites entreprises, 74 000 $ pour les moyennes entreprises et 700 000 $ pour les grandes organisations.

Pour les petites et moyennes entreprises (PME), une perte de productivité prolongée peut entraîner une réduction des flux de trésorerie liés aux commandes perdues, une facturation tardive, des dates de livraison manquées et une augmentation des coûts de main-d'œuvre en raison des heures supplémentaires résultant des efforts de récupération des temps d'arrêt.

Si vous n'anticipez pas les perturbations majeures de votre activité et ne les traitez pas en conséquence, vous risquez de subir des répercussions et des implications négatives à long terme lorsqu'adviennent des catastrophes inattendues.

La mise en place d'un plan de reprise après incident peut sauver votre entreprise de multiples risques, notamment :

  • Perte de réputation
  • Dépenses hors budget
  • Perte des données
  • Impact négatif sur vos clients

Alors que les entreprises dépendent de plus en plus de la haute disponibilité, leur capacité de tolérance aux temps d'arrêt a diminué. Par conséquent, beaucoup ont une reprise après incident en place pour empêcher les effets néfastes des sinistres d'affecter leurs opérations quotidiennes.

L'essence de la reprise après incident : objectifs de point de récupération et de temps de récupération

Les deux mesures critiques de la reprise après incident et du temps d'arrêt sont les suivantes :

  • Perte de données maximale admissible (RPO) : il se réfère à l'âge maximal des fichiers que votre organisation doit récupérer de son stockage de sauvegarde pour garantir la reprise de ses opérations normales après un sinistre. Il détermine la fréquence de sauvegarde minimale. Par exemple, si votre organisation a une RPO de quatre heures, son système doit effectuer une sauvegarde toutes les quatre heures.
  • Durée maximale d'interruption admissible (RTO) : il s'agit du temps maximal nécessaire à votre organisation pour qu'elle récupère ses fichiers à partir d'une sauvegarde et qu'elle reprenne ses opérations normales après un sinistre. Par conséquent, la RTO est le temps d'arrêt maximal que votre organisation peut supporter. Si la RTO est de deux heures, vos opérations ne peuvent pas être à l'arrêt pendant une plus longue période.

Une fois que vous avez défini vos RPO et RTO, vos administrateurs peuvent utiliser les deux mesures pour choisir les stratégies, procédures et technologies optimales de reprise après incident.

Pour reprendre les opérations pendant des fenêtres de RTO plus réduites, votre organisation doit placer ses données secondaires de manière optimale pour les rendre facilement et rapidement accessibles. La restauration sur place s'avère être une méthode efficace pour restaurer rapidement les données, car elle déplace tous les fichiers de données de sauvegarde vers un état actif, ce qui écarte la nécessité de les transférer sur un réseau. Cela peut protéger contre les défaillances du serveur et du système de stockage.

Avant d'utiliser la récupération sur place, votre organisation doit considérer trois choses :

  • Ses performances d'appliance de sauvegarde sur disque
  • Le temps nécessaire pour déplacer toutes les données de leur état de sauvegarde à un état actif
  • La restauration

De plus, étant donné que la récupération sur place peut parfois prendre jusqu'à 15 minutes, la réplication peut être nécessaire si vous souhaitez un temps de restauration plus rapide. La réplication fait référence à l'actualisation ou à la copie électronique périodique d'une base de données du serveur informatique A vers le serveur B, ce qui garantit que tous les utilisateurs du réseau partagent toujours le même niveau d'informations.

Plan de reprise après incident (DRP)

Un plan de reprise après incident désigne une approche structurée et documentée avec des instructions mises en place pour répondre aux incidents imprévus. Il s'agit d'un plan étape par étape qui comprend les précautions mises en place pour minimiser les effets d'un sinistre afin que votre organisation puisse reprendre rapidement ses fonctions critiques ou continuer à fonctionner comme d'habitude.

En règle générale, le plan de reprise après incident implique une analyse approfondie de tous les processus opérationnels et des besoins de continuité. De plus, avant de générer un plan détaillé, votre organisation doit procéder à une analyse des risques (RA) et à une analyse de l'impact sur l'entreprise (BIA). Elle devrait également identifier ses RTO et RPO.

1.  Stratégies de reprise

Une stratégie de reprise doit commencer au niveau de l'entreprise, ce qui vous permet de déterminer les applications les plus critiques pour faire fonctionner votre organisation. Les stratégies de reprise définissent les plans de votre organisation pour répondre aux incidents, tandis que les plan de reprise après incident décrivent en détail comment vous devez réagir.

Lors de la détermination d'une stratégie de reprise, vous devez notamment prendre en compte les problèmes suivants :

  • Budget
  • Ressources disponibles comme les personnes et les installations physiques
  • Position de la direction sur le risque
  • Technologie
  • Création
  • Fournisseurs
  • Fournisseurs tiers

La direction doit approuver toutes les stratégies de reprise, qui doivent s'aligner sur les objectifs et les buts de l'organisation. Une fois les stratégies de reprise développées et approuvées, vous pouvez ensuite les traduire en plan de reprise après incident.

2.  Étapes de planification de la reprise après incident

Le processus de plan de reprise après incident implique bien plus que la simple rédaction du document. Une analyse de l'impact sur l'entreprise (BIA) et une analyse des risques (RA) aident à déterminer les domaines sur auxquels allouer des ressources dans le processus de plan de reprise après incident.

La BIA est utile pour identifier les impacts des événements perturbateurs, ce qui en fait le point de départ pour l'identification des risques dans le contexte de la reprise après incident. Elle permet également de générer le RTO et le RPO.

L'analyse des risques identifie les vulnérabilités et les menaces qui pourraient perturber le fonctionnement normal des processus et des systèmes mis en évidence dans la BIA. L'analyse des risques évalue également la probabilité de survenance d'un événement perturbateur et aide à décrire sa gravité potentielle.

Une liste de contrôle de plan de reprise après incident comporte les étapes suivantes :

  • Établir le périmètre d'activité
  • Rassembler les documents d'infrastructure de réseau pertinents
  • Identifier les menaces et vulnérabilités sévères ainsi que les actifs critiques de l'organisation
  • Examiner l'historique des incidents imprévus de l'organisation et leur traitement
  • Identifier les stratégies de reprise après incident actuelles
  • Identifier l'équipe d'intervention d'urgence
  • Faire examiner et approuver le plan de reprise après incident par la direction
  • Tester le plan
  • Mettre à jour le plan
  • Mettre en place un audit de plan de reprise après incident

3.  Création d'un plan de reprise après incident

Une organisation peut démarrer son plan de reprise après incident avec un résumé de toutes les étapes d'action vitales requises et une liste de contacts essentiels, ce qui garantit que les informations cruciales sont facilement et rapidement accessibles.

Le plan devrait également définir les rôles et responsabilités des membres de l'équipe tout en définissant les critères de lancement du plan d'action. Il doit ensuite spécifier, en détail, les activités de réponse et de reprise. Les autres éléments essentiels d'un modèle de plan de reprise après incident comprennent notamment les éléments suivants :

  • Déclaration d'intention
  • Énoncé de politique de reprise après incident
  • Définition d'objectifs
  • Outils d'authentification tels que les mots de passe
  • Risques et facteurs géographiques
  • Conseils pour gérer les médias
  • Informations légales et financières
  • Historique du plan

4. Portée et objectifs du plan de reprise après incident

Un plan de reprise après incident peut varier en termes de portée (c'est-à-dire, d'un plan basique à un plan complet). Certains peuvent contenir plus de 100 pages.

Les budgets de reprise après incident peuvent considérablement varier et évoluer au fil du temps. Par conséquent, votre organisation peut profiter de toutes les ressources disponibles gratuitement, telles que les modèles de plan de reprise après incident en ligne de l'Agence fédérale de gestion des urgences (Federal Emergency Management Agency). Il existe également de nombreuses informations gratuites et des articles pratiques en ligne.

Une liste de contrôle des objectifs de plan de reprise après incident comprend les éléments suivants :

  • Identification des réseaux et systèmes informatiques critiques
  • Priorisation du RTO
  • Description des étapes nécessaires pour démarrer, reconfigurer ou restaurer des systèmes et des réseaux

Le plan doit au moins minimiser les effets négatifs sur les opérations commerciales quotidiennes. Vos employés doivent également connaître les mesures d'urgence nécessaires à suivre en cas d'incidents imprévus.

La distance, bien qu'importante, est souvent négligée pendant le processus de plan de reprise après incident. Un site de reprise après incident situé à proximité du data center principal est idéal en termes de commodité, de coût, de test et de bande passante. Cependant, étant donné que les pannes diffèrent par leur portée, un événement régional grave peut détruire à la fois le data center principal ainsi que son site de reprise après incident lorsque les deux sont situés à proximité l'un de l'autre.

5.  Types de plans de reprise après incident

Vous pouvez personnaliser un plan de reprise après incident pour un environnement donné.

  • Plan de reprise après incident virtualisé : la virtualisation vous permet de mettre en place une reprise après incident en utilisant une méthode simple et efficace. Avec un environnement virtualisé, vous pouvez créer de nouvelles instances de machines virtuelles (VM) immédiatement et fournir une récupération d'application haute disponibilité. De plus, cela facilite les tests. Votre plan doit inclure une capacité de validation pour garantir que les applications peuvent s'exécuter plus rapidement en mode de reprise après incident et revenir aux opérations normales en respectant les RTO et RPO.
  • Plan de reprise après incident réseau : l'élaboration d'un plan de restauration d'un réseau se complique avec l'augmentation de la complexité du réseau. Par conséquent, il est essentiel de détailler la procédure de restauration étape par étape, de la tester correctement et de la maintenir à jour. Dans un plan de reprise après incident réseau, les données sont spécifiques au réseau ; par exemple, dans ses performances et son personnel de réseautage.
  • Plan de reprise après incident cloud : une reprise après incident basée sur le cloud peut aller de la sauvegarde de fichiers au processus complet de réplication. Le plan de reprise après incident cloud est rentable en termes de temps, d'espace et de coût ; cependant, son entretien nécessite des compétences et une bonne gestion. Votre responsable informatique doit connaître à la fois l'emplacement des serveurs physiques et des serveurs virtuels. En outre, le plan doit résoudre les problèmes de sécurité liés au cloud.
  • Plan de reprise après incident de data center : ce plan se concentre sur votre data center et sur son infrastructure. Un élément clé de ce plan de reprise après incident est l'évaluation des risques de fonctionnement, car il analyse les composants clés requis, tels que l'emplacement du bâtiment, la sécurité, l'espace de bureau, les systèmes d'alimentation et la protection. Il doit également prévoir un éventail plus large de scénarios possibles.

Test de reprise après incident

Les tests viennent valider tous les plans de reprise après incident. Ils identifient les lacunes du plan et offrent des opportunités de résoudre les problèmes avant la survenance d'un sinistre. Les tests peuvent également fournir la preuve de l'efficacité du plan et atteindre les RPO.

Les technologies et systèmes informatiques sont en constante évolution. Par conséquent, les tests garantissent que votre plan de reprise après incident est à jour.

Il existe certaines raisons pour ne pas tester les plans de reprise après incident telles que les restrictions budgétaires, le manque d'approbation de la direction ou les contraintes de ressources. Les tests de reprise après incident nécessitent également du temps, de la planification et des ressources. Ils peuvent également représenter un risque d'incident s'ils impliquent l'utilisation de données actives. Cependant les tests constituent une partie essentielle de la planification de reprise après incident que vous ne devez jamais ignorer.

Les tests de reprise après incident vont du simple au complexe :

  • Un examen du plan implique une discussion détaillée du plan de reprise après incident et recherche les éléments manquants et les incohérences.
  • Un test sur table permet aux participants de parcourir étape par étape les activités du plan. Il démontre si les membres de l'équipe de reprise après incident connaissent leurs fonctions en cas d'urgence.
  • Un test de simulation est un test à grande échelle qui utilise des ressources telles que les systèmes de sauvegarde et les sites de restauration sans basculement réel.
  • L'exécution en mode sinistre pendant une période est une autre méthode de test de vos systèmes. Par exemple, vous pouvez basculer vers votre site de reprise et laisser vos systèmes s'exécuter à partir de là pendant une semaine avant de revenir en arrière.

Votre organisation doit planifier les tests dans sa politique de reprise après incident ; cependant, méfiez-vous de son caractère intrusif. En effet, les tests trop fréquents sont contre-productifs et épuisants pour votre personnel. D'un autre côté, tester moins régulièrement est également risqué. Testez également systématiquement votre plan de reprise après incident après avoir apporté des modifications importantes au système.

Pour tirer pleinement profit des tests :

  • Obtenez l'approbation et le financement de la direction
  • Fournissez des informations de test détaillées à toutes les parties concernées
  • Assurez-vous que l'équipe de test est disponible à la date du test
  • Planifiez votre test correctement pour assurer qu'il n'entre pas en conflit avec d'autres activités ou tests
  • Confirmez que les scripts de test sont corrects
  • Vérifiez que votre environnement de test est prêt
  • Planifiez d'abord un essai à sec
  • Soyez prêt à arrêter le test si nécessaire
  • Demandez à un transcripteur de prendre des notes
  • Remplissez un rapport après action détaillant ce qui a fonctionné et ce qui a échoué
  • Utilisez les résultats recueillis pour mettre à jour votre plan de reprise après incident

Reprise après incident en tant que service (DRaaS)

La reprise après incident en tant que service est une méthode de reprise après incident basée sur le cloud qui a gagné en popularité au fil des ans. En effet, la DRaas réduit les coûts, elle est plus facile à déployer et permet des tests réguliers.

Les tests cloud permettent à votre entreprise d'économiser de l'argent car ils s'exécutent sur une infrastructure partagée. Ils sont également assez flexibles, ce qui vous permet de vous inscrire uniquement aux services dont vous avez besoin. Vous pouvez d'ailleurs terminer vos tests de reprise après incident en ne faisant tourner que des instances temporaires.

Les attentes et exigences de DRaaS sont documentées et contenues dans un contrat de niveau de service (SLA). Le fournisseur tiers fournit ensuite un basculement vers son environnement de cloud computing, soit au paiement à l'utilisation, soit via un contrat.

Cependant, la reprise après incident basée sur le cloud peut ne pas être disponible après des catastrophes à grande échelle, car le site de reprise après incident peut ne pas avoir suffisamment d'espace pour exécuter les applications de chaque utilisateur. De plus, comme la reprise après incident cloud augmente les besoins en bande passante, l'ajout de systèmes complexes pourrait dégrader les performances de l'ensemble du réseau.

Le plus gros inconvénient de la reprise après incident cloud est peut-être que vous n'avez que peu de contrôle sur le processus ; ainsi, vous devez faire confiance à votre fournisseur de services pour mettre en place le plan de reprise après incident en cas de sinistre, tout en atteignant les objectifs de point de récupération et de temps de récupération définis.

Les coûts varient considérablement d'un fournisseur à l'autre et peuvent s'additionner rapidement si le fournisseur facture en fonction de la consommation de stockage ou de la bande passante du réseau. Par conséquent, avant de sélectionner un fournisseur, vous devez effectuer une évaluation interne approfondie pour déterminer vos besoins de reprise après incident.

Voici quelques questions à poser au fournisseur potentiel :

  • Comment votre DRaaS fonctionnera-t-elle sur la base de notre infrastructure existante ?
  • Comment s'intégrera-t-elle avec nos plates-formes de reprise après incident et de sauvegarde existantes ?
  • Comment les utilisateurs accèdent-ils aux applications internes ?
  • Que se passe-t-il si vous n'êtes pas en mesure de fournir un service de reprise après incident dont nous avons besoin ?
  • Combien de temps pouvons-nous fonctionner dans votre datacenter après un sinistre ?
  • Quelles sont vos procédures de restauration ?
  • Quel est votre processus de test ?
  • Prenez-vous en charge l'évolutivité ?
  • Comment facturez-vous votre service de reprise après incident ?

Sites de reprise après incident

Un site de reprise après incident vous permet de récupérer et de restaurer votre infrastructure technologique et vos opérations lorsque votre datacenter principal n'est pas disponible. Ces sites peuvent être internes ou externes.

En tant qu'organisation, vous êtes responsable de la mise en place et de la maintenance d'un site de reprise après incident interne. Ces sites sont nécessaires pour les entreprises ayant des RTO très courtes et des besoins en informations importants. Certaines considérations à prendre en compte lors de la construction de votre site de reprise interne sont la configuration matérielle, la maintenance électrique, l'équipement de support, la conception de l'agencement, le chauffage et le refroidissement, l'emplacement et le personnel.

Bien que beaucoup plus cher qu'un site externe, un site de reprise après incident interne vous permet de contrôler tous les aspects du processus de reprise après incident.

Les sites externes sont détenus et exploités par des fournisseurs tiers. Ils peuvent être :

  • Chaud : il s'agit d'un data center entièrement fonctionnel, équipé avec du matériel et des logiciels, doté de personnel 24 h/24, ainsi que de données sur le personnel et les clients.
  • Tiède : il s'agit d'un data center équipé sans données client. Les clients peuvent installer des équipements supplémentaires ou introduire des données client.
  • Froid : il s'agit d'un data center dont l'infrastructure est en place, ce qui lui permet de prendre en charge les données et systèmes informatiques. Cependant, il ne comporte aucune technologie, jusqu'à ce que les organisations clientes activent les plans de reprise après incident et installent l'équipement. Il vient parfois compléter les sites froids et chauds au cours d'incidents à long terme.

Niveaux de reprise après incident

Dans les années 80, deux entités, le comité de pilotage technique SHARE et International Business Machines (IBM) ont mis au point un système de niveaux pour décrire les niveaux de service de reprise après incident. Le système présentait la capacité de reprise hors site, le niveau 0 représentant la moins bonne et le niveau 6 la meilleure.

Un septième niveau a été ajouté par la suite pour inclure l'automatisation de la reprise après incident. Aujourd'hui, il représente le plus haut niveau de disponibilité dans les scénarios de reprise après incident. Généralement, à mesure que la capacité de reprise s'améliore avec chaque niveau, le coût augmente également.

Conclusion

Se préparer à faire face à un sinistre n'est pas facile. C'est une tâche qui nécessite une approche globale qui prend tout en compte et concerne les différents logiciels, le matériel, l'équipement réseau, la connectivité, l'alimentation et les tests qui garantissent que la reprise après incident est réalisable conformément aux objectifs de RPO et de RTO. Bien que la mise en œuvre d'un plan de reprise après incident à la fois approfondi et réalisable ne soit pas une tâche facile, ses avantages potentiels sont considérables.

Tout le monde dans votre entreprise doit être au courant de tout plan de reprise après incident mis en place, et lors de la mise en œuvre, une communication efficace est essentielle. Il est impératif que vous développiez non seulement un plan de reprise après incident, mais aussi que vous le testiez, que vous formiez votre personnel, que vous documentiez tout correctement et que vous l'amélioriez régulièrement. Enfin, soyez prudent lorsque vous faites appel aux services d'un fournisseur tiers.

 

Besoin d'un plan de reprise après incident de niveau entreprise pour votre organisation ? Veritas peut vous aider. Contactez-nous dès maintenant pour recevoir un appel d'un de nos représentants.

La gamme de portefeuilles Veritas fournit tous les outils dont vous avez besoin pour une entreprise résiliente. Des ransomwares aux violations de données en passant par un cas de type « black swan », Veritas couvre toutes ces situations, de façon évolutive. En savoir plus sur la résilience des données.

 

Parmi les clients de Veritas figurent 95 % des entreprises du Fortune 100, et NetBackup™ est le choix numéro 1 pour les entreprises qui souhaitent sauvegarder un volume important de données.

Découvrez comment Veritas assure la protection totale de vos données sur les charges de travail virtuelles, physiques, sur Cloud et héritées avec ses services de protection des données pour les entreprises.