La reprise après incident (DR) fait référence à la partie de la planification de la sécurité qui vise à protéger votre organisation contre les effets négatifs d'événements indésirables importants. Elle permet à une organisation de maintenir ou de reprendre rapidement ses fonctions critiques après un sinistre de données sans encourir de pertes significatives dans les opérations de l'entreprise ou les revenus.
Les sinistres se présentent sous différentes formes et tailles. Il ne s'agit pas seulement d'événements catastrophiques tels que les tremblements de terre, les tornades ou les ouragans, mais aussi d'incidents de sécurité tels que les défaillances d'équipement, les cyberattaques, voire les actes terroristes.
En préparation, les organisations et les entreprises créent des plans de reprise après incident détaillant les processus à suivre et les mesures à prendre pour reprendre leurs fonctions critiques.
La reprise après incident se concentre sur les systèmes informatiques qui aident à prendre en charge les fonctions commerciales critiques d'une organisation. Elle est souvent associée au terme de continuité des affaires, mais les deux ne sont pas complètement interchangeables. La reprise après incident fait partie de la continuité des affaires. Elle se concentre davantage sur le maintien de tous les aspects de l'entreprise malgré les sinistres.
Les systèmes informatiques étant devenus essentiels à la réussite d'une entreprise, la reprise après incident est désormais un pilier principal du processus de continuité des affaires.
La plupart des propriétaires d'entreprise ne considèrent généralement pas qu'ils peuvent être victimes d'une catastrophe naturelle jusqu'à ce qu'une crise imprévue se produise, ce qui finit par coûter cher en pertes opérationnelles et économiques pour leur entreprise. Ces événements peuvent être imprévisibles et, en tant que propriétaire d'entreprise, vous ne pouvez pas risquer de ne pas avoir de plan de préparation aux sinistres en place.
Les sinistres pour les entreprises peuvent être d'ordre technologique, naturel, ou même d'origine humaine. Les inondations, les tornades, les ouragans, les glissements de terrain, les tremblements de terre et les tsunamis sont des exemples de catastrophes naturelles. Les sinistres d'origine humaine et technologiques impliquent entre autres les déversements de matières dangereuses, les pannes d'électricité ou d'infrastructure, les menaces d'armes chimiques et biologiques, les explosions ou les effondrements de centrales nucléaires, les cyberattaques, les actes de terrorisme, les explosions et les troubles civils.
Les sinistres potentiels à prévoir comprennent :
Quelle que soit la taille ou l'industrie, lorsque des événements imprévus se produisent, entraînant l'arrêt des opérations quotidiennes, votre entreprise doit se rétablir rapidement pour assurer la continuité de la fourniture de vos services aux clients.
Les temps d'arrêt comptent sans doute parmi les dépenses informatiques les plus importantes auxquelles une entreprise est confrontée. Sur la base de statistiques de reprise après incident de 2014-2015 d'Infrascale, une heure de temps d'arrêt peut coûter jusqu'à 8 000 $ pour les petites entreprises, 74 000 $ pour les moyennes entreprises et 700 000 $ pour les grandes organisations.
Pour les petites et moyennes entreprises (PME), une perte de productivité prolongée peut entraîner une réduction des flux de trésorerie liés aux commandes perdues, une facturation tardive, des dates de livraison manquées et une augmentation des coûts de main-d'œuvre en raison des heures supplémentaires résultant des efforts de récupération des temps d'arrêt.
Si vous n'anticipez pas les perturbations majeures de votre activité et ne les traitez pas en conséquence, vous risquez de subir des répercussions et des implications négatives à long terme lorsqu'adviennent des catastrophes inattendues.
La mise en place d'un plan de reprise après incident peut sauver votre entreprise de multiples risques, notamment :
Alors que les entreprises dépendent de plus en plus de la haute disponibilité, leur capacité de tolérance aux temps d'arrêt a diminué. Par conséquent, beaucoup ont une reprise après incident en place pour empêcher les effets néfastes des sinistres d'affecter leurs opérations quotidiennes.
Les deux mesures critiques de la reprise après incident et du temps d'arrêt sont les suivantes :
Une fois que vous avez défini vos RPO et RTO, vos administrateurs peuvent utiliser les deux mesures pour choisir les stratégies, procédures et technologies optimales de reprise après incident.
Pour reprendre les opérations pendant des fenêtres de RTO plus réduites, votre organisation doit placer ses données secondaires de manière optimale pour les rendre facilement et rapidement accessibles. La restauration sur place s'avère être une méthode efficace pour restaurer rapidement les données, car elle déplace tous les fichiers de données de sauvegarde vers un état actif, ce qui écarte la nécessité de les transférer sur un réseau. Cela peut protéger contre les défaillances du serveur et du système de stockage.
Avant d'utiliser la récupération sur place, votre organisation doit considérer trois choses :
De plus, étant donné que la récupération sur place peut parfois prendre jusqu'à 15 minutes, la réplication peut être nécessaire si vous souhaitez un temps de restauration plus rapide. La réplication fait référence à l'actualisation ou à la copie électronique périodique d'une base de données du serveur informatique A vers le serveur B, ce qui garantit que tous les utilisateurs du réseau partagent toujours le même niveau d'informations.
Un plan de reprise après incident désigne une approche structurée et documentée avec des instructions mises en place pour répondre aux incidents imprévus. Il s'agit d'un plan étape par étape qui comprend les précautions mises en place pour minimiser les effets d'un sinistre afin que votre organisation puisse reprendre rapidement ses fonctions critiques ou continuer à fonctionner comme d'habitude.
En règle générale, le plan de reprise après incident implique une analyse approfondie de tous les processus opérationnels et des besoins de continuité. De plus, avant de générer un plan détaillé, votre organisation doit procéder à une analyse des risques (RA) et à une analyse de l'impact sur l'entreprise (BIA). Elle devrait également identifier ses RTO et RPO.
Une stratégie de reprise doit commencer au niveau de l'entreprise, ce qui vous permet de déterminer les applications les plus critiques pour faire fonctionner votre organisation. Les stratégies de reprise définissent les plans de votre organisation pour répondre aux incidents, tandis que les plan de reprise après incident décrivent en détail comment vous devez réagir.
Lors de la détermination d'une stratégie de reprise, vous devez notamment prendre en compte les problèmes suivants :
La direction doit approuver toutes les stratégies de reprise, qui doivent s'aligner sur les objectifs et les buts de l'organisation. Une fois les stratégies de reprise développées et approuvées, vous pouvez ensuite les traduire en plan de reprise après incident.
Le processus de plan de reprise après incident implique bien plus que la simple rédaction du document. Une analyse de l'impact sur l'entreprise (BIA) et une analyse des risques (RA) aident à déterminer les domaines sur auxquels allouer des ressources dans le processus de plan de reprise après incident.
La BIA est utile pour identifier les impacts des événements perturbateurs, ce qui en fait le point de départ pour l'identification des risques dans le contexte de la reprise après incident. Elle permet également de générer le RTO et le RPO.
L'analyse des risques identifie les vulnérabilités et les menaces qui pourraient perturber le fonctionnement normal des processus et des systèmes mis en évidence dans la BIA. L'analyse des risques évalue également la probabilité de survenance d'un événement perturbateur et aide à décrire sa gravité potentielle.
Une liste de contrôle de plan de reprise après incident comporte les étapes suivantes :
Une organisation peut démarrer son plan de reprise après incident avec un résumé de toutes les étapes d'action vitales requises et une liste de contacts essentiels, ce qui garantit que les informations cruciales sont facilement et rapidement accessibles.
Le plan devrait également définir les rôles et responsabilités des membres de l'équipe tout en définissant les critères de lancement du plan d'action. Il doit ensuite spécifier, en détail, les activités de réponse et de reprise. Les autres éléments essentiels d'un modèle de plan de reprise après incident comprennent notamment les éléments suivants :
Un plan de reprise après incident peut varier en termes de portée (c'est-à-dire, d'un plan basique à un plan complet). Certains peuvent contenir plus de 100 pages.
Les budgets de reprise après incident peuvent considérablement varier et évoluer au fil du temps. Par conséquent, votre organisation peut profiter de toutes les ressources disponibles gratuitement, telles que les modèles de plan de reprise après incident en ligne de l'Agence fédérale de gestion des urgences (Federal Emergency Management Agency). Il existe également de nombreuses informations gratuites et des articles pratiques en ligne.
Une liste de contrôle des objectifs de plan de reprise après incident comprend les éléments suivants :
Le plan doit au moins minimiser les effets négatifs sur les opérations commerciales quotidiennes. Vos employés doivent également connaître les mesures d'urgence nécessaires à suivre en cas d'incidents imprévus.
La distance, bien qu'importante, est souvent négligée pendant le processus de plan de reprise après incident. Un site de reprise après incident situé à proximité du data center principal est idéal en termes de commodité, de coût, de test et de bande passante. Cependant, étant donné que les pannes diffèrent par leur portée, un événement régional grave peut détruire à la fois le data center principal ainsi que son site de reprise après incident lorsque les deux sont situés à proximité l'un de l'autre.
Vous pouvez personnaliser un plan de reprise après incident pour un environnement donné.
Les tests viennent valider tous les plans de reprise après incident. Ils identifient les lacunes du plan et offrent des opportunités de résoudre les problèmes avant la survenance d'un sinistre. Les tests peuvent également fournir la preuve de l'efficacité du plan et atteindre les RPO.
Les technologies et systèmes informatiques sont en constante évolution. Par conséquent, les tests garantissent que votre plan de reprise après incident est à jour.
Il existe certaines raisons pour ne pas tester les plans de reprise après incident telles que les restrictions budgétaires, le manque d'approbation de la direction ou les contraintes de ressources. Les tests de reprise après incident nécessitent également du temps, de la planification et des ressources. Ils peuvent également représenter un risque d'incident s'ils impliquent l'utilisation de données actives. Cependant les tests constituent une partie essentielle de la planification de reprise après incident que vous ne devez jamais ignorer.
Les tests de reprise après incident vont du simple au complexe :
Votre organisation doit planifier les tests dans sa politique de reprise après incident ; cependant, méfiez-vous de son caractère intrusif. En effet, les tests trop fréquents sont contre-productifs et épuisants pour votre personnel. D'un autre côté, tester moins régulièrement est également risqué. Testez également systématiquement votre plan de reprise après incident après avoir apporté des modifications importantes au système.
Pour tirer pleinement profit des tests :
La reprise après incident en tant que service est une méthode de reprise après incident basée sur le cloud qui a gagné en popularité au fil des ans. En effet, la DRaas réduit les coûts, elle est plus facile à déployer et permet des tests réguliers.
Les tests cloud permettent à votre entreprise d'économiser de l'argent car ils s'exécutent sur une infrastructure partagée. Ils sont également assez flexibles, ce qui vous permet de vous inscrire uniquement aux services dont vous avez besoin. Vous pouvez d'ailleurs terminer vos tests de reprise après incident en ne faisant tourner que des instances temporaires.
Les attentes et exigences de DRaaS sont documentées et contenues dans un contrat de niveau de service (SLA). Le fournisseur tiers fournit ensuite un basculement vers son environnement de cloud computing, soit au paiement à l'utilisation, soit via un contrat.
Cependant, la reprise après incident basée sur le cloud peut ne pas être disponible après des catastrophes à grande échelle, car le site de reprise après incident peut ne pas avoir suffisamment d'espace pour exécuter les applications de chaque utilisateur. De plus, comme la reprise après incident cloud augmente les besoins en bande passante, l'ajout de systèmes complexes pourrait dégrader les performances de l'ensemble du réseau.
Le plus gros inconvénient de la reprise après incident cloud est peut-être que vous n'avez que peu de contrôle sur le processus ; ainsi, vous devez faire confiance à votre fournisseur de services pour mettre en place le plan de reprise après incident en cas de sinistre, tout en atteignant les objectifs de point de récupération et de temps de récupération définis.
Les coûts varient considérablement d'un fournisseur à l'autre et peuvent s'additionner rapidement si le fournisseur facture en fonction de la consommation de stockage ou de la bande passante du réseau. Par conséquent, avant de sélectionner un fournisseur, vous devez effectuer une évaluation interne approfondie pour déterminer vos besoins de reprise après incident.
Voici quelques questions à poser au fournisseur potentiel :
Un site de reprise après incident vous permet de récupérer et de restaurer votre infrastructure technologique et vos opérations lorsque votre datacenter principal n'est pas disponible. Ces sites peuvent être internes ou externes.
En tant qu'organisation, vous êtes responsable de la mise en place et de la maintenance d'un site de reprise après incident interne. Ces sites sont nécessaires pour les entreprises ayant des RTO très courtes et des besoins en informations importants. Certaines considérations à prendre en compte lors de la construction de votre site de reprise interne sont la configuration matérielle, la maintenance électrique, l'équipement de support, la conception de l'agencement, le chauffage et le refroidissement, l'emplacement et le personnel.
Bien que beaucoup plus cher qu'un site externe, un site de reprise après incident interne vous permet de contrôler tous les aspects du processus de reprise après incident.
Les sites externes sont détenus et exploités par des fournisseurs tiers. Ils peuvent être :
Dans les années 80, deux entités, le comité de pilotage technique SHARE et International Business Machines (IBM) ont mis au point un système de niveaux pour décrire les niveaux de service de reprise après incident. Le système présentait la capacité de reprise hors site, le niveau 0 représentant la moins bonne et le niveau 6 la meilleure.
Un septième niveau a été ajouté par la suite pour inclure l'automatisation de la reprise après incident. Aujourd'hui, il représente le plus haut niveau de disponibilité dans les scénarios de reprise après incident. Généralement, à mesure que la capacité de reprise s'améliore avec chaque niveau, le coût augmente également.
Se préparer à faire face à un sinistre n'est pas facile. C'est une tâche qui nécessite une approche globale qui prend tout en compte et concerne les différents logiciels, le matériel, l'équipement réseau, la connectivité, l'alimentation et les tests qui garantissent que la reprise après incident est réalisable conformément aux objectifs de RPO et de RTO. Bien que la mise en œuvre d'un plan de reprise après incident à la fois approfondi et réalisable ne soit pas une tâche facile, ses avantages potentiels sont considérables.
Tout le monde dans votre entreprise doit être au courant de tout plan de reprise après incident mis en place, et lors de la mise en œuvre, une communication efficace est essentielle. Il est impératif que vous développiez non seulement un plan de reprise après incident, mais aussi que vous le testiez, que vous formiez votre personnel, que vous documentiez tout correctement et que vous l'amélioriez régulièrement. Enfin, soyez prudent lorsque vous faites appel aux services d'un fournisseur tiers.