Centre d'information

La reprise après incident (DRaaS) dans le cloud computing

Les entreprises ont adopté des plates-formes cloud pour améliorer leur agilité et leur efficacité informatiques à un rythme accéléré par la pandémie mondiale. Près de 70 % des entreprises utilisent désormais des offres de services cloud et augmentent leurs dépenses liées au cloud. Par conséquent, les technologies cloud ont complètement changé la façon dont le monde perçoit la reprise après incident.

Le cloud computing est un moyen efficace de gérer les actifs numériques, mais il n'est pas à l'abri des sinistres. Les données sont un atout précieux pour une organisation, il est donc pertinent de les protéger contre les catastrophes techniques et naturelles.

Cependant, comme il est impossible de prédire quand la prochaine catastrophe frappera, les organisations doivent pouvoir gérer le processus d'atténuation et de récupération. Par conséquent, la reprise après incident dans le cloud peut se produire grâce à des mesures telles que des sauvegardes système robustes et l'utilisation de plusieurs serveurs à différents emplacements pour réduire les dommages qu'une seule catastrophe naturelle comme une inondation pourrait causer.

Heureusement, les options actuelles sont plus rapides, rentables, sécurisées et offrent plus d'évolutivité et de flexibilité que les approches de reprise après incident traditionnelles. Toutefois, il n'existe pas d'approche universelle à la reprise après incident dans le cloud computing.

Cette publication examine la reprise après incident dans le cloud, son fonctionnement, ses avantages et ses inconvénients, ainsi que la planification de la reprise après incident dans le cloud computing. Elle aborde également la reprise après incident en tant que service (DRaaS) et la reprise après incident traditionnelle, les compare à la reprise après incident dans le cloud, et vous explique comment choisir la bonne option et comment Veritas peut vous aider.

Qu'est-ce que la reprise après incident dans le cloud ?

La reprise après incident dans le cloud permet aux organisations de sauvegarder et de récupérer leurs données critiques et leurs machines distantes. Elle combine plusieurs stratégies et services pour sauvegarder des données, des applications et d'autres ressources informatiques auprès de fournisseurs de services dédiés et de clouds publics.

La reprise après incident est disponible en tant qu'Infrastructure-as-a-Service (IaaS) pour aider à protéger les ressources précieuses de l'entreprise en les stockant à distance sur des serveurs hors site. Elle assure également la continuité des affaires en permettant aux organisations d'effectuer une reprise rapide après un incident.

La technologie cloud alimente la reprise après incident dans le cloud computing afin de permettre une restauration plus rapide, une haute disponibilité et une grande flexibilité. Les organisations peuvent personnaliser leurs solutions de reprise après incident dans le cloud pour répondre à leurs exigences uniques.

La reprise après incident dans le cloud est plus facile à configurer, à utiliser et à gérer que la reprise après incident traditionnelle. Les services informatiques peuvent exploiter la technologie cloud pour un démarrage et un basculement instantanés. En outre, la reprise après incident dans le cloud offre un RTO (objectif de délai de récupération) et un RPO (objectif du point de récupération) mis à jour en cas de restauration du système ou d'incident.

Elle automatise également de nombreux processus et permet aux entreprises de faire évoluer leurs solutions en fonction de leurs besoins métier.

Les différents types d'incidents dans le cloud

Il existe trois catégories de sinistres qui touchent les entreprises :

  • Les catastrophes naturelles : comme des tremblements de terre ou des inondations. Si un événement frappe la zone contenant les serveurs d'une organisation qui hébergent son service cloud, il peut perturber les services et nécessiter des opérations de reprise après incident immédiates.
  • Les catastrophes humaines : il s'agit de toute action humaine comme la perte accidentelle de données, les erreurs de configuration involontaires ou l'accès malveillant par des tiers (ransomware, logiciel malveillant, violations de données).
  • Les catastrophes techniques : tout problème technologique, tel que la perte de connectivité réseau ou les pannes de courant.

Les fournisseurs de services cloud sont responsables de tout ce sur quoi ils exercent un contrôle direct, comme la résilience de l'infrastructure générale de la technologie, comprenant par exemple les installations, le matériel, le réseau et les logiciels. Par ailleurs, les clients sont responsables d'autres domaines tels que les sauvegardes de données sécurisées, la configuration du cloud, l'architecture des charges de travail et la disponibilité. Tous ces éléments fonctionnent ensemble avant, pendant et après un incident dans le cloud computing.

Comment fonctionne la reprise après incident dans le cloud ?

La reprise après incident dans le cloud stocke les applications et les données essentielles dans un data center hors site et bascule vers un site secondaire ou un hôte virtuel en cas de crise. Elle permet aux entreprises d'effectuer une reprise rapide après un sinistre et de se remettre au travail pour minimiser l'impact des événements perturbateurs.

La reprise après incident dans le cloud est différente de la reprise après incident traditionnelle. Au lieu de charger les serveurs avec le logiciel d'application et le système d'exploitation et d'appliquer des correctifs à la dernière configuration utilisée, la reprise après incident dans le cloud intègre l'ensemble du serveur, y compris les applications, le système d'exploitation, les correctifs et les données, dans un ensemble de logiciels ou un serveur virtuel.

Les fournisseurs copient ou sauvegardent ensuite le serveur virtuel dans des data centers hors site. Comme le serveur virtuel ne dépend pas de matériel, le fournisseur peut migrer le système d'exploitation, les applications, les données et les correctifs entre les data centers plus rapidement qu'avec les approches de reprise après incident traditionnelles.

Les fournisseurs de cloud doivent s'assurer que les applications et les systèmes sont mis à jour et régulièrement corrigés. De plus, puisque les fournisseurs peuvent automatiser la plupart des fonctions de reprise après incident dans le cloud, cela réduit les erreurs et nécessite un minimum d'implication de la part des utilisateurs.

La plupart des fonctions de reprise après incident dans le cloud fonctionnent sous forme de service de paiement à l'usage, ce qui signifie que les entreprises ne paient que pour le nombre de licences logicielles et la quantité de stockage utilisées.

Le processus de reprise après incident basé sur le cloud est délicat et les organisations doivent bien comprendre ses méthodologies pour une reprise réussie. En voici quelques-unes :

  • Sauvegarde et restauration : le moyen le plus simple, le plus rapide et le moins cher d'effectuer une reprise après un incident lié au cloud computing. En outre, elles aident à atténuer les conséquences d'événements régionaux tels que les catastrophes naturelles en reproduisant et en stockant des données dans des lieux géographiquement différents.
  • Test pilote : il s'agit d'une méthode qui permet aux organisations de reproduire uniquement les services principaux correspondant à leurs fonctions et besoins. Par conséquent, elles n'ont besoin de répliquer qu'une petite partie centrale de leur structure informatique et de procéder à un remplacement fonctionnel minimal en cas d'incident.
  • Secours semi-automatique : les organisations disposent d'une version à l'échelle réduite de leur environnement entièrement fonctionnel qui s'exécute en permanence à un emplacement différent de celui du serveur central. Ainsi, l'organisation dispose d'une version de sauvegarde dans une autre région en cas d'incident.
  • Déploiement sur plusieurs sites : il s'agit de la solution la plus coûteuse parmi les méthodologies ci-dessus, mais également de la plus complète. Elle implique l'exécution simultanée de la charge de travail complète d'une organisation dans plusieurs régions.

Comment créer une stratégie de reprise après incident dans le cloud

Vous trouverez ci-dessous les étapes à suivre lors de la planification de la reprise après incident dans le cloud computing.

1.  Analyse

La phase d'analyse comprend une évaluation complète des risques et des impacts concernant l'infrastructure informatique, et des charges de travail existantes de l'organisation. Après avoir identifié les risques, le service informatique peut identifier les vulnérabilités et les catastrophes potentielles.

L'organisation peut alors évaluer les performances de son infrastructure actuelle par rapport aux défis identifiés et déterminer le RTO et le RPO des charges de travail.

2.  Mise en œuvre

La phase de mise en œuvre aide l'organisation à définir les étapes et les technologies nécessaires pour faire face aux sinistres. L'objectif est d'élaborer une stratégie qui permette à l'organisation de mettre en œuvre rapidement toutes les mesures nécessaires tout en intervenant en cas de catastrophe. Cette phase comporte les étapes suivantes :

  • Préparation : un plan détaillé expliquant comment l'organisation réagira en cas d'incident et définissant des rôles et des responsabilités clairs.
  • Prévention : les mesures de l'organisation visant à réduire les vulnérabilités et les menaces potentielles. Elles comprennent la formation des employés et des mises à jour régulières.
  • Intervention : les mesures manuelles et automatisées que l'organisation mettra en œuvre en réponse à un incident.
  • Récupération : les mesures manuelles et automatisées en place pour aider l'organisation à récupérer rapidement les données dont elle a besoin pour reprendre ses activités normales.

3.  Tests

Les organisations doivent tester leurs stratégies de reprise après incident dans le cloud et les mettre à jour régulièrement. Cela permet de s'assurer que les employés restent correctement formés et que la stratégie est pertinente. Les tests garantissent également que les processus et technologies automatisés fonctionnent correctement et sont prêts à l'emploi. De plus, ils permettent de détecter les lacunes dans les solutions de reprise après incident.

Voici quelques éléments que les organisations doivent prendre en compte lors de la préparation d'une stratégie de reprise après incident :

  • La stratégie de reprise après incident doit faire partie de la stratégie de continuité des affaires. Elle doit inclure des définitions de RTO et RPO pour aider à décider de quels services cloud une organisation aura besoin et à améliorer sa rentabilité.
  • La stratégie doit définir le RTO et le RPO pour la reprise après incident, car ils constituent la base de la stratégie de reprise, et les types de services dont une organisation aura besoin.
  • Elles doivent élaborer des stratégies de reprise après incident basées sur le cloud avec les objectifs de l'entreprise.
  • Elles doivent concevoir un plan de récupération de bout en bout et inclure tous les aspects commerciaux dont l'organisation a besoin pour rester opérationnelle.
  • Elles doivent créer des tâches spécifiques pour garantir le bon fonctionnement du processus de planification de la reprise après incident.

La stratégie de reprise après incident fait partie d'une stratégie plus large de continuité des affaires, elle doit donc fonctionner sans heurts pour un processus de sauvegarde et de restauration sans faille.

Exemples d'incidents dans le cloud

Les incidents sont rares dans le cloud computing, mais ils peuvent se produire et affecter même les plus grands fournisseurs de services cloud comme AWS et Google. Voici deux exemples d'incidents dans le cloud et leurs conséquences :

1.  La panne d'Amazon en 2017

En 2017, une panne chez Amazon a mis en évidence les vulnérabilités de la reprise après incident dans le cloud et les risques d'utiliser uniquement des clouds publics pour la reprise après incident. L'incident a commencé lorsqu'un employé d'Amazon a tenté de déboguer un problème de système de facturation et a mis accidentellement hors ligne plus de serveurs que nécessaire.

Cela a entraîné une réaction en chaîne dans deux autres sous-systèmes de serveurs avant de se répercuter sur d'autres serveurs. Tout ceci a empêché des milliers de personnes d'accéder aux serveurs Amazon affectés pendant plusieurs heures.

2.  L'incident du cloud AWS en 2016

En 2016, Amazon Web Services (AWS) à Sydney, en Australie, a été inaccessible pendant dix heures, en raison de conditions météorologiques extrêmes à l'origine de coupures d'alimentation électrique. Cela a entraîné l'échec de plusieurs volumes Elastic Block Store et d'instances Elastic Compute Cloud qui hébergeaient des charges de travail critiques pour de nombreuses grandes entreprises.

Pourquoi la reprise après incident dans le cloud est-elle importante ?

Dans l'environnement concurrentiel actuel, les entreprises ne peuvent pas se permettre d'arrêt ou d'interruption dus à des pannes matérielles, des catastrophes naturelles ou des cyberattaques. Par conséquent, elles doivent constamment être en ligne pour répondre aux demandes croissantes d'une économie mondiale qui ne dort jamais.

La cybercriminalité connaît une croissance sans précédent : le FBI rapporte une augmentation stupéfiante de 300 % des crimes signalés depuis la pandémie de 2020. Selon Cybersecurity Ventures, les coûts annuels liés à la cybercriminalité atteindront 10,5 trillions de dollars d'ici 2025. De plus, la cybercriminalité est plus complexe et imprévisible qu'auparavant. Par conséquent, les organisations doivent développer des solutions complètes de sauvegarde des données et de reprise après incident pour assurer la continuité des affaires.

En plus des cybercriminels, les organisations subissent également des pannes majeures qui ont un impact sur leur entreprise. Par exemple, l'Uptime Institute rapporte que 44 % des entreprises interrogées ont subi des interruptions en 2020 en raison de pannes de courant.

La reprise après incident dans le cloud aide les entreprises à renforcer leur résilience en cas d'incident et protège les charges de travail essentielles, quel que soit leur emplacement de stockage (sur site, dans le cloud, le cloud hybride ou les environnements multicloud). Une stratégie de reprise après incident dans le cloud robuste permet de se protéger contre les cybermenaces et autres catastrophes et de limiter les temps d'arrêt et les coûts associés. Elle garantit également la disponibilité et la sécurité des données, des applications et des systèmes critiques, ce qui permet d'assurer la continuité des affaires.

Quels sont les avantages du cloud computing ?

En utilisant l'environnement cloud pour la reprise après incident, les entreprises n'ont pas besoin de conserver des sauvegardes de données sur des disques durs physiques. En outre, les plates-formes cloud, de nature distribuée, permettent aux fournisseurs de diffuser des services sur différents serveurs, dans différents emplacements géographiques, en les protégeant contre les catastrophes naturelles locales.

Un autre avantage de la reprise après incident dans le cloud est que les organisations peuvent décharger une partie de la responsabilité sur le fournisseur cloud. Les fournisseurs cloud sont responsables du maintien de la résilience de base de l'infrastructure, y compris les data centers, les serveurs, les systèmes d'exploitation et les applications.

La reprise après incident dans le cloud est également rentable puisque les fournisseurs ne facturent que les services utilisés. Par conséquent, les organisations peuvent sélectionner les services dont elles ont besoin et les payer, ce qui entraîne une réduction significative des coûts, grâce à une personnalisation accrue des packages.

Parmi les autres avantages de la reprise après incident dans le cloud, citons :

  • La flexibilité : les services de reprise après incident dans le cloud utilisent un modèle de tarification à l'usage, ce qui donne aux organisations plus de contrôle sur les utilisateurs. Avec ce fonctionnement, la reprise après incident devient une dépense opérationnelle et non un coût d'immobilisation, ce qui la rend plus économique.
  • L'adaptabilité : elle permet aux organisations de réaligner et de réaffecter les ressources en cas de besoin.
  • La disponibilité : l'utilisation de plusieurs data centers pour les efforts de reprise après incident signifie que les données organisationnelles sont facilement disponibles et facilement accessibles partout.
  • L'évolutivité : les entreprises peuvent facilement réduire ou augmenter leurs ressources informatiques en fonction de leurs besoins.
  • La fiabilité : la géo-redondance permet de garantir des données toujours disponibles et facilement accessibles. Par conséquent, même si une catastrophe naturelle ou une panne de courant frappe une région entière, elle n'aura pas d'impact sur les données stockées sur un site secondaire.

Inconvénients de la reprise après incident dans le cloud

Malgré les nombreux avantages du stockage en cloud pour la sauvegarde et la restauration, la technologie présente des inconvénients. En voici quelques-uns :

  • Exigences de conformité accrues : la migration des données vers le cloud présente un ensemble de risques. Par exemple, le stockage de données hors site signifie que les entreprises doivent se conformer aux nouvelles mesures réglementaires locales.
  • Contrat de niveau de service limité du fournisseur : parfois, les normes du client et du fournisseur de services ne correspondent pas, ce qui peut poser des problèmes en termes de RTO.
  • Problèmes de connectivité potentiels : les utilisateurs ont besoin d'une connexion Internet pour accéder aux données dans le cloud. Cela peut être problématique lorsque vous rencontrez des problèmes de connectivité.

Dans l'ensemble, les avantages de la reprise après incident dans le cloud l'emportent de loin sur les inconvénients. De plus, les grandes entreprises contournent certains inconvénients en utilisant à la fois des options de reprise après incident sur site et dans le cloud.

Reprise après incident dans le cloud, DRaaS et reprise après incident traditionnelle

La reprise après incident dans le cloud et le DRaaS ont émergé grâce au cloud computing, rendant la reprise après incident accessible aux petites et moyennes entreprises. La reprise après incident traditionnelle existait avant les solutions de reprise après incident basées sur le cloud. Elles ont toutes le même but : assurer la continuité des affaires. Cependant, il existe des différences que les organisations doivent comprendre.

1.  Reprise après incident dans le cloud

Il s'agit de la capacité de basculement des charges de travail vers des instances cloud ou des machines virtuelles, qui permet la reprise des opérations des charges de travail défaillantes. Avec cette approche, les utilisateurs finaux (organisations) prennent la responsabilité de la propriété de la solution et des risques associés aux clouds publics.

Elle utilisent souvent des environnements cloud à très grande échelle tels que Microsoft Azure ou Amazon Web Services au lieu de data centers secondaires gérés par l'entreprise (colocation). L'organisation détermine la meilleure façon de répliquer et de sauvegarder les données et de démarrer le basculement lors d'une panne.

2.  DRaaS

Il s'agit d'une offre en tant que service de fournisseurs spécialisés dans la reprise après incident. Les fournisseurs de DRaaS basé sur le cloud exécutent des plates-formes prêtes à l'emploi pour la reprise après incident, tandis que les organisations tirent parti de l'expertise des fournisseurs pour ajuster leurs opérations cloud en cas de basculement et pour héberger des charges de travail critiques.

Contrairement à la reprise après incident dans le cloud, les organisations qui optent pour le DRaaS dans le cloud computing laissent le fardeau de la tâche aux fournisseurs de services qui sont en charge de toutes les opérations, de l'installation au basculement, jusqu'à la récupération. Ils gèrent également la restauration vers des data centers opérationnels lorsqu'ils sont prêts, ce qui réduit la charge de travail des administrateurs informatiques et leur libère du temps pour des initiatives plus stratégiques.

3.  Reprise après incident traditionnelle

Une solution de reprise après incident traditionnelle implique l'exploitation de data centers dédiés à proximité ou dans les installations existantes d'une organisation. L'organisation accepte les coûts d'immobilisation liés à la construction, au personnel, à l'exploitation et à la maintenance du data center. Elle gère également la maintenance logicielle, l'alimentation, le refroidissement, la connectivité et d'autres infrastructures.

Les éléments clés de la reprise après incident traditionnelle comprennent :

  • Une installation dédiée abritant l'infrastructure informatique nécessaire telle que l'équipement et le personnel.
  • Internet et une bande passante suffisante pour fournir un accès à distance nécessaire aux data centers secondaires.
  • Une capacité de serveur suffisante pour fournir des performances et une évolutivité de haut niveau.
  • Une infrastructure réseau pour fournir une connexion fiable entre deux data centers ou plus et assurer la disponibilité des données.

L'organisation doit également assurer des mises à niveau régulières de l'installation de reprise après incident, en plus du reste de l'infrastructure informatique. En conséquence, la reprise après incident traditionnelle s'accompagne de dépenses d'investissement et d'exploitation importantes.

Quelle est la meilleure option ?

La reprise après incident dans le cloud et le DRaaS dans le cloud computing offrent de nombreux avantages aux organisations. Par exemple, ils permettent une sauvegarde sécurisée des données et une restauration rapide en cas de crise, sans procédures de reprise après incident complexes ni investissements en capital coûteux. Toutefois, lorsqu'elles investissent dans la reprise après incident dans le cloud ou le DRaaS, les organisations doivent d'abord prendre en compte leurs niveaux de tolérance.

Le RTO et le RPO d'une organisation jouent un rôle crucial dans la détermination de la meilleure option. Les entreprises ayant un niveau de tolérance élevé préféreront la reprise après incident dans le cloud, tandis que celles ayant des niveaux de tolérance relativement faibles et des exigences de RTO/RPO strictes opteront pour le DRaaS.

Un livre blanc de Creative ITC remarque que les solutions traditionnelles de réplication et de reprise après incident ne peuvent pas gérer efficacement la complexité informatique actuelle. Par conséquent, la complexité et l'étendue toujours plus importantes du paysage informatique moderne font des solutions cloud comme le DRaaS et la reprise après incident dans le cloud des propositions de plus en plus attrayantes.

Comment Veritas peut vous aider

Veritas aide les entreprises à gérer et à protéger leurs données critiques à l'aide de son portefeuille de produits intégré, afin de fournir une expérience de gestion des données unifiée et d'offrir des performances et une polyvalence inégalées.

Veritas fournit divers services, notamment le cloud computing, la récupération système, la protection de la cybersécurité, la résilience des données et la conformité.

Veritas System Recovery fournit une solution de sauvegarde et de reprise après incident supérieure et unifiée pour les serveurs, les ordinateurs portables et les ordinateurs de bureau afin d'aider les entreprises à retrouver leur fonctionnement normal en quelques minutes après un incident ou des temps d'arrêt. Grâce à la technologie brevetée Restore Anyware de Veritas, les administrateurs informatiques ou les utilisateurs peuvent rapidement restaurer ce dont ils ont besoin, au moment et à l'endroit requis, y compris des machines physiques ou virtuelles, des applications, des fichiers et des dossiers.

Veritas System Recovery fournit également des restaurations multiplateformes de physique à virtuel (P2V), de virtuel à virtuel (V2V) et de virtuel à physique (V2P), ce qui en fait le complément parfait des environnements physiques et virtuels.

Conclusion

La planification de la reprise après incident dans le cloud computing doit être une préoccupation pour les organisations. Elle rend le processus de sauvegarde des données et de reprise après incident flexible, évolutif et efficace. En outre, les organisations peuvent créer une stratégie qui évite les erreurs dans la reprise après incident dans le cloud, en concevant des stratégies de récupération qui répondent exactement à leurs spécifications, en tenant compte de leurs RTO et RPO.

De nombreuses petites et moyennes entreprises se tournent vers le DRaaS pour réaliser des économies et gagner en efficacité. Dans le même temps, les grandes entreprises préfèrent la reprise après incident dans le cloud avec le cloud hybride et parfois des data centers sur site pour des stratégies de reprise après incident et de continuité des affaires complètes.

Les organisations continuent d'adopter et d'explorer le cloud comme leur moyen de choix pour fournir des services informatiques. Grâce aux stratégies de reprise après incident basées sur le cloud, les entreprises peuvent désormais protéger leurs données et leurs applications grâce à des investissements contrôlés et prévisibles, tout en profitant de prix réduits, d'évolutivité, de conditions de contrat flexibles et d'une résilience accrue.

 

Veritas compte parmi ses clients 95 % des entreprises du Fortune 100, et NetBackup™ est le premier choix des entreprises qui souhaitent sauvegarder de grandes quantités de données.

 

Découvrez comment Veritas assure la protection totale de vos données sur les charges de travail virtuelles, physiques, , en nuage et héritées avec ses services de protection des données pour les entreprises.

Contactez-nous aujourd'hui pour recevoir un appel de la part de l'un de nos représentants.