Centre d'information

Guide complet sur la déduplication des données et son importance

Chaque jour, les entreprises enregistrent de nombreuses informations critiques dans leurs bases de données. Elles sauvegardent les données de manière automatique, et des données sont donc continuellement recopiées et réenregistrées. Par conséquent, l'espace de stockage de données s'encombre inutilement au fil du temps, avec des copies de données redondantes, ce qui coûte de l'argent à mesure que les exigences en matière de données augmentent, et ralentit les délais de traitement.

La déduplication des données est donc nécessaire.

La déduplication élimine les données redondantes pour réduire les besoins de stockage. Cette technologie, autrefois de pointe, est devenue une élément essentiel pour de nombreuses entreprises. Elle est apparue pour la première fois en 2003 lorsque des entreprises ont souhaité abandonner le stockage sur bande au profit de sauvegardes sur disque pour améliorer leurs performances.

Une décennie plus tard, la déduplication des données est une norme dans les produits de sauvegarde tels que les appliances NetBackup de Veritas, ce qui en fait un outil précieux pour les stratégies de protection des données d'entreprise.

Toutefois, il existe de nombreux éléments à prendre en compte lorsque vous choisissez la technologie de déduplication des sauvegardes à appliquer à votre entreprise. Vous devez tenir compte des types de déduplication disponibles, du fonctionnement de la stratégie, des facteurs affectant la déduplication, de la manière dont elle diffère de la compression, et de sa mise en œuvre dans les environnements de virtualisation.

Ce guide complet de la déduplication des données clarifie tous ces éléments et explique comment Veritas construit une technologie de déduplication des données avancée dans les serveurs de médias de ses appliances NetBackup. En effet, Veritas a créé le pool de déduplication du serveur de médias NetBackup (MSDP), avec plus de 80 brevets concernant spécifiquement la déduplication.

MSDP assure la déduplication sur le cloud avec une compression et un chiffrement, des délais de sauvegarde plus courts, et une restauration plus rapide à l'échelle.

Qu'est-ce que la déduplication des données ?

Le processus de déduplication des données élimine les copies de données redondantes et réduit les délais de traitement d'un système logiciel. En effet, chaque sauvegarde de données du système logiciel entraîne la copie et le stockage d'ensembles de données importants. Avec le temps, des quantités importantes de stockage de données sont nécessaires. Par conséquent, la déduplication des données optimise le stockage des données pour s'assurer que l'entreprise ne copie et ne stocke qu'une instance de données unique.

Au niveau élémentaire, la déduplication élimine les segments de données non uniques au sein des ensembles de données. Si l'on considère cette définition, la déduplication n'est pas très différente de la compression. Toutefois, ce qui distingue la déduplication de la compression est la réduction des données par rapport aux données historiques, qui permet de réaliser des économies de stockage et d'éviter de copier des données identiques à partir de différentes sources.

Avant l'apparition de la déduplication, la compression était la principale activité d'économie de stockage. Avec la compression, les solutions de sauvegarde compressaient des flux de données pendant l'écriture des données sur une bande ou un disque de sauvegarde. Toutefois, la compression ne permet de réaliser des économies qu'à ce moment-là. Il était donc possible de compresser une même sauvegarde de données à un autre moment, ce qui pouvait occuper une quantité d'espace équivalente.

La déduplication est différente car elle segmente les données et les compare à une matrice représentant des données précédemment écrites. Par conséquent, les segments uniques sont envoyés au stockage, tandis que les segments non uniques créent une référence aux instances uniques de données segmentées similaires.

Par exemple, le système de messagerie d'une entreprise peut contenir 50 instances de la même pièce jointe d'un mégaoctet (Mo). Si la plate-forme est sauvegardée sans déduplication, les 50 instances seront enregistrées, nécessitant 50 Mo d'espace de stockage. En revanche, avec la déduplication, une seule instance de la pièce jointe peut être stockée. Les instances suivantes référencent la copie enregistrée. Par conséquent, le stockage nécessaire passe de 50 Mo à 1 Mo.

Fonctionnement de la déduplication des données

Pour faire simple, le processus de déduplication des données commence par la division de l'ensemble de données en différents segments. Un segment est composé d'un ou de plusieurs blocs de données contigus. La manière dont le processus divise les segments et l'emplacement où cette division a lieu dépendent des brevets. Cependant, une fois que le processus a créé une série de segments, il les compare à tous les segments précédemment créés et rencontrés par le système de déduplication.

Le système compare les segments en exécutant un algorithme de hachage de chiffrement déterministe qui crée un hachage. Si les hachages de deux différents segments correspondent, le système considère que les segments sont identiques, étant donné que même les plus subtiles différences modifient le hachage d'un segment. Par exemple, si l'algorithme de hachage de chiffrement crée un hachage de 160 bits nommé SHA-1 pour un segment de 8 Mo, le système économise près de 8 Mo chaque fois qu'il sauvegarde ce segment. Ainsi, la déduplication des données permet d'économiser des quantités importantes d'espace.

Le processus de déduplication élimine les blocs de données en double et ne stocke que les blocs de données uniques. Il s'appuie sur la signature numérique unique des blocs de données. Par conséquent, le moteur de déduplication en continu examine les blocs de données entrants, développe une signature pour chacun d'entre eux et la stocke dans un stockage de hachage lorsque le système écrit les données (structure de données en mémoire).

Après avoir calculé la signature, le processus effectue une recherche dans le stockage de hachage. Il examine ensuite les blocs de données qui correspondent à la signature dédupliquée de la mémoire cache (bloc donneur). S'il détecte une correspondance dans le stockage de hachage, l'un des deux événements suivants se produit :

  • En cas de correspondance, il compare le nouveau bloc de données (receveur) et le bloc donneur pour vérification. Le système vérifie les données entre les deux blocs sans inscrire le bloc receveur sur le disque. Il met ensuite à jour les métadonnées pour suivre les détails du partage.
  • Si le bloc donneur n'est pas disponible dans la mémoire cache, le système le pré-extrait du disque pour le comparer octet par octet au bloc receveur dans le cache. S'il s'agit d'une correspondance exacte, le système signale que le bloc receveur est un double, sans l'écrire sur le disque, mais en mettant à jour les métadonnées pour suivre les détails du partage.

Le moteur de déduplication en arrière-plan fonctionne de la même manière. Il recherche tous les blocs de données en vrac. Il compare les signatures des blocs et effectue des comparaisons octet par octet pour éliminer les faux positifs et supprimer les doublons. Le processus ne perd aucune donnée.

Types de déduplication des données

Bien qu'il ne soit pas difficile de créer un moteur de déduplication, il n'est pas facile de créer une solution évolutive, tolérante aux pannes et optimisée pour les performances. La façon dont a lieu la déduplication et son emplacement ont une grande influence sur la qualité du service. Voici les principaux types de déduplication :

1.    Déduplication post-traitement

Forme de déduplication la moins efficace, la déduplication post-traitement nécessite un cache de disque volumineux afin de stocker temporairement un ensemble de données complet, ainsi qu'un cache de disque supplémentaire pour les données dédupliquées. En effet, elle n'applique le processus de déduplication qu'après l'écriture des données sur le disque cible, où le traitement a lieu à l'aide d'une méthode de déduplication post-traitement. Les données sont ensuite stockées dans un référentiel de déduplication.

Bien qu'elle permette d'obtenir des données de la source sans se soucier du temps de traitement, cette technique entraîne une utilisation de l'espace inefficace, menant à des problèmes d'intégrité des données. En raison de ces inconvénients, Veritas n'offre pas de services de déduplication post-traitement.

2.    Déduplication en continu

La déduplication en continu applique le processus de déduplication au flux de données avant de l'inscrire sur le stockage. Il n'inscrit que les segments de données uniques sur le stockage.

  • La déduplication en continu au niveau de la cible signifie que toutes les données stockées sont diffusées vers le dispositif cible et dédupliquées en même temps qu'elles sont écrites sur le stockage.
  • La déduplication en continu au niveau de la source signifie que la déduplication des données par rapport aux données écrites a lieu avant qu'elles ne soient envoyées au dispositif cible.

La déduplication côté source est efficace du point de vue du transport des données, car elle réduit considérablement la quantité de données que l'entreprise a besoin d'envoyer sur le réseau. Heureusement, la déduplication de Veritas effectue à la fois une déduplication en continu côté source et côté cible et une compression.

Voici les méthodes de déduplication des données les plus courantes :

  • Déduplication des fichiers : fait référence à la déduplication au niveau du fichier, qui examine le fichier dans son ensemble plutôt que son contenu. Les fonctions de déduplication suppriment les fichiers en double et référencent l'original. Cependant, cette méthode ne traite pas le contenu en double au sein du fichier.
  • Déduplication par segmentation : divise les données en segments et exécute un algorithme de hachage pour créer un hachage unique de cet ensemble de données. Comme pour la déduplication des fichiers, le système supprime les hachages en double et conserve l'original.
  • Déduplication des sous-fichiers : évalue les contenus de fichiers individuels pour rechercher le contenu en double et le supprimer. Cette méthode divise le contenu en blocs de fichiers et les compare les uns aux autres pour supprimer le contenu en double et économiser de l'espace de stockage.
  • Déduplication de sauvegarde client : également appelée déduplication source, elle a lieu sur le programme de sauvegarde de client interne et utilise la méthode de segmentation pour supprimer les données en double.
  • Déduplication de serveur Windows : permet aux utilisateurs de stocker les données une seule fois, tout en créant des pointeurs intelligents vers leur emplacement. Microsoft ne cesse d'améliorer la déduplication Windows. Par exemple, Windows Server 2019 peut désormais dédupliquer des volumes NTFS et ReFS.

Pourquoi la déduplication des données est-elle importante ?

Même si les capacités des disques augmentent continuellement, les fournisseurs de stockage de données recherchent des méthodes permettant d'aider les clients à stocker leurs volumes de données en constante augmentation sur des dispositifs de stockage et de sauvegarde. En outre, il est logique d'étudier les possibilités d'optimisation du stockage des données et de la capacité de disque potentielle.

Par conséquent, les fournisseurs de stockage et de sauvegarde s'appuient sur des stratégies de réduction des données telles que la déduplication et la compression. Elles permettent aux clients de stocker efficacement une quantité de données supérieure à la capacité de leurs supports de stockage. Ainsi, si le client bénéficie d'une réduction de facteur 5 grâce à différents mécanismes de réduction des données, il peut théoriquement stocker jusqu'à 50 To de données sur une baie de disques de stockage de 10 To.

Considérez le scénario suivant :

Une organisation exécute un environnement de bureau virtuel prenant en charge 200 postes de travail identiques, qui stockent leurs données sur une baie de disques de stockage coûteuse achetée spécifiquement à cet effet. Supposez que l'entreprise exécute des copies de Windows 10, Office 2013 et 2016, d'un logiciel ERP et de nombreux autres outils logiciels dont les utilisateurs ont besoin, et que chaque image de poste de travail consomme environ 25 Go d'espace disque. Les 200 postes de travail consommeront 5 To de capacité.

La déduplication permet à l'entreprise de stocker une copie des machines virtuelles individuelles tandis que les baies de disques de stockage placent des pointeurs vers le reste. Par conséquent, chaque fois que le moteur de déduplication identifie une ressource de données identique déjà stockée dans l'environnement, il enregistre un petit pointeur au lieu d'une nouvelle copie des données. De cette manière, la déduplication libère des blocs de stockage.

Facteurs affectant la déduplication des données

Une planification minutieuse du déploiement de la déduplication est nécessaire pour assurer que les données protégées sont correctement dédupliquées. Différents types de données peuvent bénéficier de différents niveaux de déduplication en fonction de leur nature. Par exemple, des fichiers image, des images virtuelles, des données compressées, des données chiffrées et des flux NDMP ne sont pas les mieux adaptés à la déduplication.

En outre, les bases de données avec un taux élevé de changement peuvent nécessiter plus d'efforts pour présenter les données d'une manière permettant d'obtenir des résultats de déduplication optimaux. Le processus de déduplication de Veritas peut mettre en œuvre des politiques distinctes dans NetBackup pour différents types de données en fonction de leur degré de sensibilité à la déduplication.

Veritas a conçu deux méthodes différentes pour améliorer la déduplication des données :

  • Segmentation adaptative à longueur variable
  • Segmentation à longueur fixe avec gestionnaires de flux

MSDP utilise des gestionnaires de flux intelligents qui exploitent la technologie Veritas pour optimiser le flux pour la déduplication en fonction du type de données. En outre, les gestionnaires de flux sont adaptatifs et sensibles aux données, ils peuvent donc contribuer à améliorer l'efficacité du stockage et les performances de sauvegarde en fonction du type de données ingérées.

Par conséquent, le flux de données obtient systématiquement des taux de déduplication élevés à grande vitesse avec la segmentation à longueur fixe. De plus, les gestionnaires de flux sont utilisés dans les sauvegardes de système de fichiers standard et dans VMWare, NetApp, EMC, NDMP, Hyper-V et d'autres solutions basées sur les instantanés telles que FlashBackup.

Veritas a intégré la segmentation adaptative à longueur variable (VLD) dans NetBackup pour obtenir des résultats de déduplication optimaux lorsque le client ne peut pas utiliser de gestionnaire de flux. La segmentation VLD utilise des plages de taille de segment définies pour déterminer la segmentation optimale pour les données dédupliquées, permettant d'obtenir les meilleurs résultats possibles pour les données opaques, tout en utilisant plus efficacement la puissance de l'UC que la segmentation à longueur fixe.

NetBackup, les appliances virtuelles NetBackup et les appliances NetBackup peuvent créer un pool de déduplication qui s'étend au-delà des frontières des racks et qui permet d'utiliser les racks de disques pour d'autres formes de stockage. En outre, MSDP permet aux entreprises de choisir entre la segmentation à longueur fixe, la segmentation à longueur variable et aucune déduplication sur un serveur de médias.

Aujourd'hui, de nombreuses applications utilisent le chiffrement au repos, et cela s'accentue encore davantage en raison des tendances de sécurité du secteur. NetBackup ne nécessite pas de racks de stockage dédiés pour le stockage des données, ce qui signifie que ces charges de travail sont dirigées vers un pool de stockage non dédupliqué, et permet de réaliser jusqu'à 200 % d'économies en matière de coûts de stockage. C'est un fait à prendre en compte lors de la comparaison des tarifs des différents fournisseurs.

Avantages de la déduplication des données

La déduplication des données est essentielle car elle réduit considérablement l'espace de stockage nécessaire, permet de faire des économies et réduit la quantité de bande passante utilisée pour le transfert de données vers les emplacements de stockage à distance et à partir de ceux-ci. Elle permet également d'améliorer la mise à l'échelle et l'efficacité lors du stockage et de la récupération de données à partir d'une source. Un grand nombre de données similaires stockées à différents emplacements ralentit l'ensemble du système.

Voici d'autres avantages :

  • Création de capacité de sauvegarde grâce à la réduction de la redondance, en particulier pour les sauvegardes complètes
  • Validation continue des données contrairement au simple stockage des données de sauvegarde, qui ne découvre les problèmes que lors de la restauration
  • Taux de restauration des données plus élevé, grâce à la précision, la rapidité et la fiabilité du processus
  • Prise en charge optimale de la restauration des données de sauvegarde après incident, car la déduplication offre une excellente capacité d'optimisation
  • Réduction de l'encombrement des données
  • Utilisation de moins de bande passante lors de la copie des données pour la réplication, les sauvegardes à distance et la reprise après incident
  • Périodes de conservation plus longues
  • Réduction des sauvegardes sur bande, avec des objectifs de délai de récupération réduits

Différences entre la déduplication et la compression des données

La déduplication des données recherche les segments de données en double et place des pointeurs au lieu de copier de nouveau les segments, tandis que la compression réduit le nombre de bits de stockage requis pour représenter les données. Ces deux techniques différentes font partie des stratégies de réduction des données visant à maximiser la capacité de stockage.

Cas d'utilisation de la déduplication des données

Voici les domaines dans lesquels la déduplication est applicable :

Serveurs de fichiers à usage général

Ces serveurs de fichiers ont de nombreux objectifs et peuvent contenir les partages suivants :

  • Dossiers de base pour les utilisateurs
  • Dossiers de travail
  • Partages entre groupes
  • Partages de développement logiciel

Plusieurs utilisateurs ont de nombreuses copies de données et révisions du même fichier, ce qui rend les serveurs de fichiers à usage général adaptés à la déduplication. En outre, cela est également bénéfique pour les partages de développement logiciel car de nombreux fichiers binaires restent principalement inchangés d'une version à l'autre.

Déploiements d'infrastructures de bureau virtuel (VDI)

Les serveurs VDI tels que les services de bureau à distance sont une manière efficace pour les entreprises de fournir des PC à leurs employés. Voici quelques raisons d'utiliser cette technologie :

  • Permet le déploiement d'applications dans toute l'organisation, ce qui est utile pour les applications régulièrement mises à jour, rarement utilisées ou difficiles à administrer.
  • Permet la consolidation des applications en éliminant le besoin de mises à jour logicielles sur les ordinateurs des clients car elle les installe et les exécute à partir de machines virtuelles contrôlées de manière centralisée.
  • Permet un accès à distance aux programmes d'entreprise à partir des appareils personnels, avec parfois des systèmes d'exploitation différents.
  • Permet aux succursales d'accéder aux applications et améliore les performances des applications pour les employés des succursales qui ont besoin d'accéder aux référentiels de données centralisés.

Les déploiements VDI sont d'excellents candidats pour la déduplication des données car les disques durs virtuels des postes de travail à distance sont quasi identiques.

Cibles de sauvegarde

Les applications de sauvegarde virtualisées sont des cibles de sauvegarde en raison de la déduplication efficace entre les instantanés de sauvegarde. Par conséquent, les programmes de sauvegarde sont de parfaits candidats pour la déduplication.

Déduplication des données pour la sauvegarde et la reprise après incident

La technologie de déduplication permet de réaliser des économies significatives lorsqu'elle est utilisée dans l'infrastructure de sauvegarde. Cependant, de manière logique, les images de sauvegarde finiront par générer des données en double.

Par exemple, il est courant que plusieurs parties travaillent sur les mêmes ensembles de données ou documents. Cela peut entraîner la duplication partielle ou totale de données dans de nombreux systèmes, ce qui est inefficace et coûteux. De plus, les scénarios imposant des exigences de conservation des données pendant plusieurs années peuvent entraîner le stockage de quantités importantes.

Le stockage sur bande était au départ la solution la plus rentable pour la conservation des données. Toutefois, le coût du stockage de toutes ces données est devenu un problème majeur. Bien que les coûts de sauvegarde sur bande soient inférieurs à ceux des ensembles de baies, ce n'est pas une solution idéale car ce support a tendance à occuper trop d'espace physique.

Le stockage sur bande entraîne aussi un encombrement des datacenters important pour le matériel de gestion spécialisé. L'expédition et le stockage des données à long terme et d'autres défis logistiques sont rencontrés lors de l'acheminement des bandes vers l'emplacement où elles sont requises. Cela entraîne des temps d'arrêt au cours des situations de restauration d'urgence et a un impact important sur la capacité opérationnelle et le coût total de possession.

Veritas a pris en compte tous ces éléments pour développer une solution de protection des données complète, sous la forme d'un moteur de stockage de déduplication des données intégré et puissant. Nous avons intégré MSDP et NetBackup pour créer une solution complète dans une seule application. Ainsi, notre format de déduplication des données est désormais hautement portable avec de nouvelles possibilités. En outre, il facilite la réplication des données dans divers emplacements et sur différentes cibles.

Enfin, les clients NetBackup prennent en charge la déduplication côté client, tandis que MSDP ne limite pas le nombre de flux entrants et ne refuse pas de connexions, contrairement à d'autres solutions de déduplication des données.

Déduplication dans les environnements de virtualisation

Les solutions de virtualisation ont créé de nouvelles opportunités mais également de nouvelles complexités. Par exemple, de nombreuses entités virtuelles partagent généralement une infrastructure de base commune, ce qui conduit à l'expansion des machines virtuelles où des milliers d'hôtes partagent des ensembles de données ou un modèle standard tout en ayant des éléments uniques. Protéger ces points tout en maintenant l'indépendance des systèmes invités pourrait entraîner le stockage de quantités importantes de données historiques.

La déduplication aide à protéger toutes les données. NetBackup MSDP protège les données de machines virtuelles (VM) et offre une capacité de restauration opérationnelle et après incident instantanée. De plus, les clients peuvent tirer parti des appliances NetBackup et de NetBackup Universal Share avec MSDP pour assurer un accès instantané aux fichiers individuels des VM ou aux copies secondaires des VM pour la réplication, les tests ou d'autres utilisations.

NetBackup permet également aux administrateurs de sauvegarde d'exclure des données contenues dans les fichiers d'échange et de pagination des systèmes d'exploitation invités, ce qui réduit la quantité de données à sauvegarder et à compresser.

Ainsi, la déduplication des données dans les environnements de virtualisation aide à récupérer de l'espace et facilite l'écriture sans nécessiter de supprimer les segments de données qui ne sont plus nécessaires. MSDP est doté d'un processus breveté appelé « rebase » permettant de simplifier le nettoyage des données et la déduplication des données dans les environnements cloud.

Serveur de stockage MSDP

Un serveur de stockage MSDP est une entité qui écrit les données sur un stockage et les lit à partir de celui-ci. Un hôte est le serveur de stockage et doit être un serveur de médias NetBackup, avec un seul existant pour chaque nœud de déduplication NetBackup. En outre, alors que le composant du serveur de stockage s'exécute sur un serveur de médias, il constitue une entité logique distincte. Voici les fonctions du serveur de stockage MSDP :

  • Il reçoit les sauvegardes des clients et déduplique les données.
  • Il reçoit les données dédupliquées des clients et d'autres serveurs de médias.
  • Il permet aux paramètres de configuration des clients NetBackup et des autres serveurs de médias de dédupliquer les données, ce qui signifie que le serveur de stockage ne reçoit les données qu'après la déduplication.
  • Il gère la déduplication des données dans le stockage.
  • Il écrit et lit les données dédupliquées à partir du stockage sur disque.
  • Il gère le processus de déduplication.

Le nombre de serveurs de stockage et de nœuds que vous configurez dépend des exigences de stockage et de l'utilisation ou non de réplication ou de duplication optimisée.

Déduplication des données avec les appliances NetBackup

NetBackup et les appliances virtuelles permettent aux entreprises de déployer des services MSDP de manière sécurisée, flexible, évolutive et facile à gérer. Une seule appliance NetBackup prend en charge jusqu'à 960 To de données dédupliquées, tandis que l'appliance virtuelle en prend en charge 250 To. En outre, chaque appliance de serveur de médias NetBackup héberge des données dédupliquées et non dédupliquées.

L'appliance NetBackup exécute un seul système d'exploitation sécurisé plutôt que plusieurs machines virtuelles (VM) avec différents systèmes d'exploitation. Toutefois, cette dernière solution est moins sécurisée car elle augmente la surface d'attaque potentielle.

Les appliances NetBackup offrent une protection et une capacité de détection des intrusions grâce à des contrôles d'accès basés sur les rôles et à la sécurité systémique des datacenters (SDCS). Elles comprennent également la validation FIPS 140-2 sans frais supplémentaires.

En outre, les appliances NetBackup offrent aux entreprises les vitesses de restauration élevées dont elles ont besoin pour restaurer leurs systèmes à grande échelle. La technologie prend en charge plusieurs restaurations simultanées sans limitation ni exigences supplémentaires telles que les disques SSD.

Veritas dispose également d'une équipe complète d'ingénieurs et d'experts en performances qui testent et valident les performances des versions des appliances NetBackup.

Conclusion

Alors que les entreprises développent leurs activités, la gestion de volumes de données importants est cruciale pour assurer l'efficacité et permettre des économies. La déduplication des données permet aux entreprises de gérer des données volumineuses de la meilleure manière possible.

Les appliances Veritas NetBackup sont des solutions technologiques de pointe pour la protection et la déduplication des données. Elles fournissent également des capacités de chiffrement et de compression des données dans un environnement sécurisé, hautement performant et évolutif.

Les appliances NetBackup avec la technologie MSDP permettent de réaliser des économies importantes grâce à l'encombrement réduit des sauvegardes et à l'optimisation des taux de transfert de données. En outre, les appliances virtuelles NetBackup étendent les services MSDP au cloud et à d'autres environnements virtuels.

 

Veritas compte parmi ses clients 95 % des entreprises du Fortune 100, et NetBackup™ est le premier choix des entreprises qui souhaitent sauvegarder de grandes quantités de données.

 

Découvrez comment Veritas assure la protection totale de vos données dans les charges de travail virtuelles, physiques, cloud et héritées avec ses services de protection des données pour les entreprises.

Contactez-nous aujourd'hui pour recevoir un appel de la part de l'un de nos représentants.