Hoy en día, las organizaciones guardan mucha información crítica en sus bases de datos a diario. Realizan copias de seguridad de los datos en piloto automático, lo que naturalmente provoca una recopia y un reguardado continuos de los datos. Como resultado, el almacenamiento de datos se sobrecarga innecesariamente con el tiempo con copias de datos redundantes, lo que cuesta dinero a medida que los requisitos de datos crecen y los tiempos de procesamiento se vuelven más lentos.
De ahí la necesidad de la eliminación de datos duplicados.
Esta función elimina los datos redundantes para reducir las necesidades de almacenamiento. La tecnología ha pasado de ser la vanguardia a convertirse en convencional. Apareció por primera vez en 2003, cuando las organizaciones querían abandonar el almacenamiento en cinta y pasar a las copias de seguridad en disco por su rendimiento.
Una década más tarde, la eliminación de datos duplicados es un estándar en los productos de copia de seguridad como NetBackup Appliances de Veritas, lo que la convierte en una valiosa herramienta en una estrategia de protección de datos empresariales .
Sin embargo, hay muchos elementos que debe tener en cuenta al elegir la tecnología de eliminación de datos duplicados adecuada para su empresa. Hay que tener en cuenta cuestiones como los tipos de eliminación de datos duplicados disponibles, el funcionamiento de la tecnología, los factores que la afectan, la diferencia con la compresión y la deduplicación con entornos de virtualización.
Esta guía completa sobre la eliminación de datos duplicados explica todo esto y cómo Veritas integra esta tecnología avanzada en sus servidores de appliance de NetBackup. Por ello, Veritas ha diseñado NetBackup Media Server Deduplication Pool (MSDP) con más de 80 patentes específicas sobre eliminación de datos duplicados.
MSDP garantiza la deduplicación en la nube con compresión y cifrado, tiempos de copia de seguridad más cortos y una recuperación más rápida a escala.
El proceso de eliminación de datos duplicados, también llamado “deduplicación”, elimina las copias de datos redundantes y reduce el tiempo de procesamiento de un sistema de software. Como resultado, cada copia de seguridad de datos del sistema de software da como resultado copiar y almacenar grandes conjuntos de datos. Con el tiempo, requiere una cantidad significativa de almacenamiento de datos. Por lo tanto, la eliminación de datos duplicados optimiza el almacenamiento de datos para garantizar que la organización solo copie y almacene una instancia de datos única.
A nivel básico, la eliminación de datos duplicados elimina los segmentos de datos no únicos dentro de los conjuntos de datos. A partir de esta definición, la deduplicación no es tan diferente de la compresión. Sin embargo, su verdadera distinción es la reducción de datos con respecto a los datos históricos, lo que permite ahorrar en almacenamiento y evitar la copia de datos similares de múltiples fuentes.
La compresión era la principal actividad de ahorro de almacenamiento antes de la deduplicación. Durante la compresión, las soluciones de copia de seguridad comprimían flujos de datos a medida que los datos se escribían en una cinta o disco de copia de seguridad. Sin embargo, el ahorro en compresión solo se producía en ese momento. Así, era posible comprimir una copia de seguridad de datos similar en otro momento, que podía ocupar una cantidad de espacio equivalente.
La eliminación de datos duplicados es diferente porque segmenta los datos y los compara con una matriz que representa los datos escritos anteriormente. Como resultado, los segmentos únicos se envían al almacenamiento, mientras que los no únicos crean una referencia a las instancias únicas de datos segmentados similares.
Por ejemplo, el sistema de correo electrónico de una empresa puede contener 50 instancias del mismo archivo adjunto de un megabyte (MB). Si se realiza una copia de seguridad de la plataforma sin deduplicación, se guardarán las 50 instancias, lo que requerirá 50 MB de espacio de almacenamiento. Sin embargo, la deduplicación hace que solo se guarde una instancia del archivo adjunto del correo electrónico, y cada instancia posterior hace referencia a la copia guardada. Por lo tanto, la demanda de almacenamiento de 50 MB se reduce a solo un MB.
En los términos más simples, el proceso de eliminación de datos duplicados comienza dividiendo en segmento el conjunto de datos para la eliminación de datos duplicados Un fragmento consiste en uno o más bloques de datos contiguos. Cómo y dónde divide el proceso los trozos está sujeto a patentes individuales. Sin embargo, una vez que el proceso crea una serie de fragmentos, los compara con todos los fragmentos anteriores ya hechos y vistos por el sistema de eliminación de datos duplicados.
El sistema compara fragmentos ejecutando un algoritmo criptográfico determinista que crea un hash. Si los hashes de dos fragmentos diferentes coinciden, el sistema los considera idénticos, ya que incluso el cambio más leve cambia los hashes de fragmentos. Por ejemplo, si el algoritmo de hash criptográfico crea un hash de 160 bits llamado SHA-1 para un fragmento de ocho MB, el sistema ahorra casi ocho MB cada vez que realiza una copia de seguridad de ese fragmento. Por lo tanto, la eliminación de datos duplicados es un ahorro de espacio importante.
El proceso de eliminación de datos duplicados elimina los bloques de datos duplicados y almacena únicamente los bloques de datos únicos. Se basa en “huellas dactilares”: firmas digitales únicas para bloques de datos. Por lo tanto, el motor de eliminación de datos duplicados en línea examinará los bloques de datos entrantes, desarrollará una huella digital para cada uno y la almacenará en un almacén de hashes cuando el sistema escriba los datos (estructura de datos en memoria).
Después de calcular la huella digital, el proceso realiza una búsqueda en el almacén de hashes. A continuación, examina los bloques de datos que coinciden con la huella digital duplicada de la memoria caché (bloque donante). Si encuentra una coincidencia en el almacén de hashes, sucede una de estas dos cosas:
El motor de duplicación en segundo plano funciona de forma similar. Busca todos los blocks de datos en masa. Compara las huellas dactilares de los bloques realiza comparaciones de byte a byte para eliminar falsos positivos y eliminar duplicados. El proceso no pierde ningún dato.
Aunque no es difícil crear un motor de eliminación de datos duplicados, no es fácil crear una solución optimizada para el rendimiento y tolerante a fallos que sea escalable. Cómo y dónde se produce la deduplicación marca una diferencia significativa en la calidad del servicio. A continuación se presentan los principales tipos de deduplicación:
Al ser la forma menos eficiente de deduplicación, la deduplicación post-proceso requiere una gran caché de disco para almacenar temporalmente un conjunto completo de datos más otra caché de disco para los datos deduplicados. Por lo tanto, no aplica el proceso de eliminación de datos duplicados hasta después de escribir correctamente los datos en el disco de destino, donde el procesamiento se realiza mediante un método posterior al procesamiento. A continuación, almacena los datos en un depósito de deduplicación.
Aunque ayuda a obtener los datos de la fuente sin preocuparse por el tiempo de procesamiento, da lugar a un uso ineficiente del espacio, lo que provoca problemas de integridad de los datos. Debido a estos inconvenientes, la deduplicación de Veritas no ofrece deduplicación post-proceso.
La deduplicación en línea aplica el proceso de deduplicación al flujo de datos antes de escribirlo en el almacenamiento. Solo escribe segmentos de datos únicos en el almacenamiento.
La deduplicación en el lado de la fuente es eficiente desde el punto de vista del transporte de datos, ya que reduce drásticamente la cantidad de datos que la organización necesita enviar a través de la red. Afortunadamente, la eliminación de datos duplicados de Veritas realiza la eliminación de datos duplicados y la compresión tanto en línea de origen como de destino.
A continuación se presentan otros métodos comunes de deduplicación de datos:
Aunque las capacidades de disco aumentan continuamente, los proveedores de almacenamiento de datos siguen buscando métodos para ayudar a los clientes a almacenar sus crecientes conjuntos de datos en dispositivos de almacenamiento y copia de seguridad. Además, tiene sentido explorar las oportunidades para ayudar a maximizar el almacenamiento de datos y la capacidad potencial del disco.
Por lo tanto, los proveedores de almacenamiento y copia de seguridad dependen de estrategias de reducción de datos, como eliminación de datos duplicados y compresión. Permiten a los clientes almacenar eficazmente más datos de lo que sugiere la capacidad de sus medios de almacenamiento. Por lo tanto, si el cliente obtiene un beneficio de cinco a uno (5:1) de varios mecanismos de reducción de datos, puede almacenar teóricamente hasta 50 TB de datos en una matriz de almacenamiento de 10 TB.
Considere la siguiente situación:
Una organización ejecuta un entorno de escritorio virtual que admite 200 estaciones de trabajo idénticas que almacenan sus datos en una costosa matriz de almacenamiento adquirida explícitamente para ese fin. Supongamos que la organización ejecuta copias de Windows 10, Office 2013 y 2016, software ERP y muchas otras herramientas de software que requieren los usuarios, y que cada imagen de la estación de trabajo consume alrededor de 25 GB de espacio en disco. Las 200 estaciones de trabajo consumirán cinco terabytes de capacidad.
La deduplicación permite a la organización almacenar una copia de las máquinas virtuales individuales mientras la matriz de almacenamiento coloca punteros al resto. Por lo tanto, cada vez que el motor de deduplicación encuentra un activo de datos idéntico ya almacenado en el entorno, guarda un pequeño puntero en la copia de datos en lugar de copiarlos de nuevo. De esta manera, la eliminación de datos duplicados libera bloques de almacenamiento.
Es necesario planificar cuidadosamente el despliegue de la deduplicación para garantizar que los datos protegidos se dedupliquen bien. Los distintos tipos de datos pueden obtener diferentes niveles de deduplicación en función de su composición. Por ejemplo, los archivos de imagen, las imágenes virtuales, los datos comprimidos, los datos cifrados y las secuencias de NDMP no se deduplican bien.
Además, las bases de datos con un alto índice de cambios pueden requerir más esfuerzo para garantizar la presentación de los datos de manera que se obtengan resultados óptimos de la deduplicación. El proceso de deduplicación de Veritas puede implementar políticas separadas dentro de NetBackup para diferentes tipos de datos en función de su capacidad de deduplicación.
Veritas ha diseñado dos métodos diferentes para mejorar la eliminación de datos duplicados:
MSDP utiliza gestores de flujo inteligentes que emplean la tecnología de Veritas para optimizar el flujo para la deduplicación en función del tipo de datos. Además, los gestores de flujos son adaptativos y conscientes de los datos, por lo que ayudan a mejorar la eficiencia del almacenamiento y el rendimiento de las copias de seguridad en función del tipo de datos ingeridos.
Como resultado, el flujo de datos se convierte en algo que logra tasas de deduplicación consistentemente buenas a altas velocidades con una segmentación de longitud fija. Además, involucra a los controladores de flujos en las copias de seguridad estándar del sistema de archivos y VMware, NetApp, EMC NDMP, Hyper-V y otras soluciones basadas en instantáneas, como FlashBackup.
Veritas introdujo la segmentación adaptativa de longitud variable (VLD) en NetBackup para obtener resultados óptimos de deduplicación cuando el cliente no puede emplear un gestor de flujos. VLD utiliza rangos de tamaño de segmento definidos para encontrar la segmentación óptima para los datos deduplicados, lo que permite obtener los mejores resultados para los datos opacos mientras utiliza la potencia de CPU mejor que la segmentación de longitud fija.
NetBackup, NetBackup Virtual Appliances, y NetBackup Appliances pueden crear un pool de deduplicación que se extienda más allá de los límites de los estantes (shelves) de discos y que no les dificulte hacer otros tipos de almacenamiento. Además, MSDP permite a las organizaciones seleccionar entre longitud fija, longitud variable y sin deduplicación en un servidor de medios.
Muchas de las aplicaciones actuales utilizan el cifrado en reposo, que las tendencias de seguridad del sector impulsan rápidamente. NetBackup no requiere estantes de almacenamiento dedicados para el almacenamiento de datos, lo que significa que estas cargas de trabajo se dirigen a un grupo de almacenamiento no duplicado, lo que ahorra hasta un 200 % en costos de almacenamiento. Es algo que hay que tener en cuenta al comparar las tarifas de los proveedores.
La eliminación de datos duplicados es esencial porque reduce significativamente los requisitos de espacio de almacenamiento, ahorra dinero y reduce la cantidad de ancho de banda que se desperdicia al transferir datos a ubicaciones de almacenamiento remoto. También mejora el escalamiento y la eficiencia al almacenar y extraer datos de una fuente. Tener muchos datos similares almacenados en diferentes espacios ralentiza todo el sistema.
A continuación se indican otros beneficios:
La deduplicación de datos busca trozos de datos duplicados y coloca punteros en lugar de copiarlos de nuevo, mientras que la compresión minimiza el número de bits de almacenamiento necesarios para representar los datos. Sin embargo, ambos forman parte de las estrategias de reducción de datos que maximizan la capacidad de almacenamiento.
A continuación se indican las áreas en las que se puede aplicar la deduplicación:
Estos servidores de archivos tienen numerosos propósitos y pueden contener las siguientes acciones:
Varios usuarios tienen numerosas copias y revisiones de datos del mismo archivo, lo que hace que los servidores de archivos de uso general sean adecuados para la eliminación de datos duplicados. Además, beneficia a las acciones de desarrollo de software, ya que muchos binarios permanecen básicamente inalterados de una compilación a otra.
Los servidores VDI, al igual que los servicios de escritorio remoto, permiten a las organizaciones suministrar PC a los empleados de forma eficiente. A continuación se exponen algunas razones para utilizar esta tecnología:
Las implementaciones de VDI son excelentes candidatos a la eliminación de datos duplicados porque los discos duros virtuales de los equipos de escritorio remotos son prácticamente idénticos.
Las aplicaciones de copia de seguridad virtualizadas son objetivos de copia de seguridad debido a la deduplicación efectiva entre las instantáneas de copia de seguridad. Por lo tanto, los programas de copia de seguridad son candidatos perfectos para la eliminación de datos duplicados.
La tecnología de eliminación de datos duplicados (deduplicación) logra ahorros significativos cuando se utiliza en la infraestructura de copia de seguridad. Sin embargo, lógicamente, las imágenes de copia de seguridad acabarán dando lugar a datos duplicados.
Por ejemplo, es fácil tener una situación en la que numerosas personas trabajan en los mismos conjuntos de datos o documentos. Podría resultar en datos parciales o totalmente duplicados en numerosos sistemas, lo cual es ineficiente y costoso. Además, las situaciones que resulten en requisitos de retención de datos de varios años podrían generar grandes cantidades de almacenamiento de datos.
El almacenamiento en cinta era inicialmente la solución más rentable para la conservación de datos. Sin embargo, el costo de almacenar todos esos datos se convirtió en un problema importante. Aunque la cinta mantiene los costos más bajos que los conjuntos de matrices, no es una solución ideal porque los soportes tienden a ocupar demasiado espacio físico.
El almacenamiento en cinta también da como resultado un gran espacio utilizado por el hardware especializado en el centro de datos. El envío y almacenamiento de datos a largo plazo y otros retos logísticos se presentan a la hora de llevar las cintas a donde se necesitan. Esto añade un tiempo de inactividad significativo durante las situaciones de restauración de emergencia y afecta significativamente a la capacidad operativa y a los costos totales de propiedad.
Veritas consideró todos estos problemas para desarrollar una solución integral de protección de datos en forma de un potente motor de almacenamiento integrado de eliminación de datos duplicados. Integramos MSDP y NetBackup para crear una solución completa en una sola aplicación. Como resultado, nuestro formato de datos de deduplicación es ahora altamente portable con nuevas posibilidades. Además, facilita la replicación de datos en múltiples ubicaciones y objetivos diversos.
Por último, los clientes de NetBackup admiten la deduplicación del lado del cliente, mientras que MSDP no limita el número de flujos entrantes ni rechaza las conexiones, a diferencia de otras soluciones de deduplicación de datos.
Las soluciones de virtualización han llegado con un nuevo conjunto de oportunidades y complejidades. Por ejemplo, muchas entidades virtuales suelen compartir una infraestructura central común, lo que lleva a la expansión de máquinas virtuales donde miles de hosts comparten conjuntos de datos o una plantilla estándar a la vez que contienen elementos únicos. Proteger estos puntos manteniendo la independencia de los sistemas alojados (guests) podría suponer el almacenamiento de cantidades masivas de datos históricos.
La eliminación de datos duplicados ayuda a proteger todos los datos. NetBackup MSDP protege los datos de las máquinas virtuales (VM) y proporciona capacidad de recuperación instantánea de operaciones y luego de desastres. Además, los clientes pueden aprovechar NetBackup Appliances y NetBackup Universal Share con MSDP para asegurar el acceso instantáneo a los archivos individuales de las máquinas virtuales o a las copias secundarias de las máquinas virtuales para la replicación, las pruebas u otros usos.
NetBackup también permite a los administradores de copias de seguridad excluir los datos contenidos en los archivos de intercambio y de paginación de los sistemas operativos guest, lo que permite reducir la cantidad de datos que hay que respaldar y comprimir.
Como resultado, deduplicación de datos en entornos de virtualización ayuda a recuperar espacio y hace que la escritura sea más fácil que la eliminación de los segmentos de datos que ya no son necesarios. MSDP tiene un proceso patentado llamado “rebase” para simplificar la limpieza de datos y deduplicar los datos en entornos de nube.
Un servidor de almacenamiento MSDP es una entidad que escribe datos en el almacenamiento y los lee. Un host es el servidor de almacenamiento y debe ser un servidor de medios de NetBackup, existiendo sólo uno para cada nodo de deduplicación de NetBackup. Además, aunque el componente del servidor de almacenamiento se ejecuta en un servidor de medios, es una entidad lógica independiente. A continuación se detallan las funciones del servidor de almacenamiento MSDP:
El número de servidores y nodos de almacenamiento que se configure depende de los requisitos de almacenamiento y de si utiliza o no la replicación o duplicación optimizada.
NetBackup y Virtual Appliances permiten a las organizaciones desplegar servicios MSDP de forma segura, flexible, escalable y fácil de gestionar. Un solo appliance NetBackup admite hasta 960 TB de datos deduplicados, mientras que un appliance virtual admite 250 TB. Además, cada NetBackup Media Server Appliance alberga datos deduplicados y no deduplicados.
NetBackup Appliance ejecuta un sistema operativo (SO) único y seguro en lugar de varias máquinas virtuales (VM) con diferentes sistemas operativos. Esta última solución es menos segura porque aumenta la superficie potencial de ataque.
Los appliances de NetBackup ofrecen protección de seguridad y capacidad de detección de intrusiones a través de controles de acceso basados en roles y seguridad de centros de datos sistémicos (SDCS). También incluyen validación FIPS 140-2 sin costo adicional.
Además, los dispositivos NetBackup proporcionan velocidades de recuperación rápidas que las organizaciones necesitan para restaurar a escala. La tecnología admite varias recuperaciones simultáneas sin limitaciones ni requisitos adicionales, como el SSD.
Veritas también cuenta con un equipo completo de técnicos y expertos en rendimiento que prueban y validan el rendimiento de las versiones de NetBackup Appliance.
A medida que las organizaciones expanden sus operaciones, la gestión de grandes volúmenes de datos es crucial para garantizar el ahorro y la eficiencia de los costos. La eliminación de datos duplicados les permite manejar grandes datos de la mejor manera posible.
Los appliances Veritas NetBackup son soluciones tecnológicas líderes del sector para la protección de datos y la eliminación de datos duplicados. También proporcionan capacidad de cifrado y compresión de datos en un entorno seguro y escalable de alto rendimiento.
Los dispositivos NetBackup con tecnología MSDP proporcionan un ahorro significativo gracias a la minimización del espacio de copia de seguridad y a la optimización de las tasas de transferencia de datos. Además, los appliances virtuales de NetBackup extienden los servicios MSDP a la nube y a otros entornos virtuales.