Centro de información

La única guía que necesitará sobre recuperación después de un desastre

La recuperación después de un desastre se refiere al área de planificación de seguridad que tiene como objetivo proteger a la organización de los efectos negativos de eventos adversos importantes. Permite a una organización mantener o reanudar rápidamente sus funciones de misión crítica después de un desastre de datos sin incurrir en pérdidas significativas en las operaciones comerciales ni en los ingresos.

Los desastres se presentan en diferentes formas y tamaños. No solo son eventos catastróficos como terremotos, tornados o huracanes, sino también incidentes de seguridad como errores en los equipos, ataques cibernéticos o incluso actos de terrorismo.

Como preparación, las organizaciones y empresas crean planes de recuperación después de un desastre donde se detallan los procesos a seguir y las acciones a tomar para reanudar sus funciones de misión crítica.

¿Qué es la recuperación después de un desastre?

La recuperación después de un desastre se centra en los sistemas de TI que asisten a las funciones comerciales críticas de una organización. A menudo, se asocia con el término "continuidad comercial", pero no significan lo mismo. La recuperación después de un desastre forma parte de la continuidad comercial. Se centra más en mantener todos los aspectos comerciales en funcionamiento a pesar de los desastres.

Dado que los sistemas de TI se han vuelto esenciales para el éxito empresarial, la recuperación después de un desastre ahora es un pilar principal dentro del proceso de continuidad comercial.

En general, la mayoría de los propietarios de empresas no consideran que puedan ser víctimas de un desastre natural hasta que se produce una crisis imprevista, lo que acaba costando a su empresa mucho dinero en pérdidas operativas y económicas. Estos eventos pueden ser impredecibles y, como propietario de una empresa, no puede correr el riesgo de no contar con un plan de preparación para un desastre.

¿Qué tipo de desastres enfrentan las empresas?

Los desastres empresariales pueden ser tecnológicos, naturales o provocados por el hombre. Algunos ejemplos de desastres naturales son inundaciones, tornados, huracanes, avalanchas, terremotos y tsunamis. Por otro lado, los desastres tecnológicos y provocados por el hombre son derrames de materiales peligrosos, cortes de energía o errores de infraestructura, amenazas de armas químicas y biológicas, detonaciones o fusiones de plantas de energía nuclear, ataques cibernéticos, actos de terrorismo, explosiones y disturbios civiles.

Entre los posibles desastres que se deben planificar se incluyen los siguientes:

  • Error de aplicación
  • Error de máquina virtual
  • Error de host
  • Error de bastidor
  • Error de comunicación
  • Desastre en el centro de datos
  • Desastre en el edificio o el campus
  • Desastres a nivel local, regional, nacional e internacional

Por qué se necesita la recuperación después de un desastre

Sin importar el tamaño o la industria, cuando se producen eventos imprevistos por los que las operaciones diarias se detienen, su empresa debe recuperarse rápidamente para asegurarse de continuar brindando sus servicios a los consumidores y clientes.

El tiempo fuera de servicio es probablemente uno de los mayores gastos de TI que enfrenta una empresa. Según las estadísticas de recuperación después de un desastre de 2014-2015 de Infrascale, una hora de tiempo fuera de servicio puede costar a las pequeñas empresas hasta 8,000 USD, a las medianas empresas 74,000 USD y a las grandes organizaciones 700,000 USD.

Para las pequeñas y medianas empresas (PYMES), la pérdida prolongada de productividad puede reducir el flujo de efectivo al causar la pérdida de pedidos, facturaciones tardías, fechas de entrega vencidas y mayor costo de la mano de obra debido a las horas adicionales que se deben invertir para los esfuerzos de recuperación por tiempo fuera de servicio.

Si su negocio no está preparado para enfrentar interrupciones mayores y manejarlas adecuadamente, podría tener consecuencias negativas a largo plazo cuando suceda un desastre inesperado.

Tener un plan de recuperación después de un desastre puede salvar a su empresa de múltiples riesgos, entre ellos:

  • Pérdida de reputación
  • Gastos fuera del presupuesto
  • Pérdida de datos
  • Impacto negativo sobre los consumidores y clientes

A medida que las empresas aumentan su dependencia de la alta disponibilidad, su tolerancia al tiempo fuera de servicio disminuye. Por lo tanto, muchos cuentan con un plan de recuperación después de un desastre para evitar que los efectos adversos del desastre afecten sus operaciones diarias.

La esencia de la recuperación después de un desastre: objetivos de punto de recuperación y tiempo de recuperación

Las dos medidas críticas en la recuperación después de un desastre y el tiempo fuera de servicio son:

  • Objetivo de punto de recuperación (RPO, Recovery Point Objective): Hace referencia a la antigüedad máxima de los archivos que la organización debe recuperar de su almacenamiento de copias de seguridad para garantizar que sus operaciones normales se reanuden después de un desastre. Determina la frecuencia mínima de respaldo. Por ejemplo, si su organización tiene un RPO de cuatro horas, su sistema debe realizar un respaldo cada cuatro horas.
  • Objetivo de tiempo de recuperación (RTO, Recovery Time Objective): Hace referencia a la cantidad máxima de tiempo que la organización necesita para recuperar sus archivos de los respaldos y reanudar las operaciones normales después de un desastre. En otras palabras, el RTO es la cantidad máxima de tiempo fuera de servicio que puede manejar una organización. Si el RTO es de dos horas, sus operaciones no pueden estar inactivas por un período superior a ese.

Una vez identificados el RPO y el RTO, los administradores pueden basarse en ellos para elegir estrategias, procedimientos y tecnologías óptimas de recuperación después de un desastre.

Para recuperar las operaciones durante ventanas de RTO más estrictas, la organización debe almacenar sus datos secundarios de manera óptima para poder acceder a estos de forma fácil y rápida. Un método utilizado para restaurar datos rápidamente es la recuperación en el lugar, ya que esta transfiere todos los archivos de copias de seguridad de datos a un estado activo, lo que elimina la necesidad de moverlos a través de una red. Esto puede proteger contra errores en el servidor y el sistema de almacenamiento.

Antes de usar la recuperación en el lugar, la organización debe tener en cuenta tres factores:

  • El rendimiento de sus dispositivos de respaldo en disco
  • El tiempo necesario para transferir todos los datos de un estado de respaldo a un estado activo
  • Recuperación

Además, como la recuperación en el lugar puede demorar hasta 15 minutos en algunos casos, la replicación puede ser necesaria si se desea reducir el tiempo de recuperación. La replicación hace referencia a la copia o la actualización electrónica periódica de una base de datos del servidor informático A al servidor B, lo que garantiza que todos los usuarios de la red siempre compartan el mismo nivel de información.

Plan de recuperación después de un desastre (DRP)

Un plan de recuperación después de un desastre (DRP, Disaster Recovery Plan) se refiere a un enfoque estructurado y documentado con instrucciones implementadas para responder a incidentes no planificados. Es un plan paso a paso con las precauciones implementadas para minimizar los efectos de un desastre, de modo que la organización pueda reanudar rápidamente sus funciones de misión crítica o continuar operando de la forma habitual.

Normalmente, el DRP implica un análisis detallado de todos los procesos empresariales y las necesidades de continuidad. Además, antes de generar un plan específico, la organización debe hacer un análisis de riesgos (RA, Risk Analysis) y un análisis del impacto empresarial (BIA, Business Impact Analysis). También debe establecer su RTO y RPO.

1.  Estrategias de recuperación

Una estrategia de recuperación debe comenzar en el nivel empresarial, lo que permite determinar las aplicaciones esenciales para dirigir la organización. Las estrategias de recuperación definen los planes de la organización para responder a los incidentes, mientras que los DRP describen en detalle la forma en que se debe responder.

Al determinar una estrategia de recuperación, debe considerar cuestiones como las siguientes:

  • Presupuesto
  • Recursos disponibles, como personas e instalaciones físicas
  • Posición de la gerencia con respecto al riesgo
  • Tecnología
  • Datos
  • Proveedores
  • Proveedores externos

La gerencia debe aprobar todas las estrategias de recuperación, y estas deben estar alineadas con las metas y los objetivos de la organización. Una vez que se desarrollan y aprueban las estrategias de recuperación, es posible traducirlas en planes DRP.

2.  Pasos para la planificación de la recuperación después de un desastre

El proceso de DRP implica mucho más que solo escribir el documento. Un BIA y un RA ayudan a determinar las áreas en las que se deben concentrar los recursos en el proceso de DRP.

El BIA es útil para identificar los impactos de los eventos disruptivos, por eso es el punto de partida para la identificación de riesgos dentro del contexto de la recuperación después de un desastre. También ayuda a generar el RTO y el RPO.

El análisis de riesgos identifica las vulnerabilidades y amenazas con la capacidad de interrumpir las operaciones normales de los procesos y los sistemas destacados en el BIA. El RA también evalúa la probabilidad de que se produzca un evento disruptivo y ayuda a delinear su gravedad potencial.

Una lista de comprobación de un DRP contiene los siguientes pasos:

  • Establecer el alcance de la actividad
  • Recopilar los documentos relevantes de la infraestructura de red
  • Identificar amenazas y vulnerabilidades graves, así como los activos esenciales de la organización
  • Revisar el historial de incidentes no planificados de la organización y su manejo
  • Identificar las estrategias actuales de recuperación después de un desastre
  • Identificar el equipo de respuesta a emergencias
  • Hacer que la gerencia revise y apruebe el DRP
  • Prueba del plan
  • Actualizar el plan
  • Implementar una auditoría del plan DR

3.  Creación de un DRP

Una organización puede iniciar su DRP con un resumen de todos los pasos de acción vitales requeridos y una lista de los contactos esenciales, lo que garantiza que la información crucial sea de fácil y rápido acceso.

El plan también debe definir los roles y las responsabilidades de los miembros del equipo, así como describir los criterios para lanzar el plan de acción. A continuación, debe especificar detalladamente las actividades de respuesta y recuperación. Los otros elementos esenciales de una plantilla de DRP incluyen:

  • Declaración de intención
  • Declaración de la política de DR
  • Objetivos del plan
  • Herramientas de autenticación como contraseñas
  • Riesgos y factores geográficos
  • Sugerencias para tratar con los medios
  • Información legal y financiera
  • Historial del plan

4. Alcance y objetivos del DRP

Un DRP puede variar en alcance (es decir, de básico a integral). Algunos planes pueden superar las 100 páginas.

Los presupuestos de recuperación después de un desastre pueden variar significativamente y fluctuar con el tiempo. Por lo tanto, la organización puede aprovechar todos los recursos gratuitos disponibles, como las plantillas de DRP en línea de la Agencia Federal de Gestión de Emergencias de EE. UU. También existe mucha información gratuita y artículos instructivos en línea.

Una lista de comprobación de objetivos de DRP incluye:

  • Identificar redes y sistemas de TI esenciales
  • Priorizar el RTO
  • Describir los pasos necesarios para reiniciar, reconfigurar o recuperar sistemas y redes

El plan debe, al menos, minimizar los efectos adversos sobre las operaciones comerciales diarias. Los empleados también deben conocer los pasos de emergencia necesarios a seguir en caso de incidentes imprevistos.

La distancia, si bien es importante, a menudo se pasa por alto durante el proceso de DRP. Un sitio de recuperación después de un desastre ubicado cerca del centro de datos principal es ideal en términos de comodidad, costo, pruebas y ancho de banda. Sin embargo, como las interrupciones difieren en el alcance, un evento regional grave puede destruir tanto el centro de datos principal como su sitio de recuperación después de un desastre cuando los dos se encuentran cerca.

5. Tipos de planes de recuperación después de un desastre

Es posible adaptar un DRP a un entorno determinado.

  • DRP virtualizado: La virtualización permite implementar la recuperación después de un desastre de una manera eficiente y directa. Con un entorno virtualizado, es posible crear nuevas instancias de máquinas virtuales de inmediato y proporcionar una recuperación de aplicaciones de alta disponibilidad. Además, las pruebas son más fáciles de realizar. El plan debe incluir una capacidad de validación para garantizar que las aplicaciones puedan ejecutarse más rápido en el modo de recuperación después de un desastre y puedan volver a las operaciones normales dentro de el RTO y RPO.
  • DRP de red: la creación de un plan para recuperar una red se complica con el aumento de la complejidad de la red. Por lo tanto, es esencial detallar el procedimiento de recuperación paso a paso, probarlo correctamente y mantenerlo actualizado. En un DRP de red, los datos son específicos de la red; por ejemplo, la información de rendimiento y personal en red.
  • DRP de centro de datos: Este plan se centra en las instalaciones del centro de datos y su infraestructura. Un elemento clave de este DRP es una evaluación de riesgos operativos, ya que esta analiza los componentes clave necesarios, como la ubicación del edificio, la seguridad, el espacio de oficina, la red eléctrica y la protección de energía. También debe abordar un rango más amplio de escenarios posibles.

Pruebas de recuperación después de un desastre

Las pruebas corroboran todos los DRP. Identifican deficiencias en el plan y brindan oportunidades para solucionar cualquier problema antes de que se produzca un desastre. Las pruebas también pueden ofrecer evidencia de la eficacia del plan y los éxitos de RPO.

Las tecnologías y los sistemas de TI cambian constantemente. Por lo tanto, las pruebas garantizan que el DRP esté actualizado.

Algunas de las razones para omitir las pruebas de DRP incluyen restricciones presupuestarias, falta de aprobación de la gerencia o limitaciones de recursos. Las pruebas de recuperación después de un desastre también requieren tiempo, planificación y recursos. También pueden ser un riesgo de incidente si implican el uso de datos en directo. Sin embargo, las pruebas son un componente esencial de la planificación de recuperación después de un desastre que nunca se debe omitir.

Las pruebas de recuperación después de un desastre varían de simples a complejas:

  • Una revisión del plan implica una discusión detallada del DRP y la búsqueda de inconsistencias y elementos ausentes.
  • Una prueba teórica permite a los participantes recorrer paso a paso las actividades del plan. Demuestra si los miembros del equipo de recuperación después de un desastre conocen sus deberes durante una emergencia.
  • Una prueba de simulación es una prueba a escala completa que utiliza recursos como sistemas copias de seguridad y sitios de recuperación sin una conmutación por error real.
  • El funcionamiento en modo desastre durante un período es otro método para probar los sistemas. Por ejemplo, puede realizar una conmutación por error en su sitio de recuperación y dejar que sus sistemas se ejecuten desde allí durante una semana antes de la conmutación por recuperación.

La organización debe programar pruebas en su política de recuperación después de un desastre; sin embargo, tenga cuidado con su intrusión. Esto se debe a que las pruebas con demasiada frecuencia son contraproducentes y desgastan al personal. Por otro lado, realizar pruebas con menos regularidad también es arriesgado. Además, siempre se debe probar el DRP después de realizar cambios significativos en el sistema.

Para aprovechar al máximo las pruebas, es necesario:

  • Obtener la aprobación y financiación de la gerencia
  • Proporcionar información detallada de las pruebas a todas las partes interesadas
  • Comprobar que el equipo de pruebas esté disponible en la fecha de prueba
  • Programar la prueba correctamente para asegurarse de que no entre en conflicto con otras actividades o pruebas
  • Confirmar que los scripts de prueba sean correctos
  • Verificar que el entorno de prueba esté listo
  • Programar primero un simulacro
  • Estar preparado para detener la prueba si es necesario
  • Hacer que un escriba tome notas
  • Completar un informe posterior a la acción, detallando lo que funcionó y lo que falló
  • Utilizar los resultados recopilados para actualizar el plan de recuperación después de un desastre

Recuperación después de un desastre como servicio (DRaaS)

La recuperación después de un desastre como servicio es un método basado en la nube que se ha popularizado con el transcurso de los años. Esto se debe a que DRaaS reduce los costos, es más fácil de implementar y permite realizar pruebas regulares.

Las soluciones de pruebas en la nube permiten que su empresa ahorre dinero porque se ejecutan en una infraestructura compartida. También son bastante flexibles, lo que permite registrarse únicamente en los servicios que necesita, y puede completar las pruebas de recuperación después de un desastre solo acelerando instancias temporales.

Las expectativas y los requisitos de DRaaS están documentados e incluidos en un acuerdo de nivel de servicio (SLA). Luego, el proveedor externo proporciona conmutación por error al entorno de informática en la nube, ya sea mediante pago por uso o mediante un contrato.

Sin embargo, es posible que la recuperación después de un desastre basada en la nube no esté disponible si se trata de un desastre a gran escala, ya que el sitio de recuperación después de un desastre puede no contar con suficiente espacio para ejecutar las aplicaciones de cada usuario. Además, dado que la recuperación después de un desastre en la nube aumenta las necesidades de ancho de banda, la adición de sistemas complejos podría degradar el rendimiento de toda la red.

Quizás la mayor desventaja de la recuperación después de un desastre en la nube es que tiene poco control sobre el proceso; por lo tanto, debe confiar en su proveedor de servicios para implementar el DRP en caso de un incidente mientras cumple con los objetivos de punto de recuperación y tiempo de recuperación.

Los costos varían ampliamente entre los proveedores y pueden sumarse rápidamente si el proveedor cobra según el consumo de almacenamiento o el ancho de banda de la red. Por lo tanto, antes de seleccionar un proveedor, debe realizar una evaluación interna exhaustiva para determinar sus necesidades de recuperación después de un desastre.

Estas son algunas preguntas que puede hacerle a los potenciales proveedores:

  • ¿Cómo funcionará su DRaaS en función de nuestra infraestructura existente?
  • ¿Cómo se integrará con nuestras plataformas de recuperación después de un desastre y respaldo?
  • ¿Cómo acceden los usuarios a las aplicaciones internas?
  • ¿Qué sucede si no pueden brindarnos el servicio de recuperación después de un desastre que necesitamos?
  • ¿Cuánto tiempo podemos ejecutar su centro de datos después de un desastre?
  • ¿Cuáles son sus procedimientos de conmutación por recuperación?
  • ¿Cuál es su proceso de prueba?
  • ¿El servicio es compatible con objetivos de escalabilidad?
  • ¿Cómo se cobra el servicio de recuperación después de un desastre?

Sitios de recuperación después de un desastre

Un sitio de recuperación después de un desastre permite recuperar y restaurar la infraestructura tecnológica y las operaciones cuando el centro de datos principal no está disponible. Estos sitios pueden ser internos o externos.

Como organización, usted es responsable de configurar y mantener un sitio interno de recuperación después de un desastre. Estos sitios son necesarios para las empresas con RTO agresivos y requisitos de grandes cantidades de información. Algunos aspectos a tener en cuenta al construir su sitio de recuperación interno son la configuración del hardware, el mantenimiento de la energía, el equipo de soporte, el diseño de la disposición, la calefacción y la refrigeración, la ubicación y el personal.

Aunque es mucho más costoso en comparación con un sitio externo, un sitio de recuperación después de un desastre interno permite controlar todos los aspectos del proceso de recuperación después de un desastre.

Los sitios externos son propiedad de proveedores externos, quienes también se encargan de operarlos. Un sitio externo puede ser:

  • Caliente: es un centro de datos completamente funcional con hardware y software, personal las 24 horas, así como datos de clientes y personal.
  • Cálido: es un centro de datos equipado sin datos de clientes. Los clientes pueden instalar equipos adicionales o introducir datos del cliente.
  • Frío: tiene la infraestructura implementada para admitir datos y sistemas de TI. Sin embargo, no tiene tecnología hasta que las organizaciones cliente activan los planes de recuperación después de un desastre e instalan equipos. A veces, complementa los sitios cálidos y calientes durante desastres a largo plazo.

Niveles de recuperación después de un desastre

Durante la década de 1980, dos entidades, el comité de dirección técnico de SHARE e International Business Machines (IBM) idearon un sistema de niveles para describir los niveles de servicio de recuperación después de un desastre. El sistema mostró capacidad de recuperación fuera del sitio, con el nivel 0 representando la menor cantidad y el nivel 6 la cantidad máxima.

Posteriormente, se agregó un séptimo nivel para incluir la automatización de recuperación después de un desastre. Hoy, representa el nivel de disponibilidad más alto en escenarios de recuperación después de un desastre. Generalmente, a medida que la capacidad de recuperación mejora con cada nivel, también lo hace el costo.

Conclusión

Prepararse para un desastre no es fácil. Requiere un enfoque integral que tenga en cuenta todo y que abarque software, hardware, equipos de red, conectividad, energía y pruebas para garantizar que la recuperación después de un desastre sea posible dentro de los objetivos RPO y RTO. Aunque implementar un DRP completo y procesable no es algo sencillo, sus beneficios potenciales son significativos.

Todos los miembros de su empresa deben estar al tanto de cualquier plan de recuperación después de un desastre que se haya implementado y, durante la implementación, es esencial que la comunicación sea efectiva. Es imperativo que no solo desarrolle un DRP, sino que también lo pruebe, capacite a su personal, documente todo correctamente y mejore el plan regularmente. Por último, tenga cuidado al contratar los servicios de cualquier proveedor externo.

 

¿Necesita un plan de recuperación después de un desastre a nivel empresarial para su organización? Veritas puede ayudar. Contáctenos ahora para recibir la llamada de uno de nuestros representantes.

La cartera de Veritas proporciona todas las herramientas que necesita para una empresa resiliente. Desde ransomware o fugas de datos hasta eventos inesperados, Veritas le protege a escala. Más información sobre la resiliencia de datos.

 

Los clientes de Veritas componen el 95 % de la lista Fortune 100, y NetBackup™ es la opción número uno para las empresas que buscan realizar copias de seguridad de grandes cantidades de datos.

Descubra cómo Veritas mantiene sus datos completamente protegidos a través de cargas de trabajo virtuales, físicas, en la nube y heredadas con los servicios de protección de datos para grandes empresas.