La recuperación después de un desastre se refiere al área de planificación de seguridad que tiene como objetivo proteger a la organización de los efectos negativos de eventos adversos importantes. Permite a una organización mantener o reanudar rápidamente sus funciones de misión crítica después de un desastre de datos sin incurrir en pérdidas significativas en las operaciones comerciales ni en los ingresos.
Los desastres se presentan en diferentes formas y tamaños. No solo son eventos catastróficos como terremotos, tornados o huracanes, sino también incidentes de seguridad como errores en los equipos, ataques cibernéticos o incluso actos de terrorismo.
Como preparación, las organizaciones y empresas crean planes de recuperación después de un desastre donde se detallan los procesos a seguir y las acciones a tomar para reanudar sus funciones de misión crítica.
La recuperación después de un desastre se centra en los sistemas de TI que asisten a las funciones comerciales críticas de una organización. A menudo, se asocia con el término "continuidad comercial", pero no significan lo mismo. La recuperación después de un desastre forma parte de la continuidad comercial. Se centra más en mantener todos los aspectos comerciales en funcionamiento a pesar de los desastres.
Dado que los sistemas de TI se han vuelto esenciales para el éxito empresarial, la recuperación después de un desastre ahora es un pilar principal dentro del proceso de continuidad comercial.
En general, la mayoría de los propietarios de empresas no consideran que puedan ser víctimas de un desastre natural hasta que se produce una crisis imprevista, lo que acaba costando a su empresa mucho dinero en pérdidas operativas y económicas. Estos eventos pueden ser impredecibles y, como propietario de una empresa, no puede correr el riesgo de no contar con un plan de preparación para un desastre.
Los desastres empresariales pueden ser tecnológicos, naturales o provocados por el hombre. Algunos ejemplos de desastres naturales son inundaciones, tornados, huracanes, avalanchas, terremotos y tsunamis. Por otro lado, los desastres tecnológicos y provocados por el hombre son derrames de materiales peligrosos, cortes de energía o errores de infraestructura, amenazas de armas químicas y biológicas, detonaciones o fusiones de plantas de energía nuclear, ataques cibernéticos, actos de terrorismo, explosiones y disturbios civiles.
Entre los posibles desastres que se deben planificar se incluyen los siguientes:
Sin importar el tamaño o la industria, cuando se producen eventos imprevistos por los que las operaciones diarias se detienen, su empresa debe recuperarse rápidamente para asegurarse de continuar brindando sus servicios a los consumidores y clientes.
El tiempo fuera de servicio es probablemente uno de los mayores gastos de TI que enfrenta una empresa. Según las estadísticas de recuperación después de un desastre de 2014-2015 de Infrascale, una hora de tiempo fuera de servicio puede costar a las pequeñas empresas hasta 8,000 USD, a las medianas empresas 74,000 USD y a las grandes organizaciones 700,000 USD.
Para las pequeñas y medianas empresas (PYMES), la pérdida prolongada de productividad puede reducir el flujo de efectivo al causar la pérdida de pedidos, facturaciones tardías, fechas de entrega vencidas y mayor costo de la mano de obra debido a las horas adicionales que se deben invertir para los esfuerzos de recuperación por tiempo fuera de servicio.
Si su negocio no está preparado para enfrentar interrupciones mayores y manejarlas adecuadamente, podría tener consecuencias negativas a largo plazo cuando suceda un desastre inesperado.
Tener un plan de recuperación después de un desastre puede salvar a su empresa de múltiples riesgos, entre ellos:
A medida que las empresas aumentan su dependencia de la alta disponibilidad, su tolerancia al tiempo fuera de servicio disminuye. Por lo tanto, muchos cuentan con un plan de recuperación después de un desastre para evitar que los efectos adversos del desastre afecten sus operaciones diarias.
Las dos medidas críticas en la recuperación después de un desastre y el tiempo fuera de servicio son:
Una vez identificados el RPO y el RTO, los administradores pueden basarse en ellos para elegir estrategias, procedimientos y tecnologías óptimas de recuperación después de un desastre.
Para recuperar las operaciones durante ventanas de RTO más estrictas, la organización debe almacenar sus datos secundarios de manera óptima para poder acceder a estos de forma fácil y rápida. Un método utilizado para restaurar datos rápidamente es la recuperación en el lugar, ya que esta transfiere todos los archivos de copias de seguridad de datos a un estado activo, lo que elimina la necesidad de moverlos a través de una red. Esto puede proteger contra errores en el servidor y el sistema de almacenamiento.
Antes de usar la recuperación en el lugar, la organización debe tener en cuenta tres factores:
Además, como la recuperación en el lugar puede demorar hasta 15 minutos en algunos casos, la replicación puede ser necesaria si se desea reducir el tiempo de recuperación. La replicación hace referencia a la copia o la actualización electrónica periódica de una base de datos del servidor informático A al servidor B, lo que garantiza que todos los usuarios de la red siempre compartan el mismo nivel de información.
Un plan de recuperación después de un desastre (DRP, Disaster Recovery Plan) se refiere a un enfoque estructurado y documentado con instrucciones implementadas para responder a incidentes no planificados. Es un plan paso a paso con las precauciones implementadas para minimizar los efectos de un desastre, de modo que la organización pueda reanudar rápidamente sus funciones de misión crítica o continuar operando de la forma habitual.
Normalmente, el DRP implica un análisis detallado de todos los procesos empresariales y las necesidades de continuidad. Además, antes de generar un plan específico, la organización debe hacer un análisis de riesgos (RA, Risk Analysis) y un análisis del impacto empresarial (BIA, Business Impact Analysis). También debe establecer su RTO y RPO.
Una estrategia de recuperación debe comenzar en el nivel empresarial, lo que permite determinar las aplicaciones esenciales para dirigir la organización. Las estrategias de recuperación definen los planes de la organización para responder a los incidentes, mientras que los DRP describen en detalle la forma en que se debe responder.
Al determinar una estrategia de recuperación, debe considerar cuestiones como las siguientes:
La gerencia debe aprobar todas las estrategias de recuperación, y estas deben estar alineadas con las metas y los objetivos de la organización. Una vez que se desarrollan y aprueban las estrategias de recuperación, es posible traducirlas en planes DRP.
El proceso de DRP implica mucho más que solo escribir el documento. Un BIA y un RA ayudan a determinar las áreas en las que se deben concentrar los recursos en el proceso de DRP.
El BIA es útil para identificar los impactos de los eventos disruptivos, por eso es el punto de partida para la identificación de riesgos dentro del contexto de la recuperación después de un desastre. También ayuda a generar el RTO y el RPO.
El análisis de riesgos identifica las vulnerabilidades y amenazas con la capacidad de interrumpir las operaciones normales de los procesos y los sistemas destacados en el BIA. El RA también evalúa la probabilidad de que se produzca un evento disruptivo y ayuda a delinear su gravedad potencial.
Una lista de comprobación de un DRP contiene los siguientes pasos:
Una organización puede iniciar su DRP con un resumen de todos los pasos de acción vitales requeridos y una lista de los contactos esenciales, lo que garantiza que la información crucial sea de fácil y rápido acceso.
El plan también debe definir los roles y las responsabilidades de los miembros del equipo, así como describir los criterios para lanzar el plan de acción. A continuación, debe especificar detalladamente las actividades de respuesta y recuperación. Los otros elementos esenciales de una plantilla de DRP incluyen:
Un DRP puede variar en alcance (es decir, de básico a integral). Algunos planes pueden superar las 100 páginas.
Los presupuestos de recuperación después de un desastre pueden variar significativamente y fluctuar con el tiempo. Por lo tanto, la organización puede aprovechar todos los recursos gratuitos disponibles, como las plantillas de DRP en línea de la Agencia Federal de Gestión de Emergencias de EE. UU. También existe mucha información gratuita y artículos instructivos en línea.
Una lista de comprobación de objetivos de DRP incluye:
El plan debe, al menos, minimizar los efectos adversos sobre las operaciones comerciales diarias. Los empleados también deben conocer los pasos de emergencia necesarios a seguir en caso de incidentes imprevistos.
La distancia, si bien es importante, a menudo se pasa por alto durante el proceso de DRP. Un sitio de recuperación después de un desastre ubicado cerca del centro de datos principal es ideal en términos de comodidad, costo, pruebas y ancho de banda. Sin embargo, como las interrupciones difieren en el alcance, un evento regional grave puede destruir tanto el centro de datos principal como su sitio de recuperación después de un desastre cuando los dos se encuentran cerca.
Es posible adaptar un DRP a un entorno determinado.
Las pruebas corroboran todos los DRP. Identifican deficiencias en el plan y brindan oportunidades para solucionar cualquier problema antes de que se produzca un desastre. Las pruebas también pueden ofrecer evidencia de la eficacia del plan y los éxitos de RPO.
Las tecnologías y los sistemas de TI cambian constantemente. Por lo tanto, las pruebas garantizan que el DRP esté actualizado.
Algunas de las razones para omitir las pruebas de DRP incluyen restricciones presupuestarias, falta de aprobación de la gerencia o limitaciones de recursos. Las pruebas de recuperación después de un desastre también requieren tiempo, planificación y recursos. También pueden ser un riesgo de incidente si implican el uso de datos en directo. Sin embargo, las pruebas son un componente esencial de la planificación de recuperación después de un desastre que nunca se debe omitir.
Las pruebas de recuperación después de un desastre varían de simples a complejas:
La organización debe programar pruebas en su política de recuperación después de un desastre; sin embargo, tenga cuidado con su intrusión. Esto se debe a que las pruebas con demasiada frecuencia son contraproducentes y desgastan al personal. Por otro lado, realizar pruebas con menos regularidad también es arriesgado. Además, siempre se debe probar el DRP después de realizar cambios significativos en el sistema.
Para aprovechar al máximo las pruebas, es necesario:
La recuperación después de un desastre como servicio es un método basado en la nube que se ha popularizado con el transcurso de los años. Esto se debe a que DRaaS reduce los costos, es más fácil de implementar y permite realizar pruebas regulares.
Las soluciones de pruebas en la nube permiten que su empresa ahorre dinero porque se ejecutan en una infraestructura compartida. También son bastante flexibles, lo que permite registrarse únicamente en los servicios que necesita, y puede completar las pruebas de recuperación después de un desastre solo acelerando instancias temporales.
Las expectativas y los requisitos de DRaaS están documentados e incluidos en un acuerdo de nivel de servicio (SLA). Luego, el proveedor externo proporciona conmutación por error al entorno de informática en la nube, ya sea mediante pago por uso o mediante un contrato.
Sin embargo, es posible que la recuperación después de un desastre basada en la nube no esté disponible si se trata de un desastre a gran escala, ya que el sitio de recuperación después de un desastre puede no contar con suficiente espacio para ejecutar las aplicaciones de cada usuario. Además, dado que la recuperación después de un desastre en la nube aumenta las necesidades de ancho de banda, la adición de sistemas complejos podría degradar el rendimiento de toda la red.
Quizás la mayor desventaja de la recuperación después de un desastre en la nube es que tiene poco control sobre el proceso; por lo tanto, debe confiar en su proveedor de servicios para implementar el DRP en caso de un incidente mientras cumple con los objetivos de punto de recuperación y tiempo de recuperación.
Los costos varían ampliamente entre los proveedores y pueden sumarse rápidamente si el proveedor cobra según el consumo de almacenamiento o el ancho de banda de la red. Por lo tanto, antes de seleccionar un proveedor, debe realizar una evaluación interna exhaustiva para determinar sus necesidades de recuperación después de un desastre.
Estas son algunas preguntas que puede hacerle a los potenciales proveedores:
Un sitio de recuperación después de un desastre permite recuperar y restaurar la infraestructura tecnológica y las operaciones cuando el centro de datos principal no está disponible. Estos sitios pueden ser internos o externos.
Como organización, usted es responsable de configurar y mantener un sitio interno de recuperación después de un desastre. Estos sitios son necesarios para las empresas con RTO agresivos y requisitos de grandes cantidades de información. Algunos aspectos a tener en cuenta al construir su sitio de recuperación interno son la configuración del hardware, el mantenimiento de la energía, el equipo de soporte, el diseño de la disposición, la calefacción y la refrigeración, la ubicación y el personal.
Aunque es mucho más costoso en comparación con un sitio externo, un sitio de recuperación después de un desastre interno permite controlar todos los aspectos del proceso de recuperación después de un desastre.
Los sitios externos son propiedad de proveedores externos, quienes también se encargan de operarlos. Un sitio externo puede ser:
Durante la década de 1980, dos entidades, el comité de dirección técnico de SHARE e International Business Machines (IBM) idearon un sistema de niveles para describir los niveles de servicio de recuperación después de un desastre. El sistema mostró capacidad de recuperación fuera del sitio, con el nivel 0 representando la menor cantidad y el nivel 6 la cantidad máxima.
Posteriormente, se agregó un séptimo nivel para incluir la automatización de recuperación después de un desastre. Hoy, representa el nivel de disponibilidad más alto en escenarios de recuperación después de un desastre. Generalmente, a medida que la capacidad de recuperación mejora con cada nivel, también lo hace el costo.
Prepararse para un desastre no es fácil. Requiere un enfoque integral que tenga en cuenta todo y que abarque software, hardware, equipos de red, conectividad, energía y pruebas para garantizar que la recuperación después de un desastre sea posible dentro de los objetivos RPO y RTO. Aunque implementar un DRP completo y procesable no es algo sencillo, sus beneficios potenciales son significativos.
Todos los miembros de su empresa deben estar al tanto de cualquier plan de recuperación después de un desastre que se haya implementado y, durante la implementación, es esencial que la comunicación sea efectiva. Es imperativo que no solo desarrolle un DRP, sino que también lo pruebe, capacite a su personal, documente todo correctamente y mejore el plan regularmente. Por último, tenga cuidado al contratar los servicios de cualquier proveedor externo.