Recuperação após desastres se refere à área de planejamento de segurança que busca proteger sua organização dos efeitos negativos de eventos inesperados. Ela permite que uma empresa mantenha ou rapidamente retome suas funções de missão crítica após um desastre de dados sem danos significativos às operações de negócios ou às receitas.
Existem diversos tipos e tamanhos de desastres. Eles não se referem apenas a eventos catastróficos, como terremotos, tornados ou furacões, mas também a incidentes de segurança, como falhas de equipamentos, ataques cibernéticos ou mesmo terrorismo.
Para se preparar, as empresas e organizações criam planos de recuperação após desastres, detalhando os processos que deverão ser seguidos e as ações que deverão ser tomadas para retomar suas funções de missão crítica.
A recuperação após desastres se concentra nos sistemas de TI que ajudam a possibilitar as funções críticas para os negócios de uma organização. Muitas vezes, é associada à continuidade dos negócios, mas os dois termos não significam a mesma coisa. A recuperação após desastres é um elemento da continuidade dos negócios. Seu maior foco é manter todos os aspectos dos negócios funcionando apesar da ocorrência de um desastre.
Como os sistemas de TI se tornaram críticos para o sucesso das empresas, a recuperação após desastres agora é um dos principais pilares do processo de continuidade dos negócios.
A maioria dos donos de empresas não costuma considerar a possibilidade de sofrer um desastre natural até que uma crise imprevista ocorra e acabe custando caro ao causar perdas operacionais e econômicas. Esses eventos podem ser imprevisíveis, e como dono de uma empresa, você não pode correr o risco de não ter um plano de preparo para desastres implementado.
Os desastres de negócios podem ser tecnológicos, naturais ou causados por intervenção humana. Entre os desastres naturais estão enchentes, tornados, furacões, deslizamentos, terremotos e tsunamis. Por outro lado, os desastres tecnológicos ou causados por intervenção humana envolvem fatores como derramamento de materiais perigosos, falhas de alimentação ou infraestrutura, ameaças de armas químicas e biológicas, colapsos ou explosões de usinas nucleares, ataques cibernéticos, atos de terrorismo, explosões e conflitos civis.
Entre os possíveis desastres para os quais você deve se preparar estão:
Independentemente de seu tamanho ou do setor que afetam, quando eventos imprevistos ocorrem, causando a interrupção das operações cotidianas, sua empresa precisa se recuperar rapidamente para que você possa continuar oferecendo seus serviços aos clientes.
Tempo de inatividade é possivelmente a maior entre as despesas de TI que uma empresa pode enfrentar. Com base em estatísticas de recuperação após desastres dos anos de 2014 e 2015, divulgadas pela Infrascale, uma hora de inatividade pode custar até US$ 8 mil às empresas de pequeno porte, US$ 74 mil às de médio porte e US$700 mil às grandes organizações.
Para as empresas de pequeno e médio porte, uma perda ampla de produtividade pode levar à redução do fluxo de caixa devido a pedidos perdidos, faturas atrasadas e atrasos em datas de entrega, além de aumentar os custos com mão-de-obra devido a horas extras de esforço para recuperar o tempo de inatividade.
Se não antecipar grandes interrupções em seus negócios e tratá-las adequadamente, você corre o risco de incorrer em consequências e implicações negativas de longo prazo como resultado da ocorrência de desastres inesperados.
Ter um plano de recuperação após desastres implementado pode proteger sua empresa de diversos riscos, como:
As empresas se acostumaram a contar mais com a alta disponibilidade, e a tolerância para períodos de inatividade diminuiu. Por isso, muitas delas têm um plano de recuperação após desastres implementado para prevenir que efeitos negativos de desastres afetem suas operações diárias.
As duas medições críticas na área de recuperação após desastres e tempo de inatividade são:
Depois que seu RPO e seu RTO forem identificados, seus administradores poderão usar essas duas medidas para escolher as melhores estratégias, procedimentos e tecnologias de recuperação após desastres.
Para recuperar as operações durante janelas de RTO apertadas, é preciso que os dados secundários de sua organização estejam posicionados da maneira ideal para que possam ser acessados com rapidez e facilidade. Um dos métodos adequados usados para restaurar dados rapidamente é a recuperação in loco, pois ela coloca todos os arquivos de dados de backup em um estado ao vivo, eliminando a necessidade de movê-los por meio da rede. Esse método protege os dados contra falhas no servidor e no sistema de armazenamento.
Antes de usar a recuperação in loco, sua empresa precisa levar três aspectos em consideração:
Além disso, como a recuperação in loco pode, às vezes, levar até 15 minutos, pode ser necessário recorrer à replicação se você estiver buscando um tempo de recuperação menor. Replicação é a atualização ou cópia eletrônica periódica de um banco de dados de um servidor A para um servidor B, o que garante que todos os usuários da rede sempre compartilhem o mesmo nível de informação.
Um plano de recuperação após desastres é uma abordagem estruturada e documentada com instruções que é implementada para responder a incidentes não planejados. É um plano passo a passo contendo as precauções implementadas para minimizar os efeitos de um desastre e permitir que sua organização possa rapidamente retomar suas funções de missão crítica ou continuar operando normalmente.
Normalmente, o plano de recuperação após desastres inclui uma análise detalhada de todos os processos de negócios e necessidades de continuidade . Além disso, antes de gerar um plano detalhado, sua empresa deve executar uma análise de riscos e uma análise do impacto nos negócios. A empresa também deve definir o RTO e RPO.
Uma estratégia de recuperação deve começar no nível dos negócios, permitindo que você identifique os aplicativos mais importantes para o funcionamento da organização. As estratégias de recuperação definem os planos de sua organização para responder a incidentes, e os planos de recuperação após desastres descrevem detalhadamente como deve ser essa resposta.
Ao definir uma estratégia de recuperação, você deve considerar questões como:
A gerência deve aprovar todas as estratégias de recuperação, que devem estar alinhadas aos objetivos e às metas da organização. Depois que as estratégias de recuperação forem desenvolvidas e aprovadas, você poderá convertê-las em planos de recuperação após desastres.
O processo de planejamento da recuperação após desastres é muito mais complexo do que simplesmente criar um documento. As análises de riscos e do impacto nos negócios ajudam a identificar as áreas nas quais você deve concentrar recursos no processo de planejamento da recuperação após desastres.
A análise do impacto nos negócios é útil para identificar o efeito de eventos que causam interrupção, tornando-se o ponto de partida para a identificação de riscos dentro do contexto de recuperação após desastres. Ela ainda ajuda a definir o RTO e o RPO.
A análise de riscos identifica vulnerabilidades e ameaças que podem interromper as operações normais dos processos e sistemas destacados na análise do impacto nos negócios. Ela também avalia a probabilidade de ocorrer um evento de interrupção e ajuda a detalhar a possível gravidade dele.
Um plano de recuperação após desastres contém as seguintes etapas:
A organização pode começar seu plano de recuperação após desastres com um resumo de todas as etapas de ação fundamentais necessárias e uma lista de contatos essenciais para garantir que as informações cruciais possam ser acessadas com rapidez e facilidade.
O plano também deve definir as funções e responsabilidades dos membros da equipe e detalhar os critérios para iniciar o plano de ação. Depois, ele deve especificar detalhadamente as atividades de resposta e recuperação. Outros elementos essenciais de um modelo de plano de recuperação após desastres:
O escopo de um plano de recuperação após desastres pode variar (ou seja, de um nível básico até um nível abrangente). Alguns podem ultrapassar uma centena de páginas.
Os orçamentos para a recuperação após desastres podem variar e flutuar de modo significativo ao longo do tempo. Por isso, sua organização pode aproveitar quaisquer recursos gratuitos disponíveis, como os modelos online de planos de recuperação após desastres da Agência Federal de Gestão de Emergências dos EUA. Existem também muitas informações e artigos de instruções gratuitos na Internet.
Uma boa lista de verificação de metas do plano de recuperação após desastres deve incluir:
O plano deve pelo menos minimizar os efeitos negativos nas operações diárias de negócios. Seus funcionários também devem conhecer as etapas de emergência necessárias para seguir caso ocorram incidentes inesperados.
Embora seja um fator importante, a distância é, muitas vezes, ignorada no processo de planejamento da recuperação após desastres. Um local de recuperação após desastres que fique próximo ao data center principal é o ideal em termos de conveniência, custos, testes e largura de banda. Entretanto, o escopo das interrupções pode variar. Um evento regional grave poderia destruir tanto o data center principal como o local de recuperação após desastres se eles forem próximos um do outro.
Você pode personalizar um plano de recuperação após desastres de acordo com um ambiente específico.
Fazer testes embasa todos os planos de recuperação após desastres. Os testes identificam deficiências no plano e oferecem oportunidades de corrigir problemas antes que ocorra um desastre. Além disso, os testes também podem comprovar a eficiência do plano e confirmar que ele é capaz de atender aos RPOs.
As tecnologias e os sistemas de TI estão sempre mudando. Por isso, fazer testes garante que seu plano de recuperação após desastres esteja sempre atualizado.
Alguns motivos que podem impossibilitar os testes dos planos de recuperação após desastres são restrições de orçamento, falta de aprovação da gerência ou limitações de recursos. Os testes de planos de recuperação após desastres exigem tempo, planejamento e recursos. Há também o risco de causar um incidente real se dados ativos forem usados nos testes. Entretanto, fazer testes é uma parte essencial do planejamento da recuperação após desastres e uma etapa que nunca deve ser ignorada.
Os testes de recuperação após desastres podem ser simples ou complexos:
Sua organização deve incluir um cronograma de testes na política de recuperação após desastres; no entanto, é importante escolher a frequência com cuidado. O cronograma pode acabar ficando invasivo, pois fazer testes muito frequentes pode ser contraproducente e desgastar seus funcionários. Por outro lado, uma frequência muito baixa de testes também é arriscada. Você também deve sempre testar seu plano de recuperação após desastres depois de fazer qualquer alteração significativa no sistema.
Para aproveitar os testes ao máximo:
A recuperação após desastres como serviço é um método de recuperação após desastres baseado em nuvem que se tornou popular ao longo dos anos. Isso ocorreu porque a DRaaS reduz custos, é mais fácil de implementar e permite testes regulares.
As soluções de teste em nuvem economizam o dinheiro da sua empresa porque são executadas em uma infraestrutura compartilhada. Eles também são bastante flexíveis, pois é possível contratá-los somente para os serviços necessários e executá-los usando somente instâncias temporárias.
As expectativas e os requisitos relacionados à DRaaS são documentados e ficam contidos em um contrato de nível de serviço (SLA). O fornecedor de terceiros então disponibiliza o failover no ambiente de computação em nuvem dele em um modelo de pagamento por uso ou por meio de um contrato.
No entanto, a recuperação após desastres baseada em nuvem poderá não estar disponível após desastres em grande escala, pois o local de recuperação após desastres pode não ter espaço suficiente para executar os aplicativos de todos os usuários. Além disso, como a recuperação após desastres baseada em nuvem aumenta a quantidade de largura de banda necessária, a adição de sistemas complexos poderia prejudicar o desempenho de toda a rede.
Talvez a maior desvantagem da recuperação após desastres baseada em nuvem seja que você tem pouco controle sobre o processo; por isso, você precisa confiar que seu provedor de serviços implementará o plano de recuperação após desastres caso ocorra um incidente e atingirá os objetivos definidos de ponto e tempo de recuperação.
Os custos variam muito entre os fornecedores e podem subir rapidamente se a cobrança for baseada no consumo de armazenamento ou na largura de banda da rede. Portanto, antes de selecionar um fornecedor, é necessário conduzir uma avaliação interna minuciosa para identificar quais são suas necessidades no que diz respeito à recuperação após desastres.
Algumas perguntas a fazer para um possível fornecedor:
Os locais de recuperação após desastres permitem que você recupere e restaure suas operações e sua infraestrutura de tecnologia quando seu data center principal estiver indisponível. Esses locais podem ser internos ou externos.
Enquanto organização, é sua responsabilidade configurar e manter um local interno de recuperação após desastres. Esses locais são necessários para empresas com RTOs muito restritos e grandes exigências de informações. Ao construir seu local interno de recuperação, você deve considerar alguns aspectos, como a configuração de hardware, a manutenção da alimentação, os equipamentos de apoio, o design do layout, sistemas de aquecimento e resfriamento, a localização e a equipe.
Embora seja muito mais caro em comparação com o uso de um local externo, ter um local interno de recuperação permite que você controle todos os aspectos da recuperação após desastres.
Os locais externos são de propriedade de fornecedores de terceiros e são controlados por eles. Eles podem ser:
Durante a década de 1980, duas entidades, a SHARE Technical Steering Committee e a International Business Machines (IBM) desenvolveram um sistema de camadas para descrever os níveis de serviço de recuperação após desastres. O sistema demonstrou a capacidade de recuperação externa, com o nível 0 representando a menor capacidade e o nível 6 indicando a maior capacidade.
Uma sétima camada foi incluída posteriormente para incluir a automação de recuperação após desastres. Hoje em dia, ela representa o nível mais alto de disponibilidade em situações de recuperação após desastres. Em geral, conforme a capacidade de recuperação aumenta a cada nível, os custos também sobem.
A preparação para um desastre não é fácil. Ela requer uma abordagem abrangente que leve tudo em consideração e inclua software, hardware, equipamento de rede, conectividade, alimentação e testes para garantir que é possível realizar a recuperação após desastres dentro dos limites de RPO e RTO. Embora implementar um plano minucioso e acionável de recuperação após desastres não seja uma tarefa fácil, os benefícios que esse plano pode trazer são significativos.
Todos em sua empresa devem estar cientes de qualquer plano de recuperação após desastres e, durante a implementação, uma comunicação eficiente é essencial. É imperativo que, além de desenvolver um plano de recuperação após desastres, você também o teste, treine seus funcionários, documente tudo corretamente e aplique melhorias regularmente. Por fim, tenha cuidado ao contratar os serviços de qualquer fornecedor de terceiros.