Centro de informações

O único guia de recuperação após desastres que você precisa ter

Recuperação após desastres se refere à área de planejamento de segurança que busca proteger sua organização dos efeitos negativos de eventos inesperados. Ela permite que uma empresa mantenha ou rapidamente retome suas funções de missão crítica após um desastre de dados sem danos significativos às operações de negócios ou às receitas.

Existem diversos tipos e tamanhos de desastres. Eles não se referem apenas a eventos catastróficos, como terremotos, tornados ou furacões, mas também a incidentes de segurança, como falhas de equipamentos, ataques cibernéticos ou mesmo terrorismo.

Para se preparar, as empresas e organizações criam planos de recuperação após desastres, detalhando os processos que deverão ser seguidos e as ações que deverão ser tomadas para retomar suas funções de missão crítica.

O que é recuperação após desastres?

A recuperação após desastres se concentra nos sistemas de TI que ajudam a possibilitar as funções críticas para os negócios de uma organização. Muitas vezes, é associada à continuidade dos negócios, mas os dois termos não significam a mesma coisa. A recuperação após desastres é um elemento da continuidade dos negócios. Seu maior foco é manter todos os aspectos dos negócios funcionando apesar da ocorrência de um desastre.

Como os sistemas de TI se tornaram críticos para o sucesso das empresas, a recuperação após desastres agora é um dos principais pilares do processo de continuidade dos negócios.

A maioria dos donos de empresas não costuma considerar a possibilidade de sofrer um desastre natural até que uma crise imprevista ocorra e acabe custando caro ao causar perdas operacionais e econômicas. Esses eventos podem ser imprevisíveis, e como dono de uma empresa, você não pode correr o risco de não ter um plano de preparo para desastres implementado.

Que tipos de desastres as empresas enfrentam?

Os desastres de negócios podem ser tecnológicos, naturais ou causados por intervenção humana. Entre os desastres naturais estão enchentes, tornados, furacões, deslizamentos, terremotos e tsunamis. Por outro lado, os desastres tecnológicos ou causados por intervenção humana envolvem fatores como derramamento de materiais perigosos, falhas de alimentação ou infraestrutura, ameaças de armas químicas e biológicas, colapsos ou explosões de usinas nucleares, ataques cibernéticos, atos de terrorismo, explosões e conflitos civis.

Entre os possíveis desastres para os quais você deve se preparar estão:

  • Falhas em aplicativos
  • Falhas em VMs
  • Falhas em hosts
  • Falhas em racks
  • Falhas de comunicação
  • Desastres em datacenters
  • Desastres em um prédio ou campus
  • Desastres afetando a cidade, a região, o país ou vários países

Por que você precisa de recuperação após desastres

Independentemente de seu tamanho ou do setor que afetam, quando eventos imprevistos ocorrem, causando a interrupção das operações cotidianas, sua empresa precisa se recuperar rapidamente para que você possa continuar oferecendo seus serviços aos clientes.

Tempo de inatividade é possivelmente a maior entre as despesas de TI que uma empresa pode enfrentar. Com base em estatísticas de recuperação após desastres dos anos de 2014 e 2015, divulgadas pela Infrascale, uma hora de inatividade pode custar até US$ 8 mil às empresas de pequeno porte, US$ 74 mil às de médio porte e US$700 mil às grandes organizações.

Para as empresas de pequeno e médio porte, uma perda ampla de produtividade pode levar à redução do fluxo de caixa devido a pedidos perdidos, faturas atrasadas e atrasos em datas de entrega, além de aumentar os custos com mão-de-obra devido a horas extras de esforço para recuperar o tempo de inatividade.

Se não antecipar grandes interrupções em seus negócios e tratá-las adequadamente, você corre o risco de incorrer em consequências e implicações negativas de longo prazo como resultado da ocorrência de desastres inesperados.

Ter um plano de recuperação após desastres implementado pode proteger sua empresa de diversos riscos, como:

  • Danos à reputação
  • Despesas fora do orçamento
  • Perda de dados
  • Impacto negativo para seus clientes

As empresas se acostumaram a contar mais com a alta disponibilidade, e a tolerância para períodos de inatividade diminuiu. Por isso, muitas delas têm um plano de recuperação após desastres implementado para prevenir que efeitos negativos de desastres afetem suas operações diárias.

A essência da recuperação após desastres: objetivos de ponto e tempo de recuperação

As duas medições críticas na área de recuperação após desastres e tempo de inatividade são:

  • Objetivo de ponto de recuperação (RPO): é a idade máxima dos arquivos que sua empresa deverá recuperar do armazenamento de backup para garantir que as operações normais sejam retomadas após um desastre. É o que determinará a frequência mínima de realização de backups. Por exemplo, se o RPO de sua empresa for de quatro horas, seu sistema deverá fazer backup dos dados no mínimo a cada quatro horas.
  • Objetivo de tempo de recuperação (RTO): é o período de tempo máximo de que sua empresa precisa para recuperar os arquivos do backup e retomar as operações normais após um desastre. Em outras palavras, o RTO é o período máximo de tempo de inatividade que sua empresa pode suportar. Se o RTO de sua empresa for de duas horas, isso significa que ela não pode ficar inativa por mais tempo que isso.

Depois que seu RPO e seu RTO forem identificados, seus administradores poderão usar essas duas medidas para escolher as melhores estratégias, procedimentos e tecnologias de recuperação após desastres.

Para recuperar as operações durante janelas de RTO apertadas, é preciso que os dados secundários de sua organização estejam posicionados da maneira ideal para que possam ser acessados com rapidez e facilidade. Um dos métodos adequados usados para restaurar dados rapidamente é a recuperação in loco, pois ela coloca todos os arquivos de dados de backup em um estado ao vivo, eliminando a necessidade de movê-los por meio da rede. Esse método protege os dados contra falhas no servidor e no sistema de armazenamento.

Antes de usar a recuperação in loco, sua empresa precisa levar três aspectos em consideração:

  • O desempenho de seu appliance de backup de disco
  • O tempo necessário para mudar o estado de todos os dados de backup para ao vivo
  • Failback

Além disso, como a recuperação in loco pode, às vezes, levar até 15 minutos, pode ser necessário recorrer à replicação se você estiver buscando um tempo de recuperação menor. Replicação é a atualização ou cópia eletrônica periódica de um banco de dados de um servidor A para um servidor B, o que garante que todos os usuários da rede sempre compartilhem o mesmo nível de informação.

Plano de recuperação após desastres

Um plano de recuperação após desastres é uma abordagem estruturada e documentada com instruções que é implementada para responder a incidentes não planejados. É um plano passo a passo contendo as precauções implementadas para minimizar os efeitos de um desastre e permitir que sua organização possa rapidamente retomar suas funções de missão crítica ou continuar operando normalmente.

Normalmente, o plano de recuperação após desastres inclui uma análise detalhada de todos os processos de negócios e necessidades de continuidade . Além disso, antes de gerar um plano detalhado, sua empresa deve executar uma análise de riscos e uma análise do impacto nos negócios. A empresa também deve definir o RTO e RPO.

1. Estratégias de recuperação

Uma estratégia de recuperação deve começar no nível dos negócios, permitindo que você identifique os aplicativos mais importantes para o funcionamento da organização. As estratégias de recuperação definem os planos de sua organização para responder a incidentes, e os planos de recuperação após desastres descrevem detalhadamente como deve ser essa resposta.

Ao definir uma estratégia de recuperação, você deve considerar questões como:

  • Orçamento
  • Recursos disponíveis, como pessoas e instalações físicas
  • O posicionamento da gerência a respeito dos riscos
  • Tecnologia
  • Dados
  • Fornecedores
  • Fornecedores de terceiros

A gerência deve aprovar todas as estratégias de recuperação, que devem estar alinhadas aos objetivos e às metas da organização. Depois que as estratégias de recuperação forem desenvolvidas e aprovadas, você poderá convertê-las em planos de recuperação após desastres.

2. Etapas do planejamento da recuperação após desastres

O processo de planejamento da recuperação após desastres é muito mais complexo do que simplesmente criar um documento. As análises de riscos e do impacto nos negócios ajudam a identificar as áreas nas quais você deve concentrar recursos no processo de planejamento da recuperação após desastres.

A análise do impacto nos negócios é útil para identificar o efeito de eventos que causam interrupção, tornando-se o ponto de partida para a identificação de riscos dentro do contexto de recuperação após desastres. Ela ainda ajuda a definir o RTO e o RPO.

A análise de riscos identifica vulnerabilidades e ameaças que podem interromper as operações normais dos processos e sistemas destacados na análise do impacto nos negócios. Ela também avalia a probabilidade de ocorrer um evento de interrupção e ajuda a detalhar a possível gravidade dele.

Um plano de recuperação após desastres contém as seguintes etapas:

  • Definição do escopo de atividade
  • Coleta de documentos relevantes sobre a infraestrutura da rede
  • Identificação de ameaças e vulnerabilidades graves e dos ativos críticos da organização
  • Análise do histórico de incidentes não planejados da organização e de como eles foram abordados
  • Identificação das estratégias atuais de recuperação após desastres
  • Identificação da equipe de resposta de emergência
  • Solicitação à gerência de análise e aprovação do plano de recuperação após desastres
  • Testando o plano
  • Atualização do plano
  • Implementação de um plano de auditoria da recuperação após desastres

3. Como criar um plano de recuperação após desastres

A organização pode começar seu plano de recuperação após desastres com um resumo de todas as etapas de ação fundamentais necessárias e uma lista de contatos essenciais para garantir que as informações cruciais possam ser acessadas com rapidez e facilidade.

O plano também deve definir as funções e responsabilidades dos membros da equipe e detalhar os critérios para iniciar o plano de ação. Depois, ele deve especificar detalhadamente as atividades de resposta e recuperação. Outros elementos essenciais de um modelo de plano de recuperação após desastres:

  • Declaração de intenções
  • Declaração da política de recuperação após desastres
  • Metas do plano
  • Ferramentas de autenticação, como senhas
  • Riscos e fatores geográficos
  • Dicas para lidar com a imprensa
  • Informações jurídicas e financeiras
  • Histórico do plano

4. Escopo e objetivos do plano de recuperação após desastres

O escopo de um plano de recuperação após desastres pode variar (ou seja, de um nível básico até um nível abrangente). Alguns podem ultrapassar uma centena de páginas.

Os orçamentos para a recuperação após desastres podem variar e flutuar de modo significativo ao longo do tempo. Por isso, sua organização pode aproveitar quaisquer recursos gratuitos disponíveis, como os modelos online de planos de recuperação após desastres da Agência Federal de Gestão de Emergências dos EUA. Existem também muitas informações e artigos de instruções gratuitos na Internet.

Uma boa lista de verificação de metas do plano de recuperação após desastres deve incluir:

  • Identificar sistemas e redes de TI críticos
  • Priorizar o RTO
  • Definir as etapas necessárias para reiniciar, reconfigurar ou recuperar os sistemas e as redes

O plano deve pelo menos minimizar os efeitos negativos nas operações diárias de negócios. Seus funcionários também devem conhecer as etapas de emergência necessárias para seguir caso ocorram incidentes inesperados.

Embora seja um fator importante, a distância é, muitas vezes, ignorada no processo de planejamento da recuperação após desastres. Um local de recuperação após desastres que fique próximo ao data center principal é o ideal em termos de conveniência, custos, testes e largura de banda. Entretanto, o escopo das interrupções pode variar. Um evento regional grave poderia destruir tanto o data center principal como o local de recuperação após desastres se eles forem próximos um do outro.

5. Tipos de planos de recuperação após desastres


Você pode personalizar um plano de recuperação após desastres de acordo com um ambiente específico.

  • Plano de recuperação após desastres virtualizado: a virtualização permite implementar a recuperação após desastres de maneira simples e eficiente. Usando um ambiente virtualizado, você pode criar novas instâncias de máquinas virtuais (VMs) imediatamente e oferecer uma recuperação de aplicativos de alta disponibilidade. Fazer isso também facilita a realização de testes. Seu plano deve incluir a capacidade de validação para garantir que os aplicativos possam ser executados mais rapidamente no modo de recuperação após desastres e retornar às operações normais de acordo com o RTO e o RPO.
  • Plano de recuperação após desastres para a rede: desenvolver um plano para recuperar uma rede se tornou algo complicado com o aumento na complexidade das redes. Por isso, é essencial detalhar o procedimento de recuperação passo a passo, testá-lo da maneira correta e mantê-lo atualizado. Em um plano de recuperação após desastres para a rede, as informações se referem especificamente a ela; por exemplo, a seu desempenho e à equipe responsável.
  • Plano de recuperação após desastres na nuvem:  um plano de recuperação após desastres baseado na nuvem pode incluir do backup de arquivos ao processo completo de replicação. Um plano de recuperação após desastres na nuvem economiza tempo, espaço e custos; no entanto, sua manutenção requer habilidades e um gerenciamento adequado. Seu gerente de TI deve saber a localização dos servidores físicos e virtuais. Além disso, o plano deve incluir problemas de segurança relacionados à nuvem.
  • Plano de recuperação após desastres para o data center: esse plano é focado nas instalações físicas e na infraestrutura do seu data center. Um elemento essencial desse plano é uma avaliação de riscos operacionais, já que ele analisa os componentes-chave necessários, como o endereço, a segurança, o espaço físico, os sistemas de alimentação e a proteção do prédio. O plano também deve incluir uma gama mais ampla de situações possíveis.

Testes de recuperação após desastres

Fazer testes embasa todos os planos de recuperação após desastres. Os testes identificam deficiências no plano e oferecem oportunidades de corrigir problemas antes que ocorra um desastre. Além disso, os testes também podem comprovar a eficiência do plano e confirmar que ele é capaz de atender aos RPOs.

As tecnologias e os sistemas de TI estão sempre mudando. Por isso, fazer testes garante que seu plano de recuperação após desastres esteja sempre atualizado.

Alguns motivos que podem impossibilitar os testes dos planos de recuperação após desastres são restrições de orçamento, falta de aprovação da gerência ou limitações de recursos. Os testes de planos de recuperação após desastres exigem tempo, planejamento e recursos. Há também o risco de causar um incidente real se dados ativos forem usados nos testes. Entretanto, fazer testes é uma parte essencial do planejamento da recuperação após desastres e uma etapa que nunca deve ser ignorada.

Os testes de recuperação após desastres podem ser simples ou complexos:

  • A análise envolve uma discussão detalhada do plano de recuperação após desastres em busca de elementos ausentes e inconsistências.
  • Em um teste de mesa, os participantes analisam as atividades do plano passo a passo. Isso demonstra se os membros da equipe de recuperação após desastres sabem quais seriam suas responsabilidades durante uma situação de emergência.
  • Um teste de simulação é um teste em escala completa usando recursos como sistemas de backup e locais de recuperação sem a ocorrência de um failover real.
  • Operar em modo de desastre durante um período é outra maneira de testar seus sistemas. Por exemplo, você pode passar a operar no local de recuperação e executar seus sistemas a partir dele durante uma semana.

Sua organização deve incluir um cronograma de testes na política de recuperação após desastres; no entanto, é importante escolher a frequência com cuidado. O cronograma pode acabar ficando invasivo, pois fazer testes muito frequentes pode ser contraproducente e desgastar seus funcionários. Por outro lado, uma frequência muito baixa de testes também é arriscada. Você também deve sempre testar seu plano de recuperação após desastres depois de fazer qualquer alteração significativa no sistema.

Para aproveitar os testes ao máximo:

  • Obtenha aprovação e financiamento
  • Forneça informações detalhadas sobre os testes a todas as partes interessadas
  • Certifique-se de que a equipe de testes esteja disponível na data do teste
  • Agende os testes com cuidado para garantir que não haja conflito com outras atividades ou outros testes
  • Confira se os scripts de teste estão corretos
  • Verifique se o ambiente de teste está pronto
  • Agende primeiro uma simulação
  • Esteja preparado para interromper o teste se necessário
  • Encarregue alguém de tomar notas
  • Preencha um relatório posterior detalhando o que funcionou e o que falhou
  • Use os resultados obtidos para atualizar seu plano de recuperação após desastres

Recuperação após desastres como serviço (DRaaS)

A recuperação após desastres como serviço é um método de recuperação após desastres baseado em nuvem que se tornou popular ao longo dos anos. Isso ocorreu porque a DRaaS reduz custos, é mais fácil de implementar e permite testes regulares.

As soluções de teste em nuvem economizam o dinheiro da sua empresa porque são executadas em uma infraestrutura compartilhada. Eles também são bastante flexíveis, pois é possível contratá-los somente para os serviços necessários e executá-los usando somente instâncias temporárias.

As expectativas e os requisitos relacionados à DRaaS são documentados e ficam contidos em um contrato de nível de serviço (SLA). O fornecedor de terceiros então disponibiliza o failover no ambiente de computação em nuvem dele em um modelo de pagamento por uso ou por meio de um contrato.

No entanto, a recuperação após desastres baseada em nuvem poderá não estar disponível após desastres em grande escala, pois o local de recuperação após desastres pode não ter espaço suficiente para executar os aplicativos de todos os usuários. Além disso, como a recuperação após desastres baseada em nuvem aumenta a quantidade de largura de banda necessária, a adição de sistemas complexos poderia prejudicar o desempenho de toda a rede.

Talvez a maior desvantagem da recuperação após desastres baseada em nuvem seja que você tem pouco controle sobre o processo; por isso, você precisa confiar que seu provedor de serviços implementará o plano de recuperação após desastres caso ocorra um incidente e atingirá os objetivos definidos de ponto e tempo de recuperação.

Os custos variam muito entre os fornecedores e podem subir rapidamente se a cobrança for baseada no consumo de armazenamento ou na largura de banda da rede. Portanto, antes de selecionar um fornecedor, é necessário conduzir uma avaliação interna minuciosa para identificar quais são suas necessidades no que diz respeito à recuperação após desastres.

Algumas perguntas a fazer para um possível fornecedor:

  • Como será o funcionamento da DRaaS com base em nossa infraestrutura existente?
  • Como será a integração entre ela e nossas plataformas de recuperação após desastres e backup atuais?
  • Como os usuários poderão acessar os aplicativos internos?
  • O que acontecerá se você não puder fornecer um serviço de recuperação após desastres do qual precisamos?
  • Durante quanto tempo poderíamos operar em seu data center após um desastre?
  • Quais são seus procedimentos de failback?
  • Como é o seu processo de testes?
  • Vocês oferecem suporte para escalabilidade?
  • Como funciona a cobrança pelo serviço de recuperação após desastres?

Locais de recuperação após desastres

Os locais de recuperação após desastres permitem que você recupere e restaure suas operações e sua infraestrutura de tecnologia quando seu data center principal estiver indisponível. Esses locais podem ser internos ou externos.

Enquanto organização, é sua responsabilidade configurar e manter um local interno de recuperação após desastres. Esses locais são necessários para empresas com RTOs muito restritos e grandes exigências de informações. Ao construir seu local interno de recuperação, você deve considerar alguns aspectos, como a configuração de hardware, a manutenção da alimentação, os equipamentos de apoio, o design do layout, sistemas de aquecimento e resfriamento, a localização e a equipe.

Embora seja muito mais caro em comparação com o uso de um local externo, ter um local interno de recuperação permite que você controle todos os aspectos da recuperação após desastres.

Os locais externos são de propriedade de fornecedores de terceiros e são controlados por eles. Eles podem ser:

  • "Hot": um data center totalmente funcional e completo, com hardware e software, equipe de cobertura 24 horas por dia e dados dos funcionários e clientes.
  • "Warm":  é um data center equipado, mas sem os dados dos clientes. É possível instalar equipamentos adicionais ou introduzir os dados dos clientes.
  • "Cold":  tem uma infraestrutura implementada para oferecer suporte aos dados e sistemas de TI. Entretanto, o local não tem nenhuma tecnologia até a empresa cliente ativar os planos de recuperação após desastres e instalar equipamentos. Em alguns casos, pode complementar locais dos tipos "warm" e "hot" durante desastres de longa duração.

Níveis de recuperação após desastres

Durante a década de 1980, duas entidades, a SHARE Technical Steering Committee e a International Business Machines (IBM) desenvolveram um sistema de camadas para descrever os níveis de serviço de recuperação após desastres. O sistema demonstrou a capacidade de recuperação externa, com o nível 0 representando a menor capacidade e o nível 6 indicando a maior capacidade.

Uma sétima camada foi incluída posteriormente para incluir a automação de recuperação após desastres. Hoje em dia, ela representa o nível mais alto de disponibilidade em situações de recuperação após desastres. Em geral, conforme a capacidade de recuperação aumenta a cada nível, os custos também sobem.

A conclusão?

A preparação para um desastre não é fácil. Ela requer uma abordagem abrangente que leve tudo em consideração e inclua software, hardware, equipamento de rede, conectividade, alimentação e testes para garantir que é possível realizar a recuperação após desastres dentro dos limites de RPO e RTO. Embora implementar um plano minucioso e acionável de recuperação após desastres não seja uma tarefa fácil, os benefícios que esse plano pode trazer são significativos.

Todos em sua empresa devem estar cientes de qualquer plano de recuperação após desastres e, durante a implementação, uma comunicação eficiente é essencial. É imperativo que, além de desenvolver um plano de recuperação após desastres, você também o teste, treine seus funcionários, documente tudo corretamente e aplique melhorias regularmente. Por fim, tenha cuidado ao contratar os serviços de qualquer fornecedor de terceiros.

Precisando de um plano de recuperação após desastres de nível empresarial para sua organização? A Veritas pode ajudar. Entre em contato conosco agora mesmo para receber uma ligação de um de nossos representantes.

O portfólio da Veritas fornece todas as ferramentas necessárias para uma empresa resiliente. De ransomware ou brecha de dados a um evento de “cisne negro”, a Veritas cobre em grande escala. Saiba mais sobre a resiliência de dados.

Entre os clientes da Veritas estão 95% das empresas da Fortune 100, e o NetBackup™ é a primeira opção para as organizações que desejam fazer backup de grandes quantidades de dados.

Saiba como a Veritas mantém seus dados totalmente protegidos em cargas de trabalho virtuais, físicas, na nuvem e legadas com seus serviços de proteção de dados para empresas.