정보 센터

기업의 필수 재해 복구 가이드

재해 복구(DR)는 심각한 역효과를 초래할 수 있는 이벤트의 부정적인 영향으로부터 기업을 보호하기 위한 보안 계획 영역입니다. 기업은 DR을 통해 비즈니스 운영 또는 매출 측면의 심각한 손실 없이 데이터 재해 발생 후 미션 크리티컬 기능을 그대로 유지하거나 신속하게 재개할 수 있습니다.

재해는 다양한 형태와 규모로 발생할 수 있습니다. 여기에는 지진이나 토네이도, 허리케인 같은 재해뿐만 아니라 장비 고장, 사이버 공격, 테러 등의 보안 관련 사고도 포함됩니다.

기업은 대비 과정에서 미션 크리티컬 기능을 다시 시작하기 위해 따라야 할 프로세스와 조치를 포함한 DR 계획을 수립합니다.

재해 복구란?

재해 복구는 기업의 중요 비즈니스 기능을 지원하는 IT 시스템에 중점을 둡니다. 종종 비즈니스 연속성이라는 용어와 연관되지만 이 둘의 의미가 완전히 동일하지는 않습니다. DR은 비즈니스 연속성의 일환입니다. 재해가 발생해도 모든 비즈니스 부문이 문제없이 실행되도록 유지하는 데 집중합니다.

비즈니스 성공에서 IT 시스템의 중요성이 커짐에 따라, 재해 복구가 비즈니스 연속성이라는 프로세스에서 중요한 요소로 자리잡게 되었습니다.

대부분의 비즈니스 소유자는 실제로 예기치 않은 위기가 발생할 때까지 본인이 자연 재해의 피해자가 되리라는 생각을 하지 못합니다. 결국 운영 및 경제적 손실로 회사에 엄청난 비용이 발생하는 결과를 맞게 됩니다. 이러한 사고는 예측할 수 없으므로 비즈니스 소유자는 재해 대비 계획을 제대로 마련해야 할 것입니다.

비즈니스 재해 유형

비즈니스 재해는 기술적 재해, 인적 재해 또는 자연 재해일 수 있습니다. 자연 재해의 예로는 홍수, 토네이도, 허리케인, 산사태, 지진, 쓰나미 등이 있습니다. 인적 및 기술적 재해에는 유해 물질 유출, 전력 또는 인프라스트럭처 장애, 화학 및 생물학적 무기 위협, 원자력 발전소 폭발 또는 붕괴, 사이버 공격, 테러 행위, 폭발, 시민 소요 등이 포함됩니다.

계획 시 고려해야 할 잠재적 재해는 아래와 같습니다.

  • 애플리케이션 장애
  • VM 오류
  • 호스트 실패
  • 랙 오류
  • 통신 오류
  • 데이터 센터 재해
  • 건물 또는 캠퍼스 재해
  • 도시 전역, 지역적, 국가적, 다국적 재해

DR이 필요한 이유

규모나 산업에 관계없이 예기치 않은 상황이 발생하면 일상 업무가 중단되므로 기업은 고객 및 클라이언트에게 계속 서비스를 제공할 있도록 빠르게 복구를 수행해야 합니다.

다운타임은 비즈니스가 직면하는 가장 큰 IT 비용에 해당할 것입니다. Infrascale의  2014-2015 재해 복구 통계에 따르면, 다운타임 1시간을 기준으로 소기업에서는 8,000달러, 중견기업은 74,000달러, 대기업은 700,000달러의 비용이 발생합니다.

중소기업의 경우 생산성 하락이 계속되면서 주문 취소, 인보이스 발행 지연, 배송 날짜 누락, 다운타임 복구 노력에 따른 추가 근무 시간으로 인한 인건비 증가 등, 현금 흐름 감소라는 결과로 이어지게 됩니다.

기업이 비즈니스의 주요 중단 사태를 예상하지 못하고 적절하게 해결하지 못한다면 예기치 않은 재해 발생으로 장기간의 부정적인 결과와 영향을 초래할 위험성이 있습니다.

DR 계획을 제대로 수립하면 아래와 같은 다양한 리스크를 해소할 수 있습니다.

  • 평판 저하
  • 예산 경비 초과
  • 데이터 손실
  • 클라이언트와 고객에게 미치는 부정적인 영향

고가용성에 대한 기업의 의존도가 더 커지는 반면, 다운타임 허용도는 현저히 낮은 상태입니다. 따라서 많은 기업이 DR을 제대로 수립하여 부정적인 재해 효과가 일상 업무에 영향을 주지 않도록 하려 합니다.

DR의 본질: 복구 시점 목표(RPO)와 복구 시간 목표(RTO)

DR과 다운타임의 두 가지 중요한 측정법은 아래와 같습니다.

  • 복구 시점 목표(RPO): 재해 발생 후 기업이 백업 스토리지로부터 복구하여 정상 운영을 재개해야 하는 최대 파일 저장 기간을 가리킵니다. RPO에 따라 최소 백업 빈도가 결정됩니다. 예를 들어, 기업의 RPO가 4시간이라면 시스템은 4시간마다 백업해야 합니다.
  • 복구 시간 목표(RTO): 재해 발생 후 기업이 백업에서 파일을 복구하고 정상 운영을 재개하기 위해 필요한 최대 시간을 가리킵니다. 따라서 RTO는 기업이 감내할 수 있는 최대 다운타임 시간에 해당합니다. 기업의 RTO가 2시간이라면 2시간이 넘는 가동 중단을 견딜 수 없는 것입니다.

일단 RPO와 RTO를 확인하고 나면 관리자들이 두 가지 측정법을 사용하여 최적의 재해 복구 전략, 절차, 기술을 선택할 수 있습니다.

엄격한 RTO 기간 중 운영을 복구하려면 기업에서 쉽고 빠르게 액세스할 수 있도록 보조 데이터를 최적으로 배치해야 합니다. 데이터를 빠르게 복원하는 데 사용되는 한 가지 방법은 적절한 복구(recovery-in-place)로, 모든 백업 데이터 파일을 라이브 상태로 옮기기 때문에 네트워크 전체에 걸쳐 이동할 필요가 없습니다. 이와 같이 서버 및 스토리지 시스템 오류로부터 보호할 수 있습니다.

적절한 복구(recovery-in-place)를 사용하기 전에 기업은 다음 세 가지를 고려해야 합니다.

  • 디스크 백업 어플라이언스의 성능
  • 백업 상태에서 라이브 상태로 모든 데이터를 이전하는 데 필요한 시간
  • 페일백

적절한 복구(recovery-in-place)에 최대 15분이 소요될 수 있으므로 복구 시간을 단축하려면 복제가 필요할 수도 있습니다. 복제는 A라는 시스템 서버에서 B라는 서버로 데이터베이스를 복사하거나 정기적으로 온라인 새로 고침을 수행하는 것을 의미합니다. 이렇게 하면 네트워크의 모든 사용자가 동일한 정보 수준을 공유하게 됩니다.

재해 복구 계획(DRP)

재해 복구 계획은 계획하지 않은 보안 사고에 대응하여 지침을 제공하기 위해 체계적으로 문서화된 접근법입니다. 재해의 영향을 최소화하기 위한 예방 조치로 구성된 단계별 계획으로, 기업은 이를 통해 신속하게 미션 크리티컬 기능을 재개하거나 계속해서 평소처럼 운영할 수 있습니다.

일반적으로 DRP에는 모든 비즈니스 프로세스와 연속성 니즈에 대한 심층 분석이 포함됩니다. 기업은 상세한 계획을 수립하기 전에 먼저 리스크 분석(RA)과 비즈니스 영향 분석(BIA)을 수행해야 하며, RTO와 RPO도 설정해야 합니다.

1. 복구 전략

복구 전략은 비즈니스 레벨에서 시작해야 하며, 이를 통해 기업 운영에 가장 중요한 애플리케이션을 결정할 수 있습니다. 복구 전략은 보안 사고 대응을 위한 기업의 계획을 정의하는 한편, DRP는 대응 방법을 자세하게 설명합니다.

복구 전략을 결정할 때는 아래와 같은 문제를 고려해야 합니다.

  • 예산
  • 사용 가능한 리소스(예: 인력 및 물리적 설비)
  • 리스크에 대한 경영진의 입장
  • 기술
  • 데이터
  • 공급업체
  • 타사 벤더

경영진은 모든 복구 전략을 승인해야 하며, 조직의 목표 및 목적에 맞춰 조정해야 합니다. 복구 전략을 개발하고 승인한 후에는 DRP로 변환할 수 있습니다.

2. 재해 복구 계획 단계

이 DRP 프로세스는 단순히 문서를 작성하는 것 이상을 의미합니다. 비즈니스 영향 분석(BIA)과 리스크 분석(RA)을 통해 DRP 프로세스에서 리소스를 집중할 영역을 결정할 수 있습니다.

BIA는 중단 사고가 미치는 영향을 확인하기 위해 유용하며, 이는 DR 상황에서 리스크를 식별하는 시작점이 될 수 있습니다. 또한 RTO와 RPO를 생성하는 데 도움이 됩니다.

리스크 분석은 BIA에서 강조한 프로세스와 시스템의 정상 운영을 방해할 수 있는 취약점과 보안 위협을 식별합니다. RA는 중단 사고의 발생 가능성을 평가하고 잠재적인 심각도를 간략히 설명합니다.

DR 계획 체크리스트 단계는 아래와 같습니다.

  • 활동 범위 수립
  • 관련 네트워크 인프라스트럭처 문서 수집
  • 기업의 중요 자산을 비롯해 심각한 보안 위협 및 취약점 식별
  • 예기치 않은 보안 사고 및 그 처리에 관한 기업의 이력 검토
  • 현재 DR 전략 확인
  • 비상 대응 팀 확인
  • 경영진의 DRP 검토 및 승인
  • 계획 테스트
  • 계획 업데이트
  • DR 계획 감사 이행

3. DRP 생성

기업은 필수 연락처 목록과 필요한 모든 중요 조치 단계 요약과 함께 DRP를 시작합니다. 중요 정보에 쉽고 빠르게 액세스할 수 있습니다.

이 계획은 팀 구성원의 역할 및 책임을 정의하고 조치 계획을 실행하는 기준도 간략히 설명합니다. 그런 다음 대응 및 복구 활동을 세부적으로 지정해야 합니다. 그 외 DRP 템플릿의 필수 요소는 아래와 같습니다.

  • 의향서
  • DR 정책 진술서
  • 계획 목표
  • 인증 툴(예: 비밀번호)
  • 지리적 리스크 및 요인
  • 언론 대처 관련 팁
  • 법률 및 재무 정보
  • 계획 이력

4. DRP 범위 및 목표

DRP는 범위를 지정할 수 있습니다(예: 기본 범위부터 통합 범위까지). 경우에 따라 100페이지가 넘을 수도 있습니다.

DR 예산은 시간이 경과하면서 크게 달라질 수 있습니다. 이에 따라 기업은 미연방 재난 관리청(Federal Emergency Management Agency)으로부터 온라인 DR 계획 템플릿 같은 무료 리소스를 활용할 수 있습니다. 온라인에는 무료 정보와 방법에 대한 자료도 많이 제공됩니다.

DRP 목표 체크리스트에는 다음이 포함됩니다.

  • 중요 IT 네트워크 및 시스템 확인
  • RTO 우선 순위 지정
  • 시스템과 네트워크를 다시 시작, 재구성 또는 복구하는 데 필요한 단계 요약

아무리 사소한 계획이라도 일상 업무 운영에 미치는 부정적인 영향을 최소화할 수 있어야 합니다. 또한 직원들이 예기치 않은 보안 사고가 발생했을 때 따라야 할 필수적인 비상 단계를 숙지해야 합니다.

이때 거리가 중요함에도 DRP 프로세스에서 간과되는 경우가 많습니다. 편의성, 비용, 테스트, 대역폭 등의 관점에서 볼 때 기본 데이터 센터에 가깝게 DR 사이트를 두는 것이 이상적입니다. 정전은 범위가 전혀 다른 문제로, 심각한 지역적 사고가 발생했을 때 기본 데이터 센터와 해당 DR 사이트가 서로 가까이 있으면 둘 다 파괴될 수도 있습니다.

5. 재해 복구 계획의 유형

해당 환경에 따라 DRP를 조정할 수 있습니다.

  • 가상화 DRP: 가상화를 통해 효율적이고 단순명료한 방식으로 DR을 구현할 수 있습니다. 가상화 환경을 사용하는 경우 즉시 새로운 가상 시스템(VM) 인스턴스를 생성하고 가용성이 높은 애플리케이션 복구를 제공할 수 있습니다. 아울러 테스트도 더 쉽게 시행할 수 있습니다. 계획에 가상화 기능을 포함시켜 DR 모드에서 애플리케이션이 더 빠르게 실행되고 RTO와 RPO 내에서 정상 운영으로 복구할 수 있도록 해야 합니다.
  • 네트워크 DRP: 네트워크 복잡성이 증가하는 상황에서 네트워크를 복구할 계획을 수립하는 것은 매우 번거로운 일입니다. 따라서 단계별로 복구 절차를 자세히 설명하고 제대로 테스트하며 최신 상태를 유지하는 것이 필요합니다. 네트워크 DRP의 경우 데이터는 네트워크, 즉 성능과 네트워크 직원 등에 따라 달라집니다.
  • 클라우드 DRP: 클라우드 기반 DR은 파일 백업부터 전체 복제 프로세스에 이르기까지 다양합니다. 클라우드 DRP는 시간, 공간, 비용 효율적인 방식을 채택하지만 클라우드 DRP를 유지하기 위해서는 기술과 적절한 관리가 필요합니다. IT 관리자는 물리적 서버와 가상 서버의 위치를 모두 알고 있어야 합니다. 또한 클라우드와 관련된 보안 문제도 해결해야 합니다.
  • 데이터 센터 DRP: 이 계획은 데이터 센터 설비와 해당 인프라스트럭처에 중점을 둡니다. 이 DRP의 주요 요소 중 하나로 필요한 핵심 구성 요소(예: 건물 위치, 보안, 사무실 공간, 전력 시스템 및 보호)를 분석하는 운영 리스크 요소 평가를 들 수 있습니다. 이 경우 광범위한 시나리오를 다루어야 합니다.

재해 복구 테스트

테스트를 통해 모든 DRP를 입증하며, 계획의 결점을 확인하여 재해가 발생하기 전에 문제를 해결할 수 있는 기회를 제공합니다. 또한 테스트는 해당 계획의 효과를 입증하고 RPO에 맞춥니다.

IT 기술과 시스템은 계속하여 변화합니다. 따라서 테스트를 통해 기업의 DRP가 최신 상태인지 확인해야 합니다.

DRP를 테스트하지 않는 이유로는 예산 제한, 경영진의 승인 부재, 리소스 제한 등이 포함됩니다. DR 테스트에는 시간과 계획, 리소스도 필요합니다. 이때 라이브 데이터를 사용하므로 보안 사고가 발생할 위험도 있습니다. 하지만 테스트는 절대 무시해서는 안 될 DR 계획의 중요 단계입니다.

DR 테스트는 단순 테스트에서 복합 테스트까지 다양합니다.

  • 계획 검토에는 DRP에 대한 상세한 논의가 포함되며, 누락된 요소와 불일치를 찾아냅니다.
  • 테이블 테스트에서는 참가자들이 계획의 활동을 단계별로 설명합니다. 여기서는 DR 팀원이 비상 상황에서 본인의 의무를 숙지하고 있는지 보여줍니다.
  • 시뮬레이션 테스트는 전체 규모의 테스트로, 실제 페일오버 없이 백업 시스템 및 복구 사이트와 같은 리소스를 사용합니다.
  • 일정 기간 동안 재해 모드로 실행하는 것 역시 시스템 테스트의 또 다른 방법입니다. 예를 들어, 복구 사이트로 페일오버를 시행하고 시스템이 1주일 동안 실행되도록 한 후 페일백하는 것입니다.

기업은 DR 정책에 따라 테스트 일정을 예약해야 하지만, 이때 방해 요소에 주의해야 합니다. 이는 테스트를 너무 자주 시행하면 생산성이 저하되고 인력이 낭비될 수 있기 때문입니다. 반면 테스트 주기가 너무 긴 것도 위험합니다. 중대한 시스템 변경이 수행된 후에는 항상 DR 계획을 테스트하도록 하십시오.

테스트를 최대한 활용하려면 다음을 수행하십시오.

  • 경영진의 승인 및 자금 확보
  • 관련 당사자에게 자세한 테스트 정보 제공
  • 테스트 팀이 테스트 날짜에 수행 가능한지 확인
  • 다른 활동이나 테스트와 상충하지 않도록 테스트 일정 예약
  • 테스트 스크립트가 올바른지 확인
  • 테스트 환경이 준비되어 있는지 확인
  • 예행 연습 일정을 우선적으로 예약
  • 필요한 경우 테스트를 중단할 수 있도록 대비
  • 과정 기록
  • 작업의 성공 및 실패 원인을 설명하는 사후 조치 리포트 작성
  • 수집된 결과를 사용하여 DR 계획 업데이트

재해 복구 서비스(DRaaS)

재해 복구 서비스(DRaaS) 는 클라우드 기반 DR 방식으로, 최근 몇 년간 인기를 모으고 있습니다. DRaaS가 비용을 절감하고 구축이 용이하며 정기적인 테스트를 할 수 있기 때문입니다.

클라우드 테스트는 공유 인프라스트럭처에서 실행되면서 기업의 비용을 절감합니다. 또한 상당히 유연하여 필요한 서비스만 등록하고 임시 인스턴스만 가동하여 DR 테스트를 완료할 수 있습니다.

DRaaS의 예측과 요건은 SLA(서비스 수준 계약)에 문서화되어 있습니다. 타사 벤더는 사용량에 따른 지불 기준 또는 계약을 통해 자사의 클라우드 컴퓨팅 환경에 페일오버를 제공합니다.

하지만 대규모 재해 발생 후 클라우드 기반 DR은 사용하지 못할 수 있는데, 이는 해당 DR 사이트에 모든 사용자의 애플리케이션을 실행할 공간이 충분하지 않을 수 있기 때문입니다. 또한 클라우드 DR에서 대역폭 수요가 증가하므로 복잡한 시스템을 추가하면 전체 네트워크의 성능이 저하될 수 있습니다.

클라우드 DR의 가장 큰 단점은 아마 기업에 프로세스에 대한 제어 권한이 거의 없다는 점일 것입니다. 즉, 정의된 RPO와 RTO를 충족하면서 보안 사고 상황 발생 시 DRP를 구현하는 것을 전적으로 서비스 제공업체에 맡겨야 합니다.

비용은 벤더별로 크게 다를 수 있으며, 벤더가 스토리지 소비나 네트워크 대역폭을 기준으로 비용을 청구하는 경우 더 올라갈 수 있습니다. 그러므로 제공업체를 선정하기 전에 철저한 내부 평가를 거쳐 기업의 DR 수요를 확인해야 합니다.

제공업체 선정 시 아래와 같이 질문하십시오.

  • DRaaS가 기존 인프라스트럭처를 기반으로 어떻게 작동할 것인가?
  • 기존 DR과 백업 플랫폼에 어떻게 통합될 것인가?
  • 사용자가 내부 애플리케이션에 액세스하려면 어떻게 해야 하는가?
  • 필요한 DR 서비스를 제공하지 못하는 경우 어떻게 되는가?
  • 재해 발생 후 데이터 센터에서 얼마나 오래 실행할 수 있는가?
  • 페일백 절차는 무엇인가?
  • 테스트 프로세스는 어떻게 되는가?
  • 확장성을 지원하는가?
  • DR 서비스의 요금 체계는 어떠한가?

재해 복구 사이트

기본 데이터 센터를 사용할 수 없는 경우 DR 사이트를 통해 기술 인프라스트럭처 및 운영을 복구하고 복원할 수 있습니다. 이러한 사이트는 내부 또는 외부가 될 수 있습니다.

기업은 내부 DR 사이트를 설치하고 관리할 책임이 있습니다. 이러한 사이트는 엄격한 RTO와 대규모 정보 요건을 보유한 기업에 반드시 필요합니다. 내부 복구 사이트를 구축할 때 고려해야 할 사항으로는 하드웨어 구성, 전력 유지 보수, 지원 장비, 레이아웃 디자인, 냉난방, 위치, 직원 등을 들 수 있습니다.

외부 사이트에 비해 훨씬 비용이 많이 들지만 내부 DR 사이트를 사용하는 경우 DR 프로세스의 모든 측면을 제어할 수 있습니다.

외부 사이트는 타사 벤더가 소유하고 관리하며, 다음 중 하나일 수 있습니다.

  • 핫(Hot): 하드웨어 및 소프트웨어, 24시간 상주 직원, 인력 및 고객 데이터 등을 구비하고 완전히 기능하는 데이터 센터입니다.
  • 웜(Warm): 고객 데이터 외에 나머지 장비를 구비한 데이터 센터입니다. 클라이언트는 추가 장비를 설치하거나 고객 데이터를 도입할 수 있습니다.
  • 콜드(Cold): 데이터 및 IT 시스템을 지원하도록 인프라스트럭처를 마련합니다. 하지만 클라이언트 조직에서 DR 계획을 시행하고 장비를 설치하기까지는 기술이 없습니다. 경우에 따라 장기간 재해가 발생하는 동안 웜 사이트와 핫 사이트를 보완하기도 합니다.

재해 복구 티어

1980년대, SHARE Technical Steering Committee와 IBM(International Business Machines)은 DR 서비스 레벨을 설명하는 티어 시스템을 제시했습니다. 여기서는 티어 0일 때 오프사이트 회복력이 최저 수준이고 티어 6에서 최고 수준입니다.

DR 자동화를 포함하기 위해 7번째 티어가 나중에 추가되었습니다. 현재 이 시스템은 DR 시나리오에서 최고의 가용성 레벨을 나타냅니다. 일반적으로 복구 능력이 티어별로 향상되면서 비용 역시 증가합니다.

결론

재해 대비는 쉽지 않습니다. 모든 것을 고려하되 소프트웨어, 하드웨어, 네트워킹 장비, 연결성, 전력 등을 아우르는 포괄적인 접근 방식을 사용하고 RPO와 RTO 목표 내에 재해 복구가 달성되도록 테스트하는 것까지 포함해야 합니다. 철저하면서 실행 가능한 재해 복구 계획을 구현하는 것은 만만치 않지만 그로 인한 잠재적인 혜택 또한 상당합니다.

회사의 모든 직원이 재해 복구 계획을 제대로 알고 있어야 하며 구현 중에 효과적인 의사 소통이 반드시 필요합니다. 기업은 DR 계획을 개발하고 이를 테스트하며 직원을 훈련하고 모든 사항을 정확히 문서화하면서 정기적으로 개선해야 합니다. 마지막으로, 타사 벤더의 서비스를 도입할 때는 주의해야 합니다.

귀사에 적합한 엔터프라이즈급 재해 복구 계획이 필요하십니까? 베리타스가 도와드리겠습니다. 지금 연락처로 문의하여 담당자와 통화하십시오.

베리타스 포트폴리오는 기업의 레질리언스를 위해 필요한 모든 툴을 제공합니다. 랜섬웨어 또는 데이터 유출부터 "블랙 스완" 이벤트에 이르기까지 베리타스는 어떤 규모의 상황도 지원합니다. 데이터 레질리언스에 대해 자세히 알아보십시오.

베리타스 고객 중에는 Fortune지 선정 100대 기업의 95%가 포함되어 있으며 NetBackup™은 방대한 데이터를 백업하려는 기업에게 선택 1순위의 제품입니다.

가상, 물리적, 클라우드 및 레거시 워크로드에서 데이터를 완벽하게 보호하는 베리타스의 방식이 궁금하다면, 엔터프라이즈 비즈니스를 위한 데이터 보호 서비스에서 확인하십시오.