灾难恢复 (DR) 是指旨在保护企业免受重大负面事件不良影响的安全计划领域。凭借灾难恢复,企业可在发生数据灾难后维持正常运行或快速恢复其关键任务功能,而不会造成业务运营或收入的重大损失。
灾难的形态和规模不一。它们不仅包括诸如地震、龙卷风或飓风之类的灾难性事件,还涵盖诸如设备故障、网络攻击甚至被归类为灾难的恐怖主义之类的安全事件。
为应对这些灾难,组织机构和企业应创建灾难恢复计划,详细规划要遵循的流程和措施以恢复关键任务功能。
灾难恢复重点围绕支持组织关键业务功能的 IT 系统。它经常与业务连续性一词相关联,但二者不能完全等换。灾难恢复是业务连续性的一部分。它更侧重在灾难来临时保证所有业务正常运转。
IT 系统现成已成为业务成功的关键,因此灾难恢复当下是业务连续性流程的主要支柱。
大多数业主往往都不会认为自己会是自然灾害的受害者,直到无法预见的危机让公司付出巨大的运营和经济损失才幡然悔悟。这些事件无法预测,但作为企业主,您应居安思危,积极制定灾难应对计划。
企业灾难可能是技术、自然或人为层面的。自然灾害包括洪水、龙卷风、飓风、滑坡、地震和海啸。不过,人为和技术灾难涉及的面较广,包括危险物质泄漏、电力或基础设施故障、化学和生物武器威胁、核电站爆炸或熔毁、网络攻击、恐怖主义行为、爆炸和内乱。
计划应对的潜在灾难包括:
无论规模或行业如何,在不可预见的事故造成日常运营中断后,您公司首先要做的就是快速恢复,确保继续服务个人客户和公司客户。
停机时间或许是企业面临的最大 IT 开支。根据 Infrascale 的 2014-2015 灾难恢复统计数据,一小时的停机时间可能引发的成本如下:小企业 8,000 美元、中型公司 74,000 美元,大企业 700,000 美元。
对于中小型企业来说 (SMB),生产力的持续下降会导致现金流吃紧、订单丢失、开票延误、错过交货日期,以及因停机恢复需要额外工时而导致劳动力成本上涨。
如果您未料到重大中断可能性并采取适当的对策,则意外灾难的发生会给您的企业造成长期的负面影响。
制定灾难恢复计划可让企业规避多种风险,包括:
企业越来越依赖高可用性,因此,对停机时间的容忍度就越来越低。由此,很多企业制定灾难恢复计划,防止灾难影响日常运营。
灾难恢复和停机时间的两个关键指标分别是:
确定了 RPO 和 RTO 后,管理员就可以使用两种指标选择最佳的灾难恢复战略、流程和技术。
要在更紧凑的 RTO 时段内恢复运营,您的企业应优化次要数据的位置,确保可轻松快速访问该数据。有一种快速还原数据的方法是就地还原,它可将所有备份数据文件迁移到实时状态,从而无需在网络中移动数据。它可保护服务器和存储系统,以防出现故障。
使用就地还原前,企业应注意三个考虑事项:
此外,就地恢复有时可能需要 15 分钟,因此如果您要缩短恢复时间,则可能需要复制技术。复制指的是定期电子更新或复制数据库(从计算机服务器 A 到服务器 B),从而确保网络中的所有用户共享相同的信息。
灾难恢复计划指的是结构化的书面方案,说明如何应对计划外事件。这是一个分步计划,其中包括为尽量减少灾难的影响而采取的预防措施,以便您的企业快速恢复关键任务功能或继续正常运行。
一般来说,DRP 包括深度分析全部业务流程和连续性需求。此外,在制定详细的计划前,您的企业应执行风险分析 (RA) 和业务影响分析 (BIA)。同时还应确定 RTO 和 RPO。
恢复战略应从业务级别开始,可用于确定企业运营最重要的应用程序。恢复战略可定义企业响应事件的计划,而 DRP 则详细说明您应如何应对。
确定恢复战略时,您应考虑如下几点:
管理层必须批准与企业使命和目标一致的恢复策略。制定和批准恢复战略后,您就可以将它们转换为 DRP。
DRP 流程涉及的不只是文档编写而已。业务影响分析和风险分析有助于确定 DRP 流程中集中资源处理的领域。
BIA 有助于识别破坏性事件的影响,这是在灾难恢复背景下识别风险的着手点。它还有助于生成 RTO 和 RPO。
风险分析可找出可能中断 BIA 中突出显示的流程和系统正常运行的漏洞和威胁。风险分析还可以评估破坏性事件发生的几率,帮助大致确定潜在严重性。
灾难恢复计划清单包括以下步骤:
组织创建 DRP 时应首先列出所有重要行动步骤的摘要以及必要联系人名单,以确保轻松快速地访问重要信息。
计划还应确定团队成员的角色和职责,同时列出启动行动计划的条件。它必须详细指定响应措施和恢复操作。DRP 模板的其他必要元素包括:
DRP 范围有大有小,有基本的计划,也有详尽的计划。有些计划可能会达到 100 页。
灾难恢复预算也千差万别,而且会随时间逐渐波动。因此,组织可尽量利用一切免费资源,例如美国联邦紧急管理总署的在线灾难恢复计划模板。线上还有大量的免费资源和操作方法文章。
DRP 目标清单包括:
计划应至少控制对日常运营业务造成的不良影响。员工还应知晓发生不可预测事件后需采取的必要紧急措施。
距离虽然也很重要,但在 DRP 过程中会经常被忽略。从便利、成本、测试和带宽方面考虑,靠近主数据中心的灾难恢复站点是最理想的选择。不过,从中断范围角度考虑,如果两个位置相距很近,严重的地区事件可能会破坏主要数据中心及其灾难恢复站点。
您可根据环境要求定制 DRP。
测试可证实所有 DRP 的效用。它可找出计划缺陷,从而借机修复任何问题。测试还可以证明该计划的有效性以及是否达到 RPO 目标。
IT 技术和系统在不断演进。因此,测试可确保 DRP 处于最新状态。
有些企业可能出于预算限制、管理层不批或资源限制等理由不实施 DRP 测试。灾难恢复测试还耗时间和资源,而且要提前规划。如果要用到实时数据,可能还会引发事件风险。不过,测试是灾难恢复规划不可忽视的必要一环。
灾难恢复测试或简单或复杂,难度不一:
您的组织应根据灾难恢复策略安排测试,不过注意不要干扰正常运行。因为测试过于频繁也会适得其反,浪费人力。另一方面来说,不常测试也存在风险。此外,务必在大改系统后测试灾难恢复计划。
要充分利用测试:
灾难恢复即服务是一种基于云的灾难恢复方法,近年来越来越受欢迎。这是因为 DRaaS 降低了成本,简化了部署,而且支持定期测试。
云测试可以在共享基础架构上运行,因而可节省大笔资金。它们还相当灵活,您只要注册所需的服务,启用临时实例就能完成灾难恢复测试。
DRaaS 的期望和要求都有书面规定,具体可见服务级别协议 (SLA)。第三方供应商实行故障转移至自己云环境的收费有两种方式:按用量或合同形式。
不过,基于云的灾难恢复在大规模灾难后并不可行,因为灾难恢复站点没有足够的空间来运行每个用户的应用程序。此外,由于云灾难恢复对带宽要求更高,再加上复杂系统,很可能会降低整个网络的性能。
云灾难恢复的最大缺点可能是您几乎无法控制该流程,因此,在发生事件后,您必须委托服务提供商实施 DRP,同时要满足定义的恢复点目标和恢复时间目标。
供应商之间的成本差异很大,如果供应商根据存储用量或网络带宽收费,那成本无疑上涨得更快。因此,在选择提供商前,您应进行全面的内部评估,确定您的灾难恢复需求。
该提问潜在提供商的一些问题包括:
当主数据中心不可用时,灾难恢复站点可让您恢复和还原技术基础架构和操作。这些站点可以是内部,也可以是外部的。
企业应负责设置和维护内部灾难恢复站点。如果公司的 RTO 时间短,而且有大量信息需求,则务必配置这些站点。构建内部恢复站点的一些考量因素包括硬件配置、电源维护、支持设备、布局设计、暖通空调、位置和人员配备。
尽管与外部站点相比,内部站点成本高得多,但您可以控制灾难恢复流程的方方面面。
外部站点由第三方拥有和运行。它们可能是:
在 1980 年代,SHARE 技术指导委员会和 IBM 这两家机构提出了用层级系统描述灾难恢复服务级别。该系统显示了异地可恢复性,级别 0 代表最少的数量,级别 6 代表最多的数量。
后来增加了第 7 层,以包括灾难恢复自动化。今天,它代表了灾难恢复场景中的最高可用性级别。一般来说,恢复能力逐层提高,成本也逐级上涨。
灾难的应对准备工作并非易事。您应采用综合性方法,将所有因素都考虑在内,包括软件、硬件、网络设备、连接性、电源和测试,以确保在 RPO 和 RTO 目标内实现灾难恢复。尽管实施全面又切实可行的灾难恢复计划并非易事,不过潜在的好处却是巨大的。
公司中的每个人都必须了解当下落实的灾难恢复计划,因为在实施过程中,有效沟通至关重要。您不仅要制定灾难恢复计划,而且要定期测试、培训人员、正确记录一切流程并逐步改进。最后,慎用任何第三方供应商的服务。