信息中心

云计算环境中的灾难恢复即服务 (DRaaS)

为提高计算的敏捷性和效率,企业纷纷选择迈步入云。就在云技术应用如火如荼之际,全球爆发新冠疫情,上云速度变得一快再快。如今几乎 70% 的企业都在使用云服务计划,云支出大幅增涨。各界对灾难恢复 (DR) 的认知也因云技术的应用而彻底改变。

云计算是管理数字资产的有效方式,但它并非安全无虞。数据是企业最宝贵的资产,因此保护数据远离天灾人祸至关重要。

不过,灾难何时来袭实属难料,也不在人们的掌控范围内,因此企业必须部署完备的风险缓解方案和恢复流程,以备不测。于是,强大的系统备份、为躲避自然灾害(例如洪水)而在多地部署多个服务器等措施纷纷出台,以帮助企业实现云灾难恢复。

幸运的是,相比传统的灾难恢复方法,如今的恢复选项更便捷、更经济、更安全、更快速,同时可扩展性和灵活性也更高。但是,在云计算环境中执行灾难恢复并非万能药。

本文旨在探讨云计算环境中的云灾难恢复、工作原理、优缺点和如何规划灾难恢复;还比较了灾难恢复即服务 (DRaaS) 、传统灾难恢复方法与云灾难恢复的不同之处,指导您如何在这些方案中进行选择,同时也介绍了 Veritas 可为您提供哪些帮助

何为云灾难恢复?

云灾难恢复帮助企业备份并恢复关键任务数据和远程设备。它综合采用多个战略和服务,以便将数据、应用程序和其他计算资源备份到专用服务提供商和公有云。

它以基础架构即服务 (IaaS) 的形式交付,将企业的重要数据远程存储在异地服务器上,以实现数据保护。它还支持企业在灾难来袭后迅速恢复,从而维持业务连续性

技术是云计算环境中灾难恢复的动力之源,可实现快速恢复,为企业带来高可用性以及高灵活性。企业可根据其独特的业务需求定制云灾难恢复解决方案。

相比传统的灾难恢复方案,云灾难恢复的配置、使用和管理都更为简便。IT 部门可运用云技术即时启动并运行故障转移。此外,在执行系统恢复或灾难恢复时,云灾难恢复还可以优化 RTO 和 RPO(恢复时间目标和恢复点目标)。

它可自动执行多个流程,支持企业根据业务需求扩大或缩小解决方案的规模。

云灾难类型

影响企业的灾难有三类,分别是:

  • 自然灾害:包括地震或洪水等自然事件。如果企业云端服务器的所在地区发生自然灾害,服务可能会中断,这需要立即实施灾难恢复流程。
  • 人为灾难:包括涉及人为因素的一切事件。比如,意外的数据丢失和配置错误或恶意的第三方访问等(勒索软件恶意软件攻击、数据泄露)。
  • 技术灾难:可能发生技术故障的一切事件,如断网或断电。

云提供商只在技术上对一般基础架构负责,如设施、硬件、网络和软件的韧性。而客户需负责数据的安全备份、云配置、工作负载架构和可用性等。在云计算环境中,灾难恢复前、恢复中和恢复后,这些要素相互配合,缺一不可。

云灾难恢复的工作原理

云灾难恢复的基本原理是将应用程序和数据存储在异地数据中心,当灾难发生时将应用程序和数据转移到辅助站点或虚拟主机。此举可帮助企业在发生灾难后迅速启动备份并恢复运行,以最大限度减轻灾难事件的影响。

云灾难恢复有别于传统的灾难恢复流程。它并不在服务器中加载应用程序软件和操作系统,或对上次使用的配置打补丁,而是将整个服务器,包括应用程序、操作系统、补丁和数据,全部封装到软件包或虚拟服务器中。

然后,供应商将虚拟服务器复制或备份到异地数据中心。由于虚拟服务器并不依赖硬件,因此供应商可以在数据中心之间快速迁移操作系统、应用程序、数据和补丁,这比传统灾难恢复方法要快得多。

云供应商必须确保定期更新应用程序和系统并打补丁。此外,由于供应商可以自动实现大部分云灾难恢复功能,最大限度减少了用户的人工干预,因此显著减少了发生错误的概率。

大部分云灾难恢复功能以“随用随附”的服务形式交付,这意味着企业只需购买软件许可证及按使用的存储量付费即可。

云端灾难恢复流程十分复杂,企业必须小心谨慎,统揽全局,才能保证恢复成功。这些措施包括:

  • 备份和恢复:这是发生灾难后,从云计算环境恢复运行的最方便快捷、成本最低的方法。此外,它还可以复制数据并将数据存储在异地,以减轻自然灾难等区域性事件的影响。
  • 恢复测试:采用这种方法,企业只需复制核心服务以满足基本功能需求。因此,他们只需复制一小部分核心 IT 结构,灾难期间无需大范围替换功能部件。
  • 热备用:企业可拥有缩小版的全功能环境,该环境始终在中央服务器以外的异地运行。因此,一旦灾难发生,企业即可启用该异地的备用环境。
  • 多站点部署:这是上述方法中最昂贵的一种,但也是最全面的一种。它是指将企业的全部工作负载在多地同时运行。

如何制定云灾难恢复计划

下文阐述在云计算环境中实现灾难恢复应遵照的流程步骤:

1.  分析

分析阶段包括对现有 IT 基础架构和工作负载进行全面的风险评估和灾难影响分析。IT 部门可识别风险并发现潜在的漏洞和灾难事件

然后,企业对当前基础架构进行评估,确定其是否可应对现有挑战,并制定工作负载的 RTO 和 RPO。

2.  实施

在实施阶段,企业可大致列出应对灾难的步骤和技术。通过制定计划,即时部署所有必要措施。该阶段包含如下步骤:

  • 准备:制定详尽的计划,说明企业如何应对灾难事件,并明确划分职责和角色。
  • 预防:这是企业为减少潜在漏洞和威胁所采取的措施,它包括员工培训和系统定期更新。
  • 响应:企业将通过人工和自动化措施来应对灾难事件。
  • 恢复:企业通过落实人工和自动化措施,快速还原所需数据以恢复正常运营。

3.  测试

企业应测试并定期更新云灾难恢复战略和计划,保证恢复计划切实可行且员工全面接受培训。测试有助于确保自动化技术和流程如期运行,并随时可启用;还有助于发现灾难恢复解决方案中的不足之处。

下文是企业制定灾难恢复计划时应考虑的事项:

  • 灾难恢复战略作为业务连续性计划的一部分,应包括 RTO 和 RPO 的定义,这有助于企业确定所需的云服务以及如何提高成本效益。
  • 战略中应定义灾难恢复的 RTO 和 RPO(这两个目标构成恢复计划的基础),还有企业所需的服务类型。
  • 战略中应该设计云灾难恢复要达到的企业目标和目的。
  • 战略中应设计端到端恢复,包括企业维持业务运营的方方面面。
  • 战略中还应制定具体的任务,确保灾难恢复流程顺利进行。

作为业务连续性战略的一环,灾难恢复战略的顺利执行必须依靠完善的备份和恢复流程。

云灾难示例

云计算环境不常发生灾难事件,但并非没有可能,就连 AWSGoogle 这类云服务提供商巨头也不能幸免。下文列举了两个云灾难示例及其影响:

1.  2017 年亚马逊服务器中断

2017 年亚马逊服务器中断事件暴露出云灾难恢复的不足,以及仅使用公有云进行灾难恢复的风险。2017 年云计算环境灾难的起因是亚马逊某员工想解决一个计费系统问题,却意外使无关的服务器脱机。

此举引发了多米诺骨牌效应,滚雪球般蔓延到其他服务器子系统。结果使成千上万的人在几个小时内无法访问受影响的亚马逊服务器。

2.  2016 年 AWS 云平台崩溃

2016 年,澳大利亚悉尼的 Amazon Web Services (AWS) 服务中断长达 10 小时,起因是当地供电局变电站因恶劣天气停电。它导致多个 Elastic Block Store 卷以及为一些大企业托管关键工作负载的 Elastic Compute Cloud 实例出现故障。

为何云灾难恢复必不可少?

在如今竞争激烈的商业环境下,企业无法承受因软硬件故障、自然灾害或网络攻击造成的中断和停机。他们必须始终在线,以满足全天候运转的全球经济需求。

网络犯罪正以前所未有的速度增长,联邦调查局报告称,自 2020 年新冠疫情以来,网络犯罪案件增长了 300%,简直骇人听闻。Cybersecurity Ventures 称,到 2025 年,网络犯罪每年造成的损失将增长至 10.5 万亿美元。此外,网络犯罪也比以前更为狡猾,攻击手段难以预测。总而言之,企业必须制定全面的数据备份和灾难恢复解决方案,以确保业务连续性。

除了网络犯罪,企业也面临着其他影响业务的重大挑战。例如,Uptime Institute 报告称,44% 受访企业在 2020 年因电力故障遭遇了一次停机。

云灾难恢复可帮助企业构建抵御灾难的韧性,保护整个环境中的所有重要工作负载,无论其分布在本地、云存储混合云,还是多云环境。稳健的云灾难恢复计划可阻止网络威胁和其他灾难的影响,最大限度减少停机时间和相关损失。它还有助于确保关键数据、应用程序和系统始终高度可用、安全无虞,进而实现业务连续性。

云计算环境的优势

在云计算环境中进行容灾意味着企业不必在硬盘或磁盘上保留数据副本。此外,云平台的分布式属性也意味着供应商的服务可分散到各区域的不同服务器上,为预防某一地发生自然灾难做足准备。

云灾难恢复的另一个优势就是企业可将某些责任转移给云服务提供商。云服务提供商负责维护基础架构的核心组件韧性,包括数据中心、服务器、操作系统和应用程序韧性。

云灾难恢复的性价比也高,因为服务提供商只对使用的服务收费。因此,企业可选择自己需要的服务并支付相关费用,进一步提高服务套餐的个性化定制程度,节省大笔成本。

云灾难恢复的其他优势包括:

  • 灵活性:云灾难恢复服务使用“随用随付”的定价模式,让企业拥有更高的掌控权。它还将灾难恢复成本计入运营支出而非资本支出,因而性价比较高。
  • 灵活性:它支持企业按需重新调配资源。
  • 可用性:采用多个数据中心进行容灾,意味着企业数据随时可用,且随时随地可访问。
  • 可扩展性:企业可基于业务需求轻松缩小或扩大计算资源规模。
  • 可靠性:地理位置冗余有助于确保数据始终可用且易于访问。因此,即使自然灾害或停电袭击了某个地区,也不会影响存储在辅助站点的数据。

云灾难恢复的不足

尽管云存储在备份和恢复领域有诸多优势,但这个技术也存在一定的缺陷。其中包括:

  • 合规要求更高:数据迁移入云存在各种各样的风险。例如,异地存储数据意味着企业要重新达到当地监管机构的条例要求。
  • 服务提供商的服务级别协议有限:有时客户要求和服务提供商的标准并不一致,这可能会引发恢复时间目标 (RTO) 的相关问题。
  • 潜在连接问题:用户要通过网络连接来访问云端数据。出现连接问题时,数据访问就无从谈起。

但总体来看,云灾难恢复目前还是利大于弊。而且,有些大公司结合使用企业本地灾难恢复和云灾难恢复,克服了部分缺陷。

云灾难恢复 vs. DRaaS vs. 传统灾难恢复

随着云计算的兴起,云灾难恢复和 DRaaS(灾难恢复即服务)顺利进入中小企业。另一方面,传统灾难恢复比云灾难恢复出现得早,但它们的目标一致,都是确保业务连续性。不过,它们之间也有区别,企业应了解这些不同之处。

1.  云灾难恢复

该方法通过故障转移方式将工作负载转到云端实例或虚拟机中,让出现故障的工作负载继续运行。它是一种 DIY 方法,最终用户(企业)拥有解决方案的自主权,并承担公有云的相关风险。

此方法常采用超大规模云环境,如 Microsoft AzureAmazon Web Services,而不是公司管理的辅助数据中心(同个地点)。企业可确定复制和备份数据的最佳方式,以及出现中断情况下如何启动故障转移。

2.  灾难恢复即服务 (DRaaS)

这是专门从事灾难恢复的供应商推出的一种服务类产品。云灾难恢复即服务供应商借助已有平台进行灾难恢复,同时企业利用供应商的专业知识协调云端运行,以实现关键工作负载的托管和故障转移。

与云灾难恢复不同的是,选择在云计算环境中实现 DRaaS 的企业将从服务器安装到故障转移和恢复的一切事宜都交给了服务提供商,让提供商负责。提供商还负责在条件成熟时故障回退到运行的数据中心,从而减轻 IT 管理员的负担,让他们腾出时间应对更具挑战性的任务。

3.  传统灾难恢复

传统灾难恢复解决方案要在企业现有设施附近或设施内运行专用的数据中心。企业需承担构建、运行和维护数据中心的成本和人员成本,还需处理软件维护、供电、冷却、连接和其他基础架构方面的事宜。

传统灾难恢复的关键要素包括:

  • 托管必要 IT 基础架构的专用设施、设备和人力
  • 互联网和宽带,用以远程访问辅助数据中心
  • 服务器容量,以满足性能和可扩展性需求
  • 网络基础架构,在两个或多个数据中心之间建立可靠连接,确保数据可用性

企业还必须定期升级灾难恢复设施,确保与 IT 基础架构的其他部分保持同步。因此,传统灾难恢复方法要支付大笔的资本性支出和运营支出。

选择哪个更好?

云计算环境中的云灾难恢复和灾难恢复即服务给企业带来诸多好处,例如,它们可安全备份数据,在出现灾难时快速恢复数据,摒弃了复杂的灾难恢复流程和昂贵的资本性支出。不过,投资云灾难恢复或灾难恢复即服务时,企业首先应考虑自身的容忍度水平。

企业的 RTO 和 RPO 是确定两者之间选择哪个的关键指标。容忍度高的企业通常优先选择云灾难恢复,而容忍度低且 RTO/RPO 要求高的企业会选择灾难恢复即服务。

Creative ITC 白皮书指出,传统的复制和灾难恢复解决方案无法有效应对当前的 IT 管理复杂性。因此,日益加剧的复杂性和现代 IT 格局使 DRaaS 与云灾难恢复等云端解决方案越来越有吸引力。

Veritas 能为您提供哪些帮助?

Veritas 的集成式产品组合带来统一的数据管理体验,以卓越的性能和丰富的功能,帮助企业轻松管理和保护关键业务数据。

Veritas 提供多种服务,包括云计算、系统恢复、网络安全保护、数据韧性和数据合规等。

Veritas System Recovery 是一款统一的备份和灾难恢复解决方案,恢复对象涵盖服务器、笔记本电脑和台式机,可帮助企业在数分钟内从灾难和停机中恢复。Veritas 还拥有获得专利的 Restore Anyware 技术,可帮助 IT 管理员随时随地快速恢复所需内容,恢复对象涵盖物理机或虚拟机、应用程序、文件和文件夹。

Veritas System Recovery 提供物理到虚拟 (P2V)、虚拟到物理 (V2P) 以及虚拟到虚拟 (V2V) 的跨平台恢复,是在物理和虚拟环境实现恢复的完美补充方案。

结论

在云计算环境中如何规划灾难恢复应是企业持续关注的问题。它可以让数据备份和灾难恢复的过程更灵活、可扩展性更强和更加高效。此外,企业可依据自己的 RTORPO 制定契合需求的恢复计划,确保云灾难恢复万无一失。

很多中小企业倾向于使用灾难恢复即服务产品来节约成本并提高效率;而大型企业偏向于采用云灾难恢复,在混合云(有时也在本地数据中心)中部署全方位的灾难恢复和业务连续性计划。

企业不断探索云技术,作为交付 IT 服务的首选和备选方案。在云灾难恢复战略下,企业既可保护自己的数据和应用程序,又可实现投资的可控性、可预测性,以更低价位、更灵活的合同期限,获得更大的可扩展性和业务韧性。

 

Veritas 客户包括 95% 的财富 100 强企业,而 NetBackup™ 被列为保护企业海量数据的首选。

 

深入了解为实现数据的全面保护,Veritas 如何跨虚拟、物理、和传统工作负载统一运行企业数据保护服务

立即联系我们,稍后我们的代表会与您联系。