信息中心

《数据同步完整指南》及其重要性

企业每天都在不断地收集、分析和存储数据,而云已经成为海量数据的供应渠道。因此,企业亟需保证数据一致性、准确性和私密性。不幸的是,看起来不起眼的错误或故障可能会对决策、销售、客户忠诚度和其他日常运营造成巨大影响。

如果无法与现有数据库保持同步,就很难对存储的数据进行分类,如还要定期解析数据且保持数据的完整性,就更是难上加难。正因如此,数据同步现在成为企业用于数据管理的最有价值工具之一。

该流程可确保数据的准确性、安全性以及处于最新状态,因此提高了团队协作效率和客户体验。企业同步数据后,就可以得到干净的、经优化、去重和消除了各种错误的一致数据。

试想一下,在一场音乐会上音乐家的歌声和乐器的曲调不同步,那会是何种感受。最终听到的是不连贯的声音,根本不成曲调,也没有任何欣赏价值。同理,如果我们用于安排生活,协调作息的时钟不同步,也会出现各种混乱局面。

这些原则也同样适用于企业环境。企业要求部门、目标、员工和所采用的应用程序协调一致,这样业务才能正常运转和不断发展。但是,尽管所有企业都了解目标和部门之间步调一致的必要性,但仍有很多企业经常忽略同步数据的重要性。

本指南主要讨论数据同步的概念、实施方法和其重要性。

何为数据同步?

它指的是企业整合来自各分散数据源及软件应用程序中数据的过程,目的是确保系统中数据的高度一致。这是一个持续的过程,同时应用于新数据和现有数据。

云存储中的大量数据及其经济成本都是企业面临的不小挑战。不过,它也为大数据指明了一条道路。当前的数据解决方案通常采用简便快捷的工具而绕过单调重复的任务,在整个系统中实现数据同步。

同步可确保数据准确、合规和安全,提升团队和客户体验。此外,它还保证数据源和不同终端之间的数据一致性。工具会对新传入的数据进行“净化”,在投入使用或存储之前还开展错误、重复及一致性检查。

远程同步通过移动网络进行,而本地同步则涉及计算机、相邻的设备和系统。一个高效的系统可确保企业所有数据在整个数据记录中是高度一致的。因此,如果出现任何修改,这些更改必须实时地在所有系统中更新和反映。此举可防止出现错误和隐私泄露,同时保证最新数据的高度可用性

最后,同步还要满足两个要求:

  • 各种源和端点的数据整合,以确保数据准确性和一致性
  • 在新数据和现有数据中持续应用同步流程

何为数据库同步?

数据库同步通过自动复制数据的更改,在数据库之间实现数据一致性。数据持续保持一致性,最常见的用例就是从源数据库提取数据到目标数据库。它意味着对源(主)数据库的更改也应用到目标数据库。

数据库同步中,每个表格应有一个主密钥,用于单独识别一行记录。它可显著简化数据维护的流程,同时加快同步速度。

下文阐述数据库同步的几个类型:

  • 插入同步:该流程将新的源表格记录复制到目标表格,确保记录与主密钥值匹配。此外,数据库同步流程还将缺失的行插入目标表格。
  • 更新同步:对源表格的更改必须应用到目标数据库。因此,同步程序会跟踪表格行值,在目标表格中替换成更改后的记录,确保两个表格一模一样。更新同步还会不断更新源数据库及目标数据库中的全部数据。
  • 丢弃同步:如果源数据中删除了某项纪录,丢弃同步流程会从目标数据库中删除相应的记录。如果记录在源数据库中缺失或不存在,它会从目标数据库中丢弃所有过期记录。
  • 混合同步:它可更新、添加以及删除目标数据库中的记录,确保目标和源数据库同步。因此,管理员必须勾选全部的“插入同步”、“丢弃同步”以及“更新同步”选项,保证源数据库和目标数据库完全一致。

数据同步的工作原理

同步数据有多种方式,包括手动数据库更新、由源数据库更改触发的 python 脚本以及使用 ETL 的全自动数据管道进行同步。在所有情况下,该流程遵循如下步骤:

1.    触发更新事件

数据同步流程可通过多个方式检测对目标数据库中数据所做的更改,例如在表格中设置标记,或创建脚本定期检查最后修改文件的日期。

2.   识别和提取更改

同步并不意味着完全复制,该流程只要比较版本、检查更改日志或查看对新值的标记,以识别做过更改的实例。

3.   对其他源的更改

同步流程识别和提取更改后,通过如下方式安排数据移动:

  • 异步:按规定的时间表传输更改,例如每小时一次或每天一次。这个方法可实现资源的高效利用,但意味着每次更新之间可能会出现数据差异。
  • 同步:同步流程在每次更改后运行。这种方法对资源的消耗高,但可以实时更新数据。

数据可能通过网络或以文件方式传输。使用 ETL 平台进行同步时,它可以在后台自动处理更新,无需人工干预。

4.   解析传入的更改

两个数据实例不同时,传入的数据会通过转换层传递、净化和整合。

5.   更改应用到现有数据

同步流程通过如下方式将传入的更改写入目标数据,包括:

  • 事务:按更改发生的顺序逐个应用更改,确保数据实例拥有类似的本地更改历史记录。
  • 快照:整体应用更改,确保所有数据相同,只有原始版本保留完整的更改历史记录。
  • 合并:如果源和目标端数据都出现更改,则合并全部更改,不标记任何版本为最终版。相反,它会更新两个数据实例以反映所有更改。

目的是更新全部数据实例,不丢失任何更改。

6.   确认更新成功

更新后的系统通过如下方式确认更新是否成功。如果应用程序编程接口 (API) 处理更新,则会返回一条确认更新成功的消息。如果不能发送此确认消息,则进程会试图重启更新或返回错误消息。

数据同步方法

数据同步方法有多种,具体请参见下文:

  • 文件同步:用于 Home 备份、通过闪存更新可移动的数据或更新外部硬盘中的数据。它比人工复制技术更快,也不容易出错,并确保不同地点可共享相同的数据。此外,它还能防止相同的文件被自动复制。
  • 版本控制:采用同步解决方案,有利于多个用户同时更改文件。
  • 分布式文件系统 (DFS):它仅适用于包含多个文件版本的互联设备。部分系统还允许设备短时间断开连接,只要能满足在同步前实施数据核对即可。
  • 镜像计算:为不同来源提供精确的数据集副本。镜像计算适用于备份,因为它只在一个位置提供一份相同的副本。

文件同步和版本控制工具一次可以更改多个文件副本,而 DFS 和镜像工具则有特定的使用场合。

区分数据同步、集成、推送和复制

下文阐述了数据同步、集成、复制和推送的定义以及差别。

  • 数据同步:一种维持数据库之间数据一致性的集成方式。它是一个连续的过程,保持数据库之间不断的沟通,在源和目标之间应用更改,确保它们始终一致。
  • 数据集成:将来自不同源的软件或数据片段组合成一个统一视图或单一数据集。数据同步是一种集成类型,但并非所有的集成流程都会实现正确的数据同步。
  • 数据推送:这是另一种类型的整合,最终的结果也不同。这个流程在数据创建后,立即将数据从指定“A”点带到“B”点。它可防止在 A 点创建数据后又在 B 点手动创建相同的数据。相反,B 点应自动接收来自 A 点的数据。数据同步可双向运行,但数据推送只能单向运行。
  • 数据复制:这是将类似数据存储在多个地点的流程,可提高数据可用性和可访问性,防止数据丢失。这个流程是单向的,可完全镜像、备份或复制源数据到另一个实例,例如存储设备或服务器。

为何数据同步如此重要?

企业通过众多应用程序和软件程序收集和处理数据,部分流程甚至运行 100 多个软件工具。因此,员工会看到很多不同应用程序中都存在相同的数据集。例如:

  • 营销人员在营销自动化平台上查看客户信息,而销售代表可在客户关系管理 (CRM) 平台中查看客户信息。
  • 人力资源团队可在人力资源信息系统 (HRIS) 中查看员工信息,同时 IT 团队可在 IT 服务管理 (ITSM) 中跟踪员工信息。
  • 财务团队可在企业资源规划 (ERP) 系统上查看销售订单,而面向客户的员工则在 CRM 中查看订单。

结果就是从各种来源涌入大量信息,如果这些来源的数据不互通,数据库很容易变得杂乱无章和不连贯。

保证各种不同应用程序中显示的数据均相同,这对于各个团队来说至关重要。然而,如果缺少数据整合和同步,更新的数据不得不在应用程序中手动重新输入,这会导致员工不堪重负且容易出错,从而造成进一步的数据误差。

数据未同步会造成诸多负面影响,例如:

  • 数据孤岛
  • 应用程序争用资源和存在重复数据
  • 职能部门之间运作不协调,产生摩擦
  • 数据质量差,数据过期
  • 存在太多数据,其中部分数据没有意义或毫无用处
  • 团队之间沟通和协作不畅
  • 客户支持不到位,客户代表无法访问整个客户历史记录,导致数据不准确或重复
  • 由于数据分散在不同的工具中,企业很难基于数据洞察制定准确、易于理解和可操作的报告。
  • 决策流程不佳

上述这些问题解释了为何不良的数据质量和数据管理会导致企业每年损失数百万美元

数据同步有利于企业清晰洞察业务的方方面面,实现信息透明并制定出可靠的报告。它还支持各部门朝着共同目标齐心协力,上下通力合作并作出明智决策。

数据同步是保证数据可靠性的关键流程

数据同步的重要性随着云中数据和移动设备的访问量上涨而增长。移动设备在各种规模企业中普遍采用,带来了诸多新问题,也催生了对新型解决方案的需求。这些设备将数据暴露在基本运营流程中,也将个人信息暴露在网站、电子邮件和应用程序中。

因此,必须保证对用户信息以及终端目标数据的更新是安全且持续的。此外,同步流程还要保证将干净、一致和更新后的数据用于产品和服务,其中还涉及数据治理问题,例如数据安全和监管合规等。

数据冲突可能会造成数据质量低下,错误百出,进而导致用户对数据缺乏信任。在整个系统中适当实施数据同步可确保企业在诸多领域实现性能改善,例如:

  • 业务系统
  • 物流和运输
  • 订单管理
  • 销售团队工作效率
  • 成本效益
  • 发票准确性
  • 声誉管理
  • 客户支持

此外,确保数据可用性和及时解决错误可节省大量时间,集中精力开展关键业务开发流程,例如新产品开发、战略决策以及市场营销等。同步数据让各方都能受益:

  • 高管们收到最新数据有助于做出重要的战略决策
  • 股东们了解自己在企业中的利益
  • 总代理商可访问最新的产品和营销信息
  • 客户可收到满足其特定需求的产品信息和服务
  • 员工采用最新的实时信息与所有部门互动
  • 厂商访问最近的更改和更新,保证设计和生产准确性
  • IT 部门快速高效发布程序和安全更新及补丁

总而言之,数据同步可确保企业运营顺畅,快速拓展业务。

数据同步用例

数据同步的好处体现在诸多方面,包括:

1.   数据一致性

同步可维持两个或更多数据源之间的数据一致性。因此,一个源中的更新可映射到所有其他源。比如,客户地址可能出现在数据库的多个地点和应用程序中,如 CRM、计费系统、客户电子商务账户和订单履行系统。

因此,如果客户更改电子商务账户中的地址,则更改应通过同步流程反映到所有其他系统中。

2.   分布式计算

同步在云计算和分布式系统中极为重要,因为数据可能存在于多个位置。它可确保用户始终访问最新的数据版本,保证更新均已保存。

例如,使用 DropBox 或 OneDrive 等云服务时,用户可以在一个设备上创建文档,然后将其保存到云中,在另一个应用程序、网页浏览器或设备上打开这个文档。云服务器反映更改并存储所做的一切更改,强制在所有互联设备上更新信息,用最新副本替换旧版本。

同步还有助于混合环境集成(数据存储在本地和云服务中),例如 Microsoft AzureAWSGoogle Cloud Platforms等。AWS 或 Azure 等的数据同步流程可在数据传输和存储之前扩充、过滤、转换和整合数据,反之亦然。此操作是实时发生的,同时可维护数据准确性和一致性,还不会中断业务运营。

3.   存储和分析

数据存储在数据仓库等存储库时会使用复制功能。不过,更新数据需要实时同步。例如,灾难恢复场景下,企业需要最新的数据快照,这样在定期同步备份时,它可避免大量的数据丢失。

4.   分发更新

同步包括同步重要的更改,如修改关系数据库的结构。因此,该流程可能会增加和丢弃数据表,并重命名列。例如,GDPR 出台新政策,要求询问客户的 cookie 首选项意见时,相关企业不得不引入新的数据库列,有时是全新的表格来存储增添的信息。这些更改必须通过网络反映到所有数据库实例中。

5.   其他用例

其他同步用例包括:

  • 维持数据可用性
  • 整合不同的业务部门
  • 允许创建业务流程的全方位视图

数据同步的优势

下文简要列举了同步数据的优势:

  • 消除数据孤岛:员工可在应用程序中获得数据访问权限,因此不必每次都请求访问权限,他们可对数据及对其所做的一切更改了如指掌。
  • 防止输入大量数据:避免手动输入数据及全部更改的单调重复性工作,员工可集中精力处理更重要的任务。
  • 允许执行多个数据操作:可轻松创建、更新和删除记录,为企业和员工带来更多价值。
  • 允许实时数据同步:批量同步数据的流程可能在某些情况下有用,但近乎实时的数据同步对企业流程的成功执行具有重要价值。
  • 防止数据丢失:初始数据备份后,持续同步数据可保证数据是最新的。

数据同步的挑战

数据同步并非成熟科技,维持云和本地系统之间数据最新且高度可用是一项极具挑战性的任务。下文简要列举了部分挑战:

  • 安全性:确保数据同步的安全性和机密性没有讨价还价的余地。远程办公和自带设备 (BYOD) 现在成为常态工作模式,因此对灵活性有更高要求的企业发现,要抵御数据泄露、数据丢失和数据外泄等威胁实属不易。而且,同步工具必须满足监管标准,否则企业可能会面临罚款、数据丢失、客户流失和声誉受损等问题。
  • 数据质量:应用程序数量众多,若缺乏可靠的同步解决方案,应用程序之间几乎无法配合运行。因此,企业亟需实施无缝同步系统,以避免可能会出现的种种故障。
  • 数据复杂性和兼容性:更多的数据意味着复杂性更高。数据随着企业扩展而增长,数据格式也会随着员工、客户、供应商及产品的增添和删除不断增长和变化。企业尝试将新数据与旧系统对接时,就会遭遇此类挑战。
  • 实时更新:实时数据自治不再是锦上添花而是一项长期要求,它的缺位会导致同步解决方案丧失价值。
  • 性能:数据同步涉及到数据提取、转换和加载,这就要求企业进行适当的容量规划。否则,实时同步大量数据会在资源占用高峰期对系统产生负面影响。
  • 维护:同步要求企业定期执行并正确管理维护流程,确保它按计划如期运行。

数据同步工具

目前市面上存在诸多的数据同步解决方案,例如:

  • 集成平台即服务 (iPaaS),通过 API 连接应用程序
  • RPA 软件,通过机器人编程模仿人类操作
  • 企业自动化平台,通过 API 集成应用程序,同时端到端自动运行工作流程。

Veritas 如何实现数据同步?

Veritas 通过 SyncNetBackupData 实现 NetBackup 数据同步功能。它会调用 API 对被标记的资产执行同步。系统更新功能则提取标记的资产。该流程会导入图像和受保护的数据,然后计算流量信号状态。

默认情况下,它会在 5 分钟内分批处理 100 个资产,或直到没有资产被标记待导入。此外,如果“立即备份”未请求将某个资产标记为高优先级,则首先添加的资产优先级最高。

如果同步失败,系统会锁定一段时间,以处理其他资产,防止出现任务积压。

结论

数据同步解决方案可选种类很多,因此企业需要一个可明确解决如下问题的战略:

  • 企业希望同步哪种类型的数据?
  • 企业要整合哪种应用程序?
  • 企业希望数据在不同应用程序之间以何种方式移动?
  • 预计数据量有多大?
  • 企业的资源是否支持实时同步,或是否可以接受分批同步?

有时候企业会选择自带集成工具的应用程序,解决操作难题。例如,NetBackup 能以最安全、便捷和直观的方式来同步数据。否则,他们可能需要一个或多个 iPaaS 解决方案来解决这类问题。

Veritas 客户包括 98% 的财富 100 强企业,而且 NetBackup™ 是寻求备份大量数据的企业的首选。

了解 Veritas 如何通过企业数据保护服务跨虚拟、物理、云和传统工作负载全面保护数据。