从一千万索赔案说起,秒懂容灾备份技术

两年前,一场「十三万补偿与一千万索赔」的云数据丢失赔偿案沸沸扬扬,引起业界强烈关注。故障源于磁盘静默错误导致的单副本数据错误,再加上数据迁移过程中的两次不规范的操作,导致云盘的三副本安全机制失效,并最终导致客户数据完整性受损。

事件回顾

运维人员发现仓库1空间使用率过高,计划将部分云盘数据搬迁至仓库2。为加速搬迁,便手动关闭了迁移过程中的数据校验。

搬迁完成之后,运维人员将客户的云盘访问切至仓库2。为释放空间,仓库1的原始数据被回收(擦除)。

一段时间后,监控发现仓库2部分云盘出现IO异常,进而导致了部分数据错误,且无法恢复。

在数据搬迁过程中,运维人员进行了两个操作,即数据迁移过程中的源端数据备份和目标端数据校验。目标端数据校验可以保证数据迁移的正确性,即源端数据备份可以保证搬迁失败后的数据恢复,这就是我们常用的容灾备份技术之一。

自IT系统诞生以来,系统的可用可靠性(或业务的连续性)与数据的安全性都是最基本的需求,尤其互联网与云计算技术大规模应用之后,这一需求显得更加急迫和必要。随着云计算技术与商业的进一步成熟与完善,企业上云步伐已经从低渗透低增长经历高渗透低增长进入到高渗透高增长的阶段。IT人力和运维成本的居高不下,企业无论最终是否上云,都考虑过上不上云以及如何上云,都希望借助云技术尤其是公有云云服务灵活开拓业务,以适应多样化、个性化、块变化的用户体验,满足业务需求。

户上云除了考虑成本、弹性、业务适应性之外,更多的考虑是基于系统可靠性和数据安全性,毕竟云用户对底层的基础设施和系统(I层或P层)是不可见的,系统和数据是在「别人的」数据中心的。而系统宕机、数据丢失事件时有发生,为避免业务中断和数据丢失,引入有效的灾备技术必不可少。

灾备具体说来,包括容灾和备份两部分:

  • 容灾即灾难发生后如何快速恢复业务的可用性和数据的安全性,表征了对灾难的容忍程度;
  • 备份即对系统或数据进行备份进而保证数据不丢、业务可持续。

    灾备系统一般包括生产站点和灾备站点,根据不同的方案,站点数量和对外提供的业务情况各有不同。衡量一个系统的灾备能力有两个重要的指标,RTO和RPO。RPO衡量的是故障发生后,丢失的数据量或者容忍丢失的数据量;RTO衡量的是故障发生后,业务恢复可用需要的时间,如下图所示。

    就如金庸小说中,高手对决,RPO衡量的是高手的抗打击性,例如很多人练金钟罩、铁布衫,你对我千锤万凿烈火焚烧我若等闲;RTO衡量的是,高手被打击后,能迅速恢复并反制对手的能力,很多高手可以运行内功自疗伤,大小周天,就像郭靖利用《九阴真经》在铁枪庙疗伤一样。

    从大的实现架构上来说,数据中心整体灾备技术可以分为以下四种:

    冷备

    在冷备方案中,主用站点持续对外提供业务,灾备站点通常不启用,只有部分安装了业务软件的设备,有时为了节省电力,可能设备并没有上电,仅仅是应急使用。

    这种方式RTO很难保证,RPO很大,数据一致性会有很大的问题,也可能因为系统不稳定而再次出现业务中断。冷备技术已经越来越无法适应数据中心高要求的发展,逐渐成为一种淘汰的技术方式。

    冷备方式下,不必准备大量的空闲设备,总体拥有成本和维护成本都很低,目前主要是中小型数据中心或者承载业务不重要的局点使用的灾备技术。

    暖备

    暖备也叫温备,用户业务由生产站点响处理,生产站点多采用异步方式同步数据到灾备站点,当生产站点站点出现故障造成该业务不可用时,需要人为判定,手工实现数据中心的整体切换。

    这种方式RTO主要依赖运维人员的经验与反应速度,RPO因为异步方式得不到很好的保证。当实现主备数据中心切换时,需要断开主用数据中心路由链路,并连接备用数据中心路由链路,保证同一时间只有一个数据中心在线。

    暖备技术采用手工方式,需要运维人员24小时值守,实际效果并不太理想。

    热备

    相比暖备,热备在暖备的基础上实现了整体自动切换,系统可以自动感知数据中心故障并且通过快速自动切换保证业务的持续性。主备站点之间通过同步方式实现数据一致性,故而RPO可以得到很好的保证,自动切换大大降低了RTO,但是用户也能感知到业务闪断。

    但是,正常情况下只有一个站点对外提供业务,另一个站点接受同步数据,不处理业务,有一定程度的浪费。

    双活/多活(负载均衡)

    通过双活技术可以实现主备数据中心均对外提供服务,正常工作时两个数据中心没有主备之分,可根据权重做负载分担,权重可以是按地域、站点能力或对外带宽等来划分。当其中一个站点出现故障时,另一站点将接管所有业务。

    除了双活技术还有多活技术,多活就是业务在多个数据中心上同时运行,当有一个或多个数据中心故障时,其它数据中心将自动接管所有应用业务。多活技术还可以实时检测服务器的运行状态、服务器负载均衡的情况,即使在没有故障的时候也可以根据应用业务量在多个站点之间调整流量。

    多活的优势是不会造成数据中心的资源存在浪费,但投入成本也会高,实现技术也更为复杂,现在在金融行业、互联网行业的数据中心都倾向于采用多活技术。

    最后用一张表格直观总结下四种灾备技术的架构:

    文中部分材料引用自:华为培训认证材料《HCIA-Storage》华为产品文档《OceanStor BCManager eReplication 用户指南》快科技门户网 http://news.mydrivers.com/1/589/589869.htm

人已赞赏
阅读

Nginx流量复制

2020-4-26 21:47:54

阅读

OpenShift 4.4版本发布,新增虚拟化功能,构建于Kubernetes 1.17版本

2020-5-2 12:32:30

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧