【TechTarget中国原创】回忆一下我作为IT主管和顾问所积累的数据中心灾难恢复经验,我见到过许多处于灾难恢复标准制定、技术研发、设备部署及改进的企业。灾难恢复策略和基础架构本身就很复杂,对于大型企业来说更是这样。在这个过程中存在许多可变因素:需要确定许多标准和流程,需要对人力资源进行组织,需要对技术进行整合,需要辨别不同应用间的差异并为其排定优先次序。加上内部与灾难相关的一些不确定因素,无论发生何种事件,整个在哪恢复的过程都会变得异常复杂。
对于一些基本的事件做一定的假设并将内外部因素都考虑进去显得很关键。这使人们可以认识到在灾难恢复流程研发过程中对这些小问题进行处理的意义所在。如果不这样做,等待你的只能是严重的后果。
关于这方面我已经多次在“DR预期差距”的演示中做过阐述,其中讲到了企业的可恢复性设想往往与实际的IT技能不符。事实上,如果这些假设因素没有得到明确的界定和处理,你昨日的灾难恢复功臣就有可能变成明日的替罪羊。
当然了,在这些假定因素中,创建灾难恢复的RTO和RPO等级是最关键的,而在制定灾难恢复规划的过程中还有其它许多因素需要考虑和权衡。以下列出的是一些很实际的规划条目,这些因素对于灾难恢复方案的设计和规划而言很有意义:
员工:在执行灾难恢复计划过程中,IT员工是否都能参与?他们如何到达备用的灾难恢复站点?是否已为他们准备了短期的住所?在灾难发生后,一部分员工要待在总部,而不是立即就参与到数据中心恢复中去。
基础设施:完成灾难恢复计划需要有哪些通信和交通运输设施的支持?如果飞机不能起飞、手机无法使用或道路受到封堵该怎么办?
位置:要考虑灾备中心与总部的距离因素,以及灾备中心所能承受的灾难等级是多少?看看许多最佳措施的做法,他们的灾备中心距离都很远,为的是避免受到同一灾难的影响——而你的呢?
灾难通报:如何进行灾难通报?由谁来通报?RTO“计时器”何时开启?
灾备站点的运营:灾备站点需要运营多长时间?需要为其提供哪些支持?如果你是在使用第三方的灾备站点,这一点就显得更为重要。
期望性能:在灾难恢复过程中你是否期望所有应用性能都达到较高的标准?可以容忍什么样的性能等级,可以容忍多长时间?
安全:灾难恢复期间的安全要求是否要与灾难发生前保持一致?在许多特殊情况下,你对安全的要求要比平时生产期间更高。
数据保护:灾难恢复站点的数据备份和数据保护设备如何安置?记住,灾难恢复站点的数据每天都要进行备份。
站点保护:你有没有给灾难恢复站点也制定一个灾难恢复规划呢?如果没有,应该立即动手做一个,此外你还应该考虑由谁来对其负责?
规划地点:灾难恢复规划应该放在哪儿?(最好不在你自己的数据中心)。由谁来负责维护?如何与其进行沟通?
显然,为了保证灾难恢复的成功实施,还有许多因素需要考虑和解决,但仍希望本篇技巧能够帮助你走上正轨。