如何防止数据中心中断?
数据中心中断的原因
网络问题:根据Uptime的2022年数据中心弹性调查,在过去三年中,与网络相关的问题已经成为所有IT服务中断事件的最大单一原因——无论严重程度如何。由于越来越多地使用云技术、软件定义架构和混合分布式架构带来的复杂性,导致软件、网络和系统问题导致的中断正在增加。
与电源相关的问题:与电源相关的中断占被归类为严重中断(导致停机和经济损失)的43%。根据Uptime调查,电源事故的最大单一原因是不间断电源(UPS)故障。
人为错误:同一份Uptime调查显示,绝大多数与人为错误相关的中断都涉及忽略或不适当的程序。近40%的组织在过去三年中遭受过由人为错误引起的重大中断。在这些事件中,85%是由于员工未能遵守程序或程序本身存在缺陷。
勒索软件和DDoS:网络攻击也可能是导致中断的主要原因。如今,由勒索软件和DDoS攻击引起的数据泄露很常见,可能会导致业务中断。随着勒索软件变得越来越复杂和普遍,其在大企业的董事会中越来越重要。NTT Security Holdings的一份报告指出,勒索软件的流行正在影响业务连续性,在过去24个月里,勒索软件事件响应业务增长了240%。
防止中断的最佳实践
弹性是数据中心的一个关键属性,每个企业都必须努力通过一系列举措来防止中断。首先,组织必须定期分析数据中心生态系统的每个重要组成部分的弹性,如电源、冷却、连接、服务提供商。数据中心温度与数据中心设备故障有直接关系。因此,监测温度对于防止任何可能的故障或设备关闭变得极其重要。
UPS系统的故障也可能导致中断。由于大多数UPS系统在电源故障之前都没有进行真正的测试,因此对UPS系统的一致远程监控有助于提供实时警报,并在潜在问题导致中断之前向管理员发出警报。
软件故障也可能导致中断和停机。因此,有必要定期更新软件和打补丁。为了确保定期更新补丁,人工智能可用于扫描漏洞,并在需要时进行软件更新或补丁。AI还可用于主动识别与数据中心设备或应用程序性能或安全相关的问题。
通过结合使用主动网络监控和使用自动化将人为错误的可能性降至最低,可以防止与网络相关的中断。网络冗余也是可取的,这意味着如果一个网络出现故障,可以使用不同服务提供商的替代网络。
理想情况下,雇佣第三方服务提供商,可以对弹性进行审计,并提供独立的、无偏见的评估,以理解和对标弹性。选择正确的DR流程还可以帮助快速从中断中恢复。
为了确保免受勒索软件的攻击,企业必须减少用户权限,消除任何终端用户管理员,并使用多因素身份验证(MFA),因为这极大地限制了攻击者横向移动的机会。网络分割可以减少攻击向量,而基于策略隔离的用户端点检测和响应(EDR)解决方案的实现可以帮助防止恶意软件的传播。
研究表明,许多数据中心的中断是完全可以预防和避免的。如果组织投资于正确的设备、技术和流程,则可以避免大多数中断的发生。