漫谈高可用性与容错性
发表日期:2021/10/28        作者:新工业网

从事信息化产业研究多年,身边不乏熟悉的IT技术厂商。在与他们的技术专家交流过程中经常会聊到产品可用性问题。这时他们会说自己的产品有多好,可用性高达“5个9”。那么,“5个9”到底有多牛?


按照年度可用性计算:365天x24小时x60分钟x99.999%=5.256分钟。换句话讲,他们的产品允许一年非计划停机时间约为5分钟,厉害不厉害?当然厉害。可用性够吗?我看未必。随着企业数字化转型升级,更复杂的业务需求对服务器可用要求将越来越高,甚至根本不允许任何非计划停机。因此,仅仅是高可用性,其实是满足不了日趋智能化的工业时代需求。


按照高可用性的定义,本质是允许非计划内停机出现的,只是尽可能通过技术手段来减少停工时间,保持服务的高度可用性。


目前高可用性对停机划分分为两种,一是不可修复系统,系统的平均寿命指系统发生失效前的平均工作(或存储)时间或工作次数,也称为系统在失效前的平均时间,记为MTTF(Mean Time To Failure)。二是可修复系统,系统的寿命是指两次相邻失效(故障)之间的工作时间,而不是指整个系统的报废时间。平均寿命即是平均无故障时间,也称为系统平均失效间隔,记为MTBF(Mean Time Between Failure)。可修复产品的平均修复时间,就是从出现故障到修复中间的这段时间记为MTTR(Mean Time To Repair)平均修复时间。MTTR越短表示易恢复性越好。


那么,容错性和高可用性有什么区别?容错性指的是故障容许度(Fault tolerance),是使系统在部分组件(一个或多个)发生故障时仍能正常运作的能力。容错性能保障即使系统组件出现故障,也能快速的切换到备用系统,并保证系统的正常运营能力。对比高可用性强调恢复能力,容错性是不允许这种情况发生,其目标是预防故障,做到即使出现故障也能快速切换,保证业务系统正常运行。


在传统信息化时代,服务器主要承载的是对可用性和可靠性要求不高的业务应用,如ERP、OA、CRM或MES等。随着智能制造的推进,传统业务系统向工业现场延伸,服务器正在承担起越来越多的场景功能,这些场景不仅智能化程度越来越高,计算需求越来越密集,而且对实时性要求也很高。


比如在工业智能化控制系统中根本不允许出现任何故障问题,因为这可能带来一系列重大工业安全事故。在无人自动化驾驶系统中,时刻需要采集和分析周边环境数据并进行实时分析,及时反馈到中控系统以保障自动驾驶过程的安全。因此,时代对硬件性能的要求不同了。作为服务器厂商,必须适应由故障恢复到故障预防的趋势变化,打造容错性能更好的服务器平台。


在早期计算机系统不是特别可靠的情况下,为做到故障预防,企业通常采用的是双机容错机制,即购买两台配置完全一样的服务器冗余级联,一旦主机出现故障,就快速切换到从机上,从而保证业务的正常运营。但这种部署方式不仅成本高、效率低,而且实施过程十分复杂,一旦出现断电等意外情况,就完全无抵抗力。

那么,怎么才能保证在部署成本更低、实施更简单的前提下,让系统具备更好的容错性能?全球容错技术领导厂商Stratus是这么做的!


上图是Stratus公司打造的一种全面集成的持续可用性平台——ftServer,为企业关键应用提供更稳定可靠的平台。


为保障平台的高可靠性和可用性,ftServer通过部署一对冗余节点,两个相同的客户可更换单元(CRU)——其中每一个客户可更换单元均有自己的处理器、内存和存储。所有冗余组件和子系统打包为单一系统,从而降低了许可成本并简化了管理。


Stratus具有独特的冗余现场可编程门阵列、数据路径和同步固件,即使硬件组件出现故障,也能够提供确保持续可用性所需的处理器同步、数据复制和逻辑,系统会在不同节点间自动复制数据。一个节点发生故障时,运行在上面的虚拟机会自动在另一个节点上重启(高可用性模式)或恢复(容错模式)。


同时,为增强平台的兼容性并降低成本,ftServer不仅使用通用化的x86芯片组、DIMM和驱动器,还使用标准分发包装的操作系统和虚拟化软件,从而简化了管理并缩短了价值实现时间。ftServer自动化的自监控、告警、自诊断和补救功能是通过主动服务架构实现的。通过简化ftServer监控和管理,以及筛选需要釆取行动的问题,Stratus可节省公司时间以及减少工作量。


为尽可能减少停机维护时间,ftServer旨在实现服务性,它的可热插拔CRU无需关闭系统即可拔下,并且无需使用特殊工具即可更换。这一点以及自动数据重新同步使ftServer适于在远程制造位置或IT资源有限的位置部署。


对IT硬件系统而言,没有绝对的可靠性,只有相对的可用性。容错性的目标是预防故障,可用性的目标是恢复故障,目标虽然不一致,但是殊途同归。随着工业智能化时代的开启,就当前企业需求看,“预防故障”显然比“故障恢复”更有吸引力,因为在不确定、复杂性的时代,企业更希望能提前掌握不可预知的风险,让一切可控。

新工业首页