云主机高可用

云主机高可用指平台检测到云主机故障后,自动在健康的物理机重新启动该云主机的机制。该机制可降低云主机宕机时间,保障业务连续性,且整个过程不依赖专有硬件。

ZStack Cloud提供两种高可用模式:
  • HostFailure:当云主机所在物理机发生故障时,执行高可用。该模式默认开启,主要用于处理物理机断电等底层故障。
  • NeverStop:保证云主机永不停机(不包含手动关机场景),主要用于处理上层可见的云主机故障。该模式支持用户自定义配置。

前提条件

执行云主机高可用依赖以下前提条件:
  • 存储:云主机使用共享存储。如使用本地存储,物理机发生故障时,云主机无法高可用迁移到其他物理机。
  • 计算资源:确保计算资源充足,云主机可找到健康的物理机启动。
  • 策略设置:启用全局云主机高可用策略,并将云主机高可用模式设置为NeverStop

实现原理

云主机高可用流程由管理节点和物理机agent协作完成:
  • 管理节点:负责处理云主机故障信息,并调度故障检测、恢复任务。管理节点定期获取云主机状态,当云主机处于停止状态时,将尝试启动该云主机。
  • 物理机agent:负责汇报云主机故障信息,执行故障检测和Fencer机制,定期检查云主机网络及存储状态,检测到故障时,物理机agent将强制终止当前云主机进程,并由管理节点在健康物理机上重新启动。

关于故障检测

通过网络、I/O心跳两种机制进行物理机故障检测:
  • 网络检测:
    • 检查管理网络:通过管理网连接状态,判断物理机是否故障:
      • 检查管理节点和当前物理机间的管理网络心跳,快速发现物理机管理网络连接异常。
      • 管理节点通过其他健康的物理机检查疑似异常的物理机,判断该物理机是否彻底从管理网络断开。
    • 检查物理机与共享存储的网络连接状态。
    • 检查物理机业务网口状态。
  • I/O心跳检测:通过存储层面的心跳记录检查物理机磁盘I/O是否正常。如I/O心跳检测与(管理)网络检测结果冲突,以I/O心跳检测结果为准:
    • SAN存储:检测sanlock心跳记录是否按时更新。
    • Ceph存储:检测自定义host心跳记录和云盘对应的RBD Watcher。
    • 多存储场景(即云主机根云盘、数据盘使用不同主存储):以根云盘所在主存储记录为准。

关于防脑裂

为防止高可用过程中,因网络分区导致云主机脑裂(即不同物理机上同时运行同一个云主机进程),引入Fencer机制,当检测到故障时,将强制终止相关的云主机进程。

关于故障恢复与调度

故障恢复由Checker负责,云主机进程强制终止后,Checker将在健康的物理机重新启动该云主机,与Fencer形成闭环,确保云主机只在一台物理机上运行。

图 1所示:
图 1. 云主机高可用流程



网络高可用

网络高可用是保障业务连续性的重要一环,ZStack Cloud通过多种技术手段,构建了从物理基础设施到网络服务的全方位网络高可用方案。

物理机网络高可用

ZStack Cloud通过交换机堆叠/M-LAG网卡Bonding紧密配合,实现从物理机端到交换机端的高可用网络架构。

交换机端高可用:堆叠/M-LAG

交换机端网络高可用主要通过堆叠和M-LAG技术实现。堆叠指将多台交换机虚拟化为一个逻辑设备,M-LAG则在多台独立运行的交换机间建立链路聚合,实现冗余。通过堆叠和M-LAG可实现以下目标:
  • 交换机高可用:任一交换机故障时,流量可自动切换至其他交换机。
  • 链路无环路:基于LACP协议,确保多交换机的链路聚合无环路且稳定。
  • 带宽提升:聚合多条物理链路,提高网络总带宽。

物理机端高可用:网卡Bonding

物理机端网络高可用主要通过网卡Bonding实现。该技术将物理机的多张网卡绑定为一个逻辑接口,通过模式1(active-backup)或模式4(802.3ad)提供链路冗余和带宽聚合。交换机堆叠/M-LAG为Bonding提供了可靠的物理链路支撑。
  • 模式1(Active-Backup):每张网卡分别连接到不同的交换机(堆叠或M-LAG的成员交换机)。同一时刻只有一张网卡处于活跃状态,其他网卡处于备用状态。该模式实现以下目标:
    • 链路冗余:结合交换机堆叠/M-LAG技术,当主交换机或主网卡故障时,流量可快速切换到备用链路。
  • 模式4(802.3ad):多张网卡通过LACP协议连接到不同的交换机,形成逻辑链路组(LAG)。该模式实现以下目标:
    • 链路冗余:任一物理链路或交换机故障时,流量可快速切换。
    • 带宽聚合:交换机与物理机Bonding协同实现流量负载均衡和高带宽。
图 1所示:
图 1. 物理机网络高可用


网络服务高可用

网络服务包括基本网络服务(如DHCP)和由VPC路由器/负载均衡实例提供的其他网络服务(如负载均衡、端口转发等)。

基本网络服务(DHCP)

ZStack Cloud采用分布式DHCP技术,将DHCP服务下沉到每台物理机,消除单点故障风险。其工作流程如下:
  1. 每台物理机均运行dnsmasq进程,为其上云主机提供DHCP服务。
  2. 云主机启动后,管理节点将其IP/MAC/DNS等信息下发到物理机agent。
  3. 物理机agent将信息写入本地DHCP服务端配置文件。
  4. 云主机发送DHCP广播请求,本地DHCP服务端接收并处理请求。

在该模式下,DHCP服务不依赖中心节点,管理节点故障不影响已有云主机正常获取IP地址。

图 2图 3所示:
图 2. 分布式DHCP架构


图 3. 云主机地址分配过程


其他网络服务

其他网络服务主要由VPC路由器或负载均衡实例提供,ZStack Cloud通过VPC路由器/负载均衡实例高可用保障网络服务高可用。

VPC路由器高可用

VPC路由器支持双机主备模式,即部署一对互为主备的VPC路由器,形成高可用组。配置变化实时同步主备路由器,确保主备路由器配置一致。当主路由器状态异常时,将自动切换至备路由器,保证业务持续运行。主备路由器建议分别部署在不同的物理机,进一步避免单点故障。

VPC路由器高可用主要通过Keepalived实现。Keepalived基于VRRP协议监控和维护主备路由器状态:
  • 状态监控:
    • 心跳检测:主路由器定期通过VRRP通告发送心跳给备路由器。
    • ZVR监控:监控ZVR(ZStack VPC Router)进程状态。
  • 故障检测:当出现以下任一情况时,认定主路由器故障:
    • 备路由器在指定时间内未收到心跳。
    • 主路由器ZVR进程异常。
    • 主路由器监控IP不可达。
  • 自动切换:当主路由器故障,且备路由器监控IP可达时,备路由器将接管VIP,升级为新的主路由器,提供网络服务。
图 4所示:
图 4. VPC路由器高可用架构


负载均衡实例高可用

负载均衡实例高可用和VPC路由器高可用机制基本相同:部署一对互为主备的负载均衡实例,形成高可用组,并通过Keepalived监控主备实例状态,当主实例故障时,将自动切换至备实例,保障业务持续运行。

此外,主备负载均衡实例通过双层机制保障配置一致:
  • 配置同步:配置变化在高可用组层面触发,先同步至主实例,再异步同步至备实例,确保主备实例配置一致。
  • 一致性检查:定期检查主备实例是否与高可用组配置版本一致,自动补充未完成任务或全量下发配置,避免同步遗漏。



历史文档

学习路径

ZStack Cloud 产品学习路径

版本号:

5.3.0
4.8.10
常见问题
常见问题
文档反馈

ZStack Cloud 产品学习路径

快速梳理文档,点击相应文本链接,快速跳转到相应文档的页面,学习 ZStack Cloud 产品。

我知道了

升级提醒

若您选择升级至4.0.0及之后版本,请注意以下功能调整:

1. 云路由器全面升级为VPC路由器,云路由网络全面升级为VPC网络,不再单独设云路由器页面。升级全程无感知,相关业务不受任何影响。

2. 企业管理账号体系取代用户组与用户,不再单独设用户/用户组页面,不可再使用用户/用户组账号登录云平台。升级前,请先将“用户组与用户”纳管的账号数据妥善迁移至“企业管理”纳管,再执行升级操作。注意:对于admin创建并具备admin权限的用户账号同步取消,如有需要,可使用企业管理账号体系中的平台管理员实现相同功能。

3. 调整AD/LDAP与账户的对接管理方式,统一由企业管理纳管,不再单独设AD/LDAP页面。升级前,请先将“账户”对接纳管的AD/LDAP账号数据妥善迁移至“企业管理”纳管,再执行升级操作。

如对上述升级提醒有任何疑问或需要升级帮助,请联系ZStack官方技术支持

下载ZStack企业版

您已填写过基本信息?点击这里

姓名应该不少于两个字符
手机号格式错误
验证码填写错误 获取短信验证码 60 秒后可重发
公司名称不应该少于4个字符
邮箱格式错误

下载链接将会通过邮件形式发送至您的邮箱,请谨慎填写。

同意 不同意

我已阅读并同意云轴科技 《法律声明》《隐私政策》用户管理规则及公约

下载ZStack企业版

还未填写过基本信息?点击这里

邮箱或手机号码格式错误
同意 不同意

我已阅读并同意云轴科技 《法律声明》《隐私政策》用户管理规则及公约

验证手机号
手机号格式错误
验证码填写错误 获取短信验证码 60 秒后可重发
同意 不同意

我已阅读并同意云轴科技 《法律声明》《隐私政策》用户管理规则及公约

登录观看培训视频
仅对注册用户开放,请 登录 观看培训视频

业务咨询:

400-962-2212 转 1

售后咨询:

400-962-2212 转 2

其他(漏洞提交、投诉举报等)

400-962-2212 转 3
ZStack认证培训咨询
姓名应该不少于两个字符
手机号格式错误
验证码填写错误 获取短信验证码 60 秒后可重发
公司名称不应该少于4个字符
邮箱格式错误

同意 不同意

我已阅读并同意云轴科技 《法律声明》《隐私政策》用户管理规则及公约

业务咨询:

400-962-2212 转 1

ZStack学院:

training@zstack.io
申请ZStack多机版
姓名应该不少于两个字符
手机号格式错误
验证码填写错误 获取短信验证码 60 秒后可重发
公司名称不应该少于4个字符
邮箱格式错误

同意 不同意

我已阅读并同意云轴科技 《法律声明》《隐私政策》用户管理规则及公约

业务咨询:

400-962-2212 转 1

售后咨询:

400-962-2212 转 2

其他(漏洞提交、投诉举报等)

400-962-2212 转 3
立即咨询
姓名应该不少于两个字符
手机号格式错误
验证码填写错误 获取短信验证码 60 秒后可重发
公司名称不应该少于4个字符
邮箱格式错误

同意 不同意

我已阅读并同意云轴科技 《法律声明》《隐私政策》用户管理规则及公约

业务咨询:

400-962-2212 转 1

售后咨询:

400-962-2212 转 2

其他(漏洞提交、投诉举报等)

400-962-2212 转 3
培训认证合作伙伴申请
姓名应该不少于2个字符
手机号格式错误
验证码填写错误 获取短信验证码 60 秒后可重发
邮箱格式错误
城市名称不应该少于2个字符
公司名称不应该少于4个字符
职位名称不应该少于2个字符

同意 不同意

我已阅读并同意云轴科技 《法律声明》《隐私政策》用户管理规则及公约

业务咨询:

400-962-2212 转 1

商务联系:

channel@zstack.io
ZStack&工信人才联合证书申请
已获得ZStack原厂证书
未获得ZStack原厂证书
请填写您的基本信息
姓名应该不少于2个字符
手机号格式错误
验证码填写错误 获取短信验证码 60 秒后可重发
邮箱格式错误
城市名称不应该少于2个字符
公司/学校名称不应该少于4个字符
证书类型
ZCCT
ZCCE
ZCCA
ZCPC-ISP
ZCIE
ZCOE
申请ZStack&工信人才联合证书须支付工本费,是否可以接受
同意 不同意

我已阅读并同意云轴科技 《法律声明》《隐私政策》用户管理规则及公约

业务咨询:

400-962-2212 转 1

商务联系:

channel@zstack.io

下载链接已发送至您的邮箱。

如未收到,请查看您的垃圾邮件、订阅邮件、广告邮件。 当您收到电子邮件后,请点击 URL 链接,以完成下载。

下载链接已发送至您的邮箱。

如未收到,请查看您的垃圾邮件、订阅邮件、广告邮件。
或点击下方URL链接 (IE内核浏览器请右键另存为), 完成下载:

感谢您使用 ZStack 产品和服务。

成功提交申请。

我们将安排工作人员尽快与您取得联系。

感谢您使用 ZStack 产品和服务。

信息提交成功。

我们将安排工作人员尽快与您取得联系,请保持电话畅通。

感谢您使用 ZStack 产品和服务。

智能助手

联系我们

业务咨询
400-962-2212 转 1
售后咨询
400-962-2212 转 2
其他业务(漏洞提交、投诉举报等)
400-962-2212 转 3

联系我们

回到顶部

产品试用申请
请选择您要试用的产品
ZStack Cloud 企业版
ZStack Cloud 混合云版
ZStack Cloud 基础版
ZStack Cloud 标准版
请填写您的基本信息
姓名应该不少于两个字符
手机号格式错误
验证码填写错误 获取短信验证码 60 秒后可重发
公司名称不应该少于4个字符
邮箱格式错误

商务咨询:

400-962-2212 转 1

售后咨询:

400-962-2212 转 2

商务联系:

sales@zstack.io

成功提交申请。

我们将安排工作人员尽快与您取得联系。

感谢您使用 ZStack 产品和服务。