计算机科学与探索 ›› 2019, Vol. 13 ›› Issue (12): 1995-2007.DOI: 10.3778/j.issn.1673-9418.1808054
赵倩,谢上钦,韩轲,龚青泽,冯光升,林俊宇
ZHAO Qian, XIE Shangqin, HAN Ke, GONG Qingze, FENG Guangsheng, LIN Junyu
摘要: 随着云服务的应用和普及,云计算集群中容器的数量也日益增多。当集群中某一结点发生故障时,如何将故障结点上的服务迁移到可靠结点上成为维护云计算集群的重要问题。传统的集群容错方法采用备用主机作容错结点,由于受服务运行环境的限制,一台物理主机只能作一类服务的备用主机。为了提高容错备机的利用率,同时降低容错迁移拒绝率和容错迁移延迟,提出一种基于容器容错池的容器迁移机制。利用检查点机制和远程直接内存访问(RDMA)技术,在不影响容器虚拟集群正常工作的前提下,减少任务恢复环境耦合问题对任务迁移造成的影响。在实验室环境下验证了这种迁移机制的可用性和有效性。