本文最后更新于134 天前,其中的信息可能已经过时,如有错误请发送邮件到big_fw@foxmail.com
强行关机,服务未缩零,导致集群夯住问题
故障背景
在服务器迁移的时候,在公司搭好环境以后把服务器拿到酆都准备直接启动。
由于当初虚拟机关机的时候服务未缩零,以及丰都没有内网的时间服务器,导致硬件时间和系统时间不一致
未缩零导致问题:
所有的POD
一直是updateing状态,无论是扩缩容,强制删除,重新部署等均无效,集群夯死!
时间不一致导致问题:
get pod 状态的时候AGE会显示invalid,需要在esxi平台修改硬件时间,之后虚拟机之间配置chronyd,ansible修改;
时间错误会导致k8s集群失去反应,apiserver不能正确的接收和发送指令;
时间修复以后集群组件无限重启,master节点apiserver,etcd,scheduler等;登录到对应的节点之后把所有的docker容器全部删除,然后重启(kubenetes自动拉取)后恢复正常:
docker ps -a |awk '{print $1}' |xargs docker rm -rf