Kubernetes排障实战：三招终结Pod频繁重启的噩梦

作为容器编排的事实标准，Kubernetes在生产环境中常遇到Pod频繁重启的问题。这种"重启风暴"不仅影响服务稳定性，还会掩盖真正的故障根源。本文将用真实案例拆解三大常见诱因及解决方案。

一、问题现象与排查路径

当执行kubectl get pods出现以下情况时需警惕：

推荐排查命令组合：

kubectl describe pod [pod-name] | grep -A 10 Events
kubectl logs --previous [pod-name] 
kubectl top pod  # 监控资源消耗

现象： Java应用每小时重启3-5次，describe事件显示OOMKilled

根因： JVM堆内存未限制，容器默认内存上限2GB

解决方案：

在Deployment中明确资源限制：

resources:
  limits:
    memory: "4Gi"
    cpu: "2"
  requests:
    memory: "2Gi"
    cpu: "1"

现象： NodeJS服务启动后立即重启，日志显示健康检查失败

根因： Readiness探针超时时间（timeoutSeconds）设置为1秒，但应用冷启动需8秒

解决方案：

调整探针参数：

readinessProbe:
  httpGet:
    path: /health
    port: 3000
  initialDelaySeconds: 10  # 关键！预留启动时间
  periodSeconds: 5
  timeoutSeconds: 3

现象： 更新ConfigMap后，关联Pod集体重启

根因： 直接挂载ConfigMap导致文件系统变更触发容器重建

解决方案：

结合2023年KubeCon最新实践建议：

Pod频繁重启如同Kubernetes世界的"咳嗽"，可能是小感冒也可能是重症前兆。通过资源管控、探针调优和配置隔离三管齐下，配合声明式运维思维，即可构建稳定的容器运行环境。记住：每次重启都是系统在向你求救，抓住这个排障黄金窗口！