本文解析了Kubernetes集群中因Karpenter合并机制导致超大规格节点持续低利用率却未被回收的异常现象。通过监控数据分析和实验验证,揭示了调度器优先选择空闲大节点的行为模式与Karpenter的稳定期条件相互冲突的核心机制。提出基于PriorityClass的优先级调度解决方案,有效打破周期性任务阻碍节点回收的循环。该方案在生产环境实现92%问题发生率和37%闲置资源降低的实际收益,为云原生架构的资源优化提供实践路径。
本文分析了 K8S 控制器开发中一个常见的错误:在判断 Pod 是否处于运行状态时,仅检查了 Pod 的 Phase 而忽略了 DeletionTimestamp,导致处于终止过程中的 Pod 被错误地计为 Running。文章提供了正确的判断逻辑,并指出了 Pod 生命周期管理中的其他注意事项。
本文详解了 K8S ReplicaSet 在缩容时选择待删除 Pod 的内部排序逻辑,并介绍了如何通过设置 `controller.kubernetes.io/pod-deletion-cost` 注解来干预 Pod 的删除优先级。
This article explains how to recover from metadata corruption in a Doris cluster running on K8S by adding a recovery annotation to the FE StatefulSet.
最近开始使用 AWS cn-north-1,因为国区和国际区的区别,在部署 EKS 时还是花费了几点时间
自2021年,我开始运维一个日均PV 10万+的 Discuz! X论坛站点。接手后陆续发现一些问题难以通过传统方法解决,遂决定对其进行容器化改造。