本文解析了Kubernetes集群中因Karpenter合并机制导致超大规格节点持续低利用率却未被回收的异常现象。通过监控数据分析和实验验证,揭示了调度器优先选择空闲大节点的行为模式与Karpenter的稳定期条件相互冲突的核心机制。提出基于PriorityClass的优先级调度解决方案,有效打破周期性任务阻碍节点回收的循环。该方案在生产环境实现92%问题发生率和37%闲置资源降低的实际收益,为云原生架构的资源优化提供实践路径。
本文分析了 K8S 控制器开发中一个常见的错误:在判断 Pod 是否处于运行状态时,仅检查了 Pod 的 Phase 而忽略了 DeletionTimestamp,导致处于终止过程中的 Pod 被错误地计为 Running。文章提供了正确的判断逻辑,并指出了 Pod 生命周期管理中的其他注意事项。
本文详解了 K8S ReplicaSet 在缩容时选择待删除 Pod 的内部排序逻辑,并介绍了如何通过设置 `controller.kubernetes.io/pod-deletion-cost` 注解来干预 Pod 的删除优先级。
This article explains how to recover from metadata corruption in a Doris cluster running on K8S by adding a recovery annotation to the FE StatefulSet.
A guide on monitoring network connection limits in AWS EC2 instances and exporting network metrics using a custom Prometheus exporter
This article provides shell scripts to help identify unused AWS Load Balancer resources, including load balancers without listeners and target groups without healthy targets, which can help optimize AWS costs.
个人常用命令,仅供参考
Django 项目前期如果图省事选择了 SQLite 的话,后期难免也切换到其他关系型数据库。还好,Django 提供了全部需要的功能,且非常简单。
最近开始使用 AWS cn-north-1,因为国区和国际区的区别,在部署 EKS 时还是花费了几点时间
最近我对IPv6进行了研究,目前已经实现了两个前置条件。第一个是个人宽带用户可以拥有IPv6公网IP,第二个是移动4/5G网络可以拥有IPv6公网IP。由于这些条件的实现,现在搭建一个随时可访问、管理的个人云已经成为了可能。因此,我开始使用Orange Pi来搭建我的个人云。