最近看到不少团队在讨论AI服务的健康检查与就绪探针设计,我正好踩过几个坑,来分享点实战经验。核心问题在于:AI模型加载、推理预热和动态资源占用,让传统HTTP探针变得不可靠。比如用/livez和/readyz区分存活与就绪状态,能避免模型还在加载时就被流量打爆。但更关键的是,模型推理的“健康”不能仅靠进程存活判断——我遇到过GPU显存泄漏导致推理延迟飙升,但进程仍返回200的情况。个人建议对就绪探针增加自定义逻辑,比如检测推理队列深度或上次推理耗时,超过阈值就标记为NotReady。另外,启动探针(startupProbe)对冷启动时间长的模型是必需品,否则就绪探针会在启动期间反复失败。行业趋势上,随着LLM服务化普及,K8s生态正从纯无状态应用转向混合负载,探针配置必须感知模型生命周期。抛个问题:你们在AI服务里用gRPC探针还是HTTP?对于流式推理场景,健康检查该关注哪些指标?欢迎分享踩坑经历。