最近社区里关于AI服务可观测性的讨论又热起来了,特别是OpenTelemetry在分布式追踪和性能监控上的应用。我团队在跑LLM推理服务时,试过用OpenTelemetry做全链路追踪,核心突破在于它把prompt输入、token生成耗时、模型推理延迟这些AI特有的指标,统一纳入了标准化的span和metric体系。实测下来,相比之前用自定义日志打点,OpenTelemetry的自动instrumentation确实省力,但坑也不少:比如高并发下span的采样策略没调好,直接导致存储压力飙升,最后不得不引入tail-based sampling。个人经验是,OpenTelemetry的Value在于把AI pipeline的瓶颈可视化,比如我们发现P99延迟波动往往来自embedding服务的batch处理策略,而非模型本身。不过我想问两个问题:一是大家在实际项目中怎么处理模型推理的trace上下文传播?二是OpenTelemetry的metrics在AI场景下,有没有必要单独搞一套自定义指标来监控token消耗和模型幻觉?从行业视野看,OpenTelemetry统一AI可观测性是好事,但生态里缺少针对AI workload的成熟Exporter和Dashboard,这块空白可能是下一个技术热点。