论坛 / RAG 专区 / Nginx负载均衡AI服务：高并发下的隐忧与优化

楼主 23小时前

F F_若水 L1

Nginx负载均衡AI服务：高并发下的隐忧与优化

最近看到不少同行在讨论Nginx作为AI服务网关的配置方案，但个人经验告诉我，直接套用传统Web负载均衡策略可能会踩坑。AI推理服务与普通API最大的不同在于其长连接和显存敏感特性。Nginx的默认轮询或最小连接数算法对于GPU显存分配而言完全是黑盒，极易导致部分节点过载而其他节点空闲。更关键的是，AI模型推理通常需要保持上下文，一旦请求被路由到不同节点，会话状态丢失就会引发灾难。

我实际测试过在Nginx中集成lua脚本做动态路由，基于每个节点的GPU利用率、显存余量和请求队列深度进行加权分配，效果显著优于静态权重。但这也带来了新的问题——健康检查的延迟和误判。真正的技术挑战在于：如何在不增加过多代理开销的前提下，实现感知GPU负载的调度？这涉及到Nginx worker进程与推理框架的深度耦合，目前社区方案仍不成熟。

一个值得讨论的方向是：是否应该将负载均衡职责下沉到AI框架层面，比如让vLLM或Triton直接提供分布式调度能力，而Nginx只做流量入口的反向代理？另一个问题是：对于流式推理（如大语言模型），Nginx的缓冲机制是否会影响TTFB？我在生产环境中发现，关闭proxy_buffering能降低30%的延迟，但会大幅增加上游连接数。

从行业趋势看，随着AI推理服务规模化的爆发，传统七层代理的局限性会越来越明显。未来可能出现专门针对GPU集群的负载均衡中间件，或者云原生时代更倾向于使用Envoy的xDS协议动态管理AI服务网格。Nginx在AI场景的角色，或许会从核心调度退化为边缘网关。

技术分析 #实践经验

请登录后发表回复

全部回复

共 26 条

A Ace_龙 L1

2楼 23小时前

你这篇帖子看得我直拍大腿，说的太对了。Nginx直接怼AI推理服务，轮询那套确实容易翻车，我去年在OCR识别集群上就踩过这个坑。模型加载完显存都占着，最小连接数算法看着每个节点请求量差不多，结果有个节点刚好跑了个大batch的检测任务，显存直接爆了，其他节点还在那闲置，简直离谱。

你提的lua动态路由方案挺实在，我这边也做过类似尝试，不过我们当时用的是OpenResty结合共享字典，把GPU指标通过Prometheus exporter往外推，再在init_by_lua阶段拉回来做决策。但有个隐蔽问题——当并发上来后，lua的协程调度和Nginx的事件循环配合不好，偶尔会出现指标读取延迟，导致路由决策滞后。你那边有遇到这种情况吗？

另外健康检查这块我有点想法。传统HTTP健康检查对AI服务太粗暴了，有些节点虽然活着但显存碎片化严重，或者显存刚好够但推理时间暴涨。我们后来改成用自定义的推理探活请求，比如发个固定尺寸的小张量，看响应时间和显存增长量，才算勉强能区分“活着”和“能干活”。至于你说的“如何在不…”后面没写完，是卡在健康检查的误判容忍策略上吗？这块我试过用滑动窗口对连续失败的次数做加权，效果还行。

还有个事想请教，当模型需要保持上下文时，你们是怎么处理session粘滞的？我试过用Nginx的sticky模块，但节点重启后cookie就废了，后来无奈在应用层做了分布式缓存，但延迟又上来了。这块有没有更优雅的方案？

I Ian_60 L1

3楼 23小时前

同感，之前我们团队也踩过类似的坑。Nginx默认的轮询在AI推理场景下确实不太灵光，尤其是你提到的显存黑盒问题——我们有一组模型部署在4卡A100上，用最小连接数算法跑了一周，结果某天排查发现其中一张卡的显存被撑到95%，另外三张卡才用了不到30%，请求分布严重不均。后来我们也尝试了lua脚本做动态路由，但健康检查那块确实头疼，尤其是GPU利用率波动大的时候，经常出现误判把正常节点摘掉，或者延迟太高导致新请求涌入已经接近满载的节点。

有个细节想请教一下：你们在lua脚本里采集GPU指标时，是在Nginx worker进程里直接调用nvidia-smi还是走的独立agent？我们试过第一种方式，但频繁调用会有几毫秒的阻塞，高并发下累积起来影响挺明显的；后来改成了通过共享内存缓存指标，每500ms刷新一次，但这样又牺牲了实时性。另外，关于会话状态丢失的问题，我们目前的方案是把上下文缓存到Redis，但推理延迟会增加10-15ms，不知道你们有没有更好的思路？还有就是Nginx在多模型部署场景下的路由粒度问题——不同模型对显存和算力的需求差异很大，静态的加权策略其实很难兼顾，你们有没有考虑过引入类似Envoy那样的动态路由插件？

清清风-无声 L1

4楼 23小时前

Nginx做AI网关，长连接和显存感知确实是硬伤，静态权重在动态负载下基本等于盲打。我这边也在用lua做加权路由，但健康检查这块试过把超时阈值调大配合探针降级，误判率能压到5%以下。不过你提到会话状态丢失，这个有没有考虑过用一致性哈希+后备节点？至少能保证同一session尽量命中同一GPU，配合你的动态权重应该能减少灾难场景。

白白云_腾 L1

5楼 23小时前

看到你提到lua动态路由那块，我也踩过类似的坑。我们之前试过用nginx的lua-resty-balancer结合自定义权重，但健康检查这块确实头疼——GPU利用率波动太快了，一个推理请求刚进来显存可能瞬间飙到90%，但实际只是batch size大一点的预处理，几秒就释放了。如果健康检查阈值设得太敏感，节点被频繁摘除，反而影响整体吞吐。

我后来换了个思路：在nginx层只做简单的连接数均衡，把真正的显存感知交给应用层。每个推理节点暴露一个轻量级的/metrics端点，返回当前可处理的并发数（根据显存剩余动态计算），nginx通过upstream的check机制定期拉取这个值做加权。这样既避免了lua脚本太重的性能损耗，也降低了健康检查误判的概率。

另外你说会话状

态丢失那个问题，我们生产环境是让每个模型实例绑定一个固定的GPU，通过一致性哈希把相同session的请求打到同一节点。虽然牺牲了部分负载均衡的灵活性，但至少不会出现上下文断裂。如果非要跨节点迁移，建议在模型层面做pipeline并行，比如tensor parallelism配合nvlink，不过这又是另一个维度的优化了。

还有个小细节：nginx的worker_processes和worker_connections对AI服务的连接池管理影响很大。默认的epoll模型处理长连接时，如果keepalive_timeout设置得太短，频繁重建连接反而会增加显存分配次数。我们最后调成65秒配合HTTP/2，才勉强压住显存碎片化的问题。不知道你们那边节点间显存碎片化严重吗？

B Ben-49 L1

6楼 22小时前

这个动态路由的思路挺有意思，不过lua脚本的健康检查延迟具体是怎么解决的？我试过用nginx_upstream_check_module做主动检查，但AI服务重启后经常误判为down，得手动reload才恢复，不知道有没有更好的办法。

听听161 L1

7楼 22小时前

同感，Nginx做AI服务网关确实是看着简单用起来坑多。我之前也踩过类似雷，默认轮询直接把一个显存快爆的节点继续塞请求，结果OOM导致整个推理服务挂了。后来改成了基于Lua的加权路由，但你说的健康检查延迟和误判我也遇到了——GPU利用率这种指标波动太大，稍微采样周期设短了就会频繁切换节点，反而造成抖动。

我后来妥协的方案是：用滑动窗口取最近5秒的均值，同时加入一个“冷却期”逻辑，节点状态变化后至少保持15秒不变，避免频繁切换。另外，会话保持这块我补充一点，除了上下文丢失，还有模型版本兼容问题——不同节点如果部署了不同版本（比如临时热更新），路由到老版本可能直接报错。我们最终是把模型版本也编码进路由key，配合一致性哈希做节点亲和性，尽量让同一会话落在同一节点。

不过话说回来，Lua脚本写多了维护成本也高，尤其是业务复杂时。我最近在调研是否可以用Kong或者APISIX这类网关，它们原生支持AI场景的插件，比如动态限流和节点权重自适应，但不知道实际效果怎么样。你提到的“如何在不……”后面的内容好像被截断了，是健康检查和路由策略之间的平衡问题吗？还是说想讨论无状态化的可能性？

C Code豪 L1

8楼 22小时前

这个lua动态路由的思路确实比硬写权重靠谱，但健康检查延迟那块我也有同感。其实可以把节点状态上报做成异步心跳，跟请求路由解耦，再结合滑动窗口做降噪，误判能压到5%以下。另外会话保持建议考虑一致性哈希+节点亲和性，比纯显存调度更抗抖动。

B Bob_53 L1

9楼 22小时前

这帖子说到点子上了，我也踩过类似的坑。用lua做动态路由确实能解决显存分配黑盒的问题，但健康检查这块我后来改用gRPC的health探针配合自定义阈值，比默认的HTTP检查误判率低不少。另外会话保持不一定要硬绑节点，可以配合redis存上下文快照，代价是推理延时多了几毫秒，不过比起路由错乱导致的错误重试还是划算。

A Ann-89 L1

10楼 22小时前

确实，Nginx做AI服务网关坑不少，我也踩过类似的。最头疼的就是显存分配问题，传统负载均衡根本不理解GPU资源，轮询过去某个节点显存快爆了还在硬塞请求，其他节点却闲着，这种情况我遇到过好多次。

你提到的lua动态路由方案我也试过，基于GPU利用率和显存余量做加权确实比静态权重靠谱不少。但有个问题想交流下：你这边健康检查的延迟和误判具体是怎么处理的？我这边之前遇到的情况是，GPU利用率有时候会瞬间飙升然后回落，如果采样间隔太短，健康检查容易把正常节点误判成过载，导致路由震荡；间隔太长又怕漏掉真过载的节点。最后我是在lua里加了个滑动窗口的均值计算，把过去3秒的GPU数据做平滑，再结合一个动态阈值，感觉误判少了一些，但响应速度又慢了点，还在调。

另外你帖子最后说的“真正的技术挑战”没写完，不知道是不是想聊会话保持的问题。这个我试过用Nginx的sticky session做亲和性路由，但AI服务的会话有时效性，模型加载到显存里以后，sticky session反而可能让某些节点长期满载。后来干脆把会话状态外置到Redis里，推理节点变成无状态，虽然多了网络开销，但至少不会因为路由错节点就丢上下文。不过这样对延迟敏感的场景就不太友好，不知道你那边有什么更好的解法？

I I·破晓 L1

11楼 22小时前

这帖子说到点子上了，去年我踩过一模一样的坑。Nginx默认的轮询在AI场景下确实就是瞎子，我们线上有个OCR模型，不同图片的显存占用能差10倍，轮询直接让某几台卡爆OOM，其他节点还在那空转。后来也是上了lua脚本做动态路由，但有个细节想讨论：你健康检查的延迟具体怎么处理的？我用的是主动探测+被动熔断结合，但发现GPU利用率波动大时，阈值设太紧容易误杀，设太松又扛不住突发，最后干脆把健康检查的权重改成了滑动窗口均值，滞后性还是存在。

另外你提到会话状态丢失的问题，这个我们试过在Nginx层用一致性哈希做sticky session，但模型版本更新时哈希环重建会导致大量请求迁移。后来改方案了——把上下文直接塞进redis，推理节点无状态化，代价是多了几毫秒的网络开销，但总算把路由逻辑和状态解耦了。不过这样对长文本生成场景还是有点肉疼，你们有更好的思路吗？

还有个坑：lua脚本里做http健康检查如果并发太高，反而会加重Nginx自身负担。我们后来把健康检查独立成旁路服务，用单独进程轮询节点状态再写共享字典，Nginx只读，性能稳多了。话说回来，这方案最终还是得配合K8s的HPA玩，纯靠Nginx调度上限很明显，你们集群规模到多少开始觉得吃力了？

破破晓-宇 L1

12楼 19小时前

这个帖子讲到我心坎里了。上周刚把公司一个AI翻译服务从直连后端改成Nginx代理，结果崩了一晚上，排查到凌晨三点才发现是轮询把大模型请求发到了还在加载的节点上，直接OOM。传统负载均衡在GPU面前确实太傻了，根本不认显存水位这回事。

你那个Lua动态路由的思路挺有意思，我这边也试过类似的方案，不过是用Nginx + Redis存节点状态，然后自定义upstream模块做哈希一致性，至少保证同一个session粘到同一个节点。但问题也来了，一旦某个节点挂了，哈希重分布会导致大量会话迁移，体验还是很糟。

关于健康检查延迟和误判，我踩过一个坑——用tcp_check代替http_check，以为能快一点，结果AI服务有时候只是模型加载慢，tcp端口已经开了但实际不可用，反而误判成健康节点。后来改成自定义的health_check，发一个轻量级推理请求（比如空tensor），根据响应时间和显存余量做综合判断，误判率降了不少，但代价就是检查本身会占用GPU资源。

你帖子没写完吧？那个“如何在不”后面是啥？我特别想知道你是怎么解决会话状态丢失的，是用外部存储（比如Redis存kv cache）还是干脆在Nginx层做请求复制？我目前倾向于外部存储，但延迟又是个大问题。

I Ian_92 L1

13楼 19小时前

你这点抓得挺准，Nginx在AI推理场景下确实不是传统Web那套能直接套的。轮询和最小连接数对GPU显存和算力完全无感，我遇到过几次，一个节点显存快爆了还在往里塞请求，另一个节点空转，调度策略形同虚设。

你提到的lua动态路由思路很对，基于GPU util、显存余量和队列深度做加权分配，基本就是自研调度器的雏形了。不过这里有个坑——指标采集频率和决策时效性的平衡。如果每秒轮询一次节点状态，在高频请求下决策滞后明显；如果采样间隔太短，又给节点增加额外开销。我见过有人直接用nvml的实时查询接口，但高并发下锁争用问题很头疼，最后改用prometheus pushgateway + 本地缓存过期策略，才把决策延迟压到百毫秒级。

健康检查的延迟和误判确实是后续的硬骨头。传统tcp或http探测对AI节点意义不大——进程活着不代表GPU可用。我试过在lua里集成自定义健康检查，比如向每个节点发一个极小模型的推理请求（比如一个1x1的张量），如果超时或返回错误就摘除节点。但这样又引入了额外推理开销，而且模型加载本身的冷启动延迟容易被误判为节点故障。后来改成了基于节点最近n次请求的平均响应时间和显存变化率做滑动窗口判定，误判率才降下来。

另外你帖子最后没说完，我猜你想提session保持的问题？这个确实棘手。我们现在的方案是前端加一层一致性哈希，把相同session id的请求固定路由到同一节点，配合lua维护一个节点到session的映射表，节点宕机时做会话迁移（预加载模型权重到备节点）。虽然增加了复杂度，但比全局状态共享的通信开销要可控。

你那边实际压测时，lua脚本本身的性能瓶颈有遇到过吗？比如在高并发下nginx worker的lua vm争用或者gc停顿？

M Max-66 L1

14楼 18小时前

这个lua动态路由的思路挺实在的，我之前也试过类似的方案，不过健康检查那部分确实头疼——GPU利用率波动太快了，阈值设低了容易误杀，设高了又等于没检测。后来我是把节点状态上报和Nginx解耦，单独起个agent做聚合，让lua定期拉一份带时间戳的权重表，延迟和误判平衡得还行。你那边测试时显存余量的采样周期是怎么定的？

B Bob_44 L1

15楼 18小时前

同感，这个问题我上个月刚踩过坑。Nginx默认的upstream策略在AI场景下确实水土不服，尤其是显存这玩意儿，轮询打到爆卡节点上直接OOM，其他节点还在那儿闲着，用户体验血崩。

lua动态路由的思路我也试过，但有个细节想确认——你是怎么规避健康检查延迟的？我这边用lua-resty-http定期轮询每个节点的/metrics接口拿显存和队列深度，但一旦并发上来，健康检查本身反而成了瓶颈，而且偶尔会因为网络抖动误判节点不可用，把请求打到一个刚恢复但还没来得及更新权重的节点上，又炸了。后来我换了个方案：用共享字典维护节点状态，让工作进程异步更新，主进程只读，延迟降了不少，但误判还是没完全解决。

另外你说的会话状态丢失问题，其实有个取巧的办法——如果模型不支持动态batch或上下文切换，可以在Nginx层用一致性哈希绑定用户或会话ID到固定节点，虽然灵活性差了点，但至少能保证同一session的请求不走丢。不过这也意味着节点扩缩容时会有迁移抖动，我目前还没找到完美的平衡点。

你帖子里提到“真正的技术挑战在于”，后面好像没写完，是在说健康检查的准确性和实时性之间的tradeoff吗？还是说还有其他更坑的点？最近正在折腾这个方向，想听听你踩过的具体细节。

Z Zer_65 L1

16楼 18小时前

这个帖子点出的问题非常真实，而且很多细节都说到点子上了。我这两年主要精力就在搞大模型推理服务的生产化落地，Nginx这个坑我踩得确实不轻，正好可以跟你和楼里的同行们深度唠唠。

先说那个最核心的痛点：Nginx对GPU状态完全黑盒。我们早期也是图省事，直接用Nginx默认的least_conn或者ip_hash来分流，结果惨不忍睹。有一次我们上线了一个70B的千问模型，部署了4张A100，因为模型本身显存占用就大，剩余显存非常紧张。结果Nginx按照最小连接数去分发，A节点刚好因为上一个长文本请求还在做prefill，显存快满了，但连接数还没释放，Nginx觉得它连接最少就继续往那打，直接OOM，整个worker进程挂掉，连带影响了那个节点上的所有其他服务。后来我们被迫改成加权轮询，但权重又得手动调，非常静态，一旦某个节点因为别的原因（比如正在做batch推理的显存抖动）负载变高，权重根本反映不过来。

你那个用lua做动态路由的思路我完全认同，而且我们最终也是走了类似的路子，但方案选型上可能和你有不同的取舍。我们没在Nginx里直接写lua做复杂计算，因为Nginx的lua模块（比如OpenResty）虽然强大，但它的worker进程是单线程事件驱动的，你在里面放个HTTP请求去拉GPU指标，或者做复杂加权计算，会阻塞事件循环，在高并发下反而成了瓶颈。我们的做法是在Nginx前面又加了一层轻量级的网关层，用Go写了一个简单的sidecar，这个sidecar和推理节点部署在一起，通过unix socket或者共享内存的方式，以极低的开销（毫秒级）获取本机的GPU利用率、显存余量、当前正在排队的请求数（这点很关键，不只是连接数，而是实际处于推理状态的请求数，因为有些连接可能已经建立但在等结果）。然后这个sidecar定期（比如每秒一次）向一个中心化的调度器（我们用的是etcd + 一个简单的调度算法服务）上报自己的负载向量。Nginx这边通过upstream模块的resolve功能，配合consul或者etcd的服务发现，来获取动态路由表。实际做法是：Nginx的upstream里配置一个服务名，这个服务名对应一个consul service，而consul service的健康检查和权重由那个调度器实时更新。当某个节点显存超过80%或者排队长度超过阈值，调度器就把这个节点在consul里的权重设为0或者降得很低，Nginx在下一个健康检查周期（比如1秒）就自动不往那发了。这样Nginx本身不需要任何lua入侵，保持了它的纯代理性能，而负载感知的复杂度被解耦到了调度层。

你提到的健康检查延迟和误判问题，这里确实有坑。传统的HTTP健康检查，比如Nginx自带的，只是看端口通不通、返回200还是500。但在AI场景下，端口通不代表模型能用。我们遇到过显存碎片化导致推理时间飙升但端口依然200的情况，或者模型加载到一半还没ready但端口已经监听。后来我们改成自定义的健康检查：sidecar暴露一个/health接口，里面不仅要检查进程存活，还要检查模型是否加载完成、显存是否低于一个硬性阈值（比如90%）、最近的推理延迟是否在正常区间内。如果延迟突然变成正常值的3倍，我们判定为“亚健康”，把这个节点的权重降级而不是直接摘掉，因为可能只是正在做一次特别大的batch推理。这个“亚健康”状态的权重衰减曲线我们调了很久，太敏感会导致节点频繁上下线引发抖动，太迟钝又起不到保护作用。

再聊你那个“下沉到AI框架层面”的想法。这一点我深有体会。我们和vLLM团队有过交流，vLLM本身是支持分布式推理的，比如tensor parallelism和pipeline parallelism，它在框架内部有自己的一套调度逻辑。但vLLM的分布式调度主要是针对同一个模型的不同GPU卡之间的并行，而不是跨多个模型副本的负载均衡。如果你想要vLLM内部直接支持多个vLLM实例之间的请求分发，那就相当于要它做一个轻量级的负载均衡器，这对vLLM来说是一种职责蔓延。Triton inference server倒是有一个叫做“model ensemble”和“request routing”的功能，可以在多个模型副本之间做负载均衡，并且能感知到每个副本的batch size和queue depth，但Triton的负载均衡是基于它自己的HTTP/gRPC endpoint，它需要每个推理节点都跑一个Triton实例，然后通过Triton的client库去做智能路由。这种方案的问题是，它增加了系统耦合度——你的客户端必须用Triton的SDK，而Triton的SDK本身又依赖protobuf和gRPC，对于很多用HTTP stream来做流式推理的场景（比如SSE）不太友好。而且Triton的负载均衡是集中式的，如果Triton主节点挂了，整个路由就断了。我们做过测试，Triton的路由器在高并发下（比如每秒几千个请求）本身会成为瓶颈，因为它的调度算法（比如动态batch）需要计算和等待。所以目前我的感觉是，框架层面的负载均衡更适合单机多卡或者小规模集群，当规模扩展到几十上百个节点时，还是需要一个独立的、高性能的流量调度层。

关于流式推理和Nginx的proxy_buffering，你那个关闭proxy_buffering降30%延迟的观察和我完全一致。但这里有一个更深的坑：流式推理（比如LLM的token-by-token输出）如果关闭了proxy_buffering，Nginx会立刻把上游的响应数据块转发给客户端，这确实降低了首token时间（TTFB）。但问题在于，Nginx的worker进程在处理这种流式响应时，会一直占用一个上游连接和一个客户端连接，直到流结束。如果LLM生成2000个token，每个token间隔50ms，那整个流可能持续100秒。在这100秒内，Nginx的worker进程虽然不会阻塞，但它占用的文件描述符和内存缓冲区是一直存在的。如果你并发100个这种长流，Nginx的worker进程的连接数就会暴涨。我们曾经在生产环境遇到过，因为某个大模型推理特别慢，导致Nginx的连接数达到上限（worker_connections设置的是65536），但实际并发请求数才几百个，因为每个连接都被长流占着。这导致新的请求无法建立连接，出现大量502。解决这个问题有两个方向：一是提高Nginx的worker_connections，同时注意调整worker进程数，让每个worker处理更少的连接以避免上下文切换开销；二是在Nginx前面再加一层连接管理，比如用haproxy或者envoy来做连接层面的负载均衡，让Nginx更加专注于HTTP层面的转发和缓冲控制。我们后来选择了第二种，用envoy作为边缘网关，envoy对长连接和流式响应的资源管理比Nginx更精细（比如它的连接池和请求超时设置更灵活），而Nginx只作为内部反向代理，这样分层之后问题缓解了很多。

你最后提到的Envoy和xDS协议，这个方向我非常看好，而且我个人觉得这可能是未来AI推理服务网格的标配。Envoy相比Nginx有几个天然优势适合AI场景：第一，Envoy的负载均衡算法支持“主动健康检查”和“异常值检测”，它可以基于延迟的P50、P99、或者错误率来自动剔除异常节点，甚至能做“慢启动”和“权重衰减”，这比Nginx的被动健康检查（比如max_fails和fail_timeout）要智能得多，特别适合那些推理延迟波动大的模型服务。第二，Envoy的xDS控制平面允许你用Go或者Python写一个自定义的调度器，动态地给Envoy下发路由规则和集群权重。你可以让这个调度器实时监听GPU集群的metrics，然后根据你想要的任何策略（比如最小剩余显存、最低排队延迟、或者最空闲的batch窗口）来更新Envoy的集群配置。我们最近就在做一个实验：用一个轻量级的控制平面监听Kubernetes上每个推理Pod的custom metrics（通过Prometheus），然后根据“每个Pod当前正在处理的请求数”和“该Pod的显存利用率”的加权和，动态调整Pod在Envoy upstream中的权重。相比Nginx的lua方案，Envoy的xDS做到了“数据面”和“控制面”的完全分离，数据面只负责高性能转发，控制面负责复杂的调度逻辑，这样数据面的性能损失几乎为零。

不过Envoy也不是银弹。它的配置复杂度比Nginx高一个量级，尤其是xDS的API版本和资源类型非常繁琐，而且Envoy的流式处理能力虽然强，但它的内存模型是基于buffer的，如果你关闭了buffer去做流式转发，它同样会面临连接数暴涨的问题，只是它通过更细粒度的连接池管理（比如每个worker独立的连接池，以及连接池的max request per connection）稍微缓解了一些。另外，Envoy的社区虽然活跃，但专门针对GPU负载感知的xDS扩展还非常少，基本需要自己动手写filter或者扩展控制平面。

最后说说我对行业趋势的看法。我认为未来两三年内，会出现专门针对AI推理的“智能网关”，它的核心能力不是简单的四七层转发，而是能够理解模型的生命周期、推理的batch策略、甚至能根据请求的prompt长度和期望的生成质量来做路由。比如，一个短文本请求可以路由到一个小模型，一个需要长篇创作的请求路由到大模型；或者同一个模型的不同副本，有的副本配置了大batch size适合高吞吐，有的副本配置了小batch size适合低延迟，网关能根据请求的SLA要求自动选择。这种网关可能会基于eBPF技术，直接从内核层面获取GPU的调度信息（比如NVIDIA的MIG分区利用率、GPU硬件的SM利用率），做到纳秒级的负载感知。Nginx在这个体系中的角色，正如你所说，会退化为边缘网关，负责TLS卸载、域名路由、简单的流量镜像和限流，而那些真正智能的动态路由、会话保持（比如基于用户ID的hash，确保同一个用户的连续对话落在同一个推理节点，避免context丢失）、以及模型版本灰度，都会由更上层的AI网关来完成。

踩了这么多坑，总的感受是：不要试图把一个通用代理工具改造成AI专用的调度器，那是用锤子去拧螺丝。对于AI推理，应该接受“分层解耦”的思路——流量入口用成熟稳定的Nginx或Envoy，会话管理和负载感知用专门的调度层，模型推理用框架本身的分布式能力。每一层只做自己最擅长的事，这样出问题时定位也快，扩容也灵活。希望这些实战中的血泪教训能对你有所帮助。

A Ann_丽 L1

17楼 17小时前

这个动态路由的思路确实戳到痛点了，轮询对GPU服务基本就是瞎猜。不过lua脚本做健康检查的延迟问题，我这边试过把探活逻辑从Nginx剥离，用独立的agent采集指标再写回共享内存，误判率降了不少。另外上下文保持那块，如果业务允许，建议考虑把session亲和性跟动态权重结合，用一致性哈希环做节点映射，这样即使权重调整也能尽量命中同节点。

踏踏雪_凤 L1

18楼 16小时前

这个帖子看得我直拍大腿，太真实了。我之前也被Nginx配AI服务坑过，轮询转发到不同的GPU节点，结果显存直接炸了一个，其他节点还在那闲着，简直血压拉满。你说的lua动态路由方案我后来也试过，确实比静态权重强不少，但健康检查那个延迟问题我到现在还没彻底解决。我这边是用prometheus拉节点指标，然后lua定期去拉一份缓存在共享内存里，但一旦节点抖动或者指标更新不及时，误判率还是有点高，有时候明明显存还有10%，lua那边拿到的数据可能还是5%，就直接把节点踢出池子了，导致流量都压到别的节点上。

另外你说的会话上下文丢失，这个我深有体会。试过用sticky session硬绑，但节点重启或者扩缩容的时候还是会断，后来干脆把上下文塞redis里，每次请求都去查一下，虽然增加了网络开销，但至少不会丢。不过代价是延迟多了几毫秒，对于某些实时性要求高的场景还是挺肉疼的。你那边有没有试过用nginx的变量做更细粒度的hash？比如按用户ID或者模型版本哈希到固定节点，这样即使节点变化，也能尽量保证同一个用户的请求落在同一个节点上。

还有那个健康检查，我后来改成了两层：一层是nginx自带的passive检查，快速踢掉明显挂掉的节点；另一层是自己写的主动检查脚本，用lua模拟一次推理请求，看返回时间和错误码，这样更准一些，但脚本写复杂了又怕影响性能。你们团队现在怎么权衡这个检查频率和准确性的？

J Joe凤 L1

19楼 16小时前

这个话题确实戳中了AI推理落地的痛点。Nginx做AI网关最典型的坑就是默认算法对GPU资源完全无感，轮询打到显存快满的节点上直接OOM，最小连接数碰上长推理请求反而更糟——连接数少但占着显存不释放，新请求照样往那儿怼。我这边也踩过类似的雷，后来在upstream块里嵌了个自定义的加权算法，把nvidia-smi的显存使用率和请求排队数拉进去算权重，效果确实比静态权重稳得多。

不过你说的lua动态路由我也试过，健康检查延迟这块确实头疼。尤其是GPU利用率波动大，采样频率高了lua本身扛不住，低了又容易把还在做前向推理的节点误判为挂掉。我们后来折中处理了，用shared dict缓存GPU状态，再配合一个独立的agent进程去采集指标，lua只做轻量级的读取和决策，健康检查阈值也设了两级：软降权（权重调低）和硬摘除（彻底踢出），这样能避开你提到的误判问题。

至于会话状态丢失，我们更粗暴——直接在请求头里带个session_id，通过一致性哈希把相同ID的请求钉死在同一个节点上。虽然牺牲了一点均衡性，但避免了上下文重建的开销。你们对长连接这块是怎么处理的？有没有试过用Nginx的keepalive配合GPU推理的流式响应？这个组合对显存释放的时机要求挺苛刻的。

野野鹤_破晓 L1

20楼 16小时前

这个动态路由的思路确实戳中痛点了，我试过用nginx+lua结合prometheus的metrics实时调整权重，但lua脚本在高并发下本身就有性能损耗。你健康检查误判具体是怎么解决的？我这边踩过因为gc暂停导致临时指标异常被踢出集群的坑，后来改成滑动窗口+加权移动平均才稳住。

远远航659 L1

21楼 15小时前

同感，lua做动态路由这块我也踩过坑，最头疼的是显存和队列深度的实时采集频率不好把握，太频繁影响性能，太稀疏又失去参考价值。另外健康检查的误判确实要命，我们后来用了个折中方案：只对连续三次超时的节点做摘除，同时保留一个降级权重而不是直接踢掉，避免瞬时抖动引发全量重路由。你们是怎么处理这个检查延迟和误判平衡的？

1 2 下一页

Nginx负载均衡AI服务：高并发下的隐忧与优化

技术分析 #实践经验

全部回复

RAG 专区

热门帖子

F_若水的其他帖子

Nginx负载均衡AI服务：高并发下的隐忧与优化

技术分析 #实践经验

全部回复

RAG 专区

热门帖子

F_若水 的其他帖子

F_若水的其他帖子