Boson AI与SGLang联手推出Higgs Audio v3 TTS，实时可控语音合成

在语音AI领域，实时性与可控性一直是技术突破的关键瓶颈。近日，Boson AI与SGLang-Omni团队宣布，SGLang-Omni已完成对Higgs Audio v3 TTS的端到端Serving支持，这意味着开发者可以像调用文本模型一样，轻松部署一个能够实时生成语音的智能体。作为由李沐与Alex Smola共同创立的AI基础设施公司，Boson AI自2023年成立以来，一直聚焦大模型时代的系统创新，这次与SGLang的合作正是其技术实力的最新体现。

Higgs Audio v3 TTS的核心亮点在于其“实时可控”能力。与传统的TTS模型不同，v3版本在推理延迟上大幅优化，能够在200毫秒内生成流畅的语音片段，几乎感觉不到等待。同时，它支持对音色、语速、情感强度、停顿节奏等参数进行细粒度调节，甚至可以根据上下文自动调整语气。这意味着，同样的文本可以产出从温柔亲切到严肃专业的不同风格，这对客服、虚拟助手、有声书制作等场景尤为重要。在性能测试中，v3在自然度评分（MOS）上达到了4.3分，接近真人水平，而合成成本仅为每百万字符约0.8美元，远低于市场上同类高端模型。

这项合作的意义不仅在于技术指标本身，更在于其生态价值。SGLang-Omni是一个专为多模态大模型设计的推理框架，它优化了GPU显存利用和批处理效率，使得Higgs Audio v3可以在单张A100显卡上同时服务超过50路并发请求。对于中小型团队来说，这大大降低了部署门槛。过去，搭建一个高质量TTS服务需要昂贵的硬件和复杂的优化工作，而现在，通过SGLang-Omni的集成，开发者只需几行代码就能让语音智能体“开口说话”。Boson AI的联合创始人李沐表示，这一合作旨在让语音合成像文本生成一样便捷，推动语音交互进入“即插即用”时代。

展望未来，实时可控的TTS技术将重塑人机交互的边界。随着Higgs Audio v3与SGLang-Omni的整合完成，我们可以期待更多创新应用的出现：比如在直播中动态生成主播语音、在游戏中为NPC赋予个性化声音、在无障碍场景中为视障用户提供即时朗读服务。对于AI从业者而言，现在正是探索语音智能体落地的最佳时机。如果你正在开发语音相关产品，不妨从SGLang-Omni的官方文档入手，尝试将Higgs Audio v3集成到你的项目中，体验实时可控语音合成带来的全新可能。

Boson AI与SGLang联手推出Higgs Audio v3 TTS，实时可控语音合成

相关推荐

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%

YouMind 1.0发布：打破AI创作同质化困局

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%