在语音AI领域,实时性与可控性一直是技术突破的关键瓶颈。近日,Boson AI与SGLang-Omni团队宣布,SGLang-Omni已完成对Higgs Audio v3 TTS的端到端Serving支持,这意味着开发者可以像调用文本模型一样,轻松部署一个能够实时生成语音的智能体。作为由李沐与Alex Smola共同创立的AI基础设施公司,Boson AI自2023年成立以来,一直聚焦大模型时代的系统创新,这次与SGLang的合作正是其技术实力的最新体现。
Higgs Audio v3 TTS的核心亮点在于其“实时可控”能力。与传统的TTS模型不同,v3版本在推理延迟上大幅优化,能够在200毫秒内生成流畅的语音片段,几乎感觉不到等待。同时,它支持对音色、语速、情感强度、停顿节奏等参数进行细粒度调节,甚至可以根据上下文自动调整语气。这意味着,同样的文本可以产出从温柔亲切到严肃专业的不同风格,这对客服、虚拟助手、有声书制作等场景尤为重要。在性能测试中,v3在自然度评分(MOS)上达到了4.3分,接近真人水平,而合成成本仅为每百万字符约0.8美元,远低于市场上同类高端模型。
这项合作的意义不仅在于技术指标本身,更在于其生态价值。SGLang-Omni是一个专为多模态大模型设计的推理框架,它优化了GPU显存利用和批处理效率,使得Higgs Audio v3可以在单张A100显卡上同时服务超过50路并发请求。对于中小型团队来说,这大大降低了部署门槛。过去,搭建一个高质量TTS服务需要昂贵的硬件和复杂的优化工作,而现在,通过SGLang-Omni的集成,开发者只需几行代码就能让语音智能体“开口说话”。Boson AI的联合创始人李沐表示,这一合作旨在让语音合成像文本生成一样便捷,推动语音交互进入“即插即用”时代。
展望未来,实时可控的TTS技术将重塑人机交互的边界。随着Higgs Audio v3与SGLang-Omni的整合完成,我们可以期待更多创新应用的出现:比如在直播中动态生成主播语音、在游戏中为NPC赋予个性化声音、在无障碍场景中为视障用户提供即时朗读服务。对于AI从业者而言,现在正是探索语音智能体落地的最佳时机。如果你正在开发语音相关产品,不妨从SGLang-Omni的官方文档入手,尝试将Higgs Audio v3集成到你的项目中,体验实时可控语音合成带来的全新可能。