Voice AI赛道最近被Hojo-ASR-V1刷屏了,LibriSpeech Clean 1.74%的词错误率确实亮眼,GigaSpeech和VoxPopuli都低于8%,这数据放在开源ASR里算是第一梯队了。不过我更关注的是它的架构设计:编码器+适配器+大语言模型,本质上是用Whisper做前端特征提取,然后通过适配器桥接到Qwen3-4B进行语义理解。这种做法其实是对传统端到端ASR思路的一个补充,把语音识别从单纯的声学建模推向了语义理解层面。

从我个人的实测经验来看,这种架构的优势在于对噪声环境下的鲁棒性更强,因为大模型能利用上下文做纠错。但问题也很明显:推理延迟比纯CTC模型高不少,而且对长音频的分段处理容易丢失边界信息。Hojo团队能在4B参数级别实现这个效果,说明适配器压缩做得不错。

不过我想问两个问题:一是这种架构在中文多方言场景下表现如何?二是开源许可是否支持商业化二次开发?毕竟Whisper和Qwen3的协议不同,混用可能有合规隐患。从行业格局看,Voice AI正在从单一ASR向Agent的语音入口演进,Hojo这步棋踩中了趋势,但后续生态建设才是关键。大家有在边缘设备上试过这个模型吗?欢迎分享实测心得。