导语:微软开源 VibeVoice 语音 AI 框架,包含 ASR 语音识别和 TTS 语音合成两大模型。VibeVoice-ASR 支持 60 分钟长音频单次处理,生成包含说话人、时间戳和内容的结构化转录,支持 50+ 语言。3 月 29 日最新进展显示,该模型已被社区采用为语音输入法,标志开源语音技术迈向新阶段。 核心内容 VibeVoice 是微软推出的开源前沿语音 AI 模型家族,核心创新在于采用连续语音 token 化器,工作帧率仅 7.5Hz,在保证音频保真度的同时大幅提升长序列处理效率。模型采用 ne…
