导语:arXiv 最新论文提出 RelayS2S 框架,解决实时语音对话系统中延迟与质量的根本矛盾。研究指出现有端到端语音模型响应快但语义弱,级联 pipeline 质量高但延迟大。RelayS2S 通过双路径并行架构——快路径 S2S 模型推测生成短前缀立即播放,慢路径 ASR→LLM 生成高质量续写——在 GPT-4o 后端实现 P90 延迟 81ms(级联基线 1091ms)同时保持 99% 响应质量,且无需修改现有组件即可集成。 核心内容 研究背景 实时语音对话是对话 AI 最具挑战性的场景之一:系统需以人…
