双路径推测生成重塑实时语音对话：RelayS2S 实现 81ms 延迟与 99% 质量兼得

2026年3月26日 8点热度 0人点赞 0条评论

导语：arXiv 最新论文提出 RelayS2S 框架，解决实时语音对话系统中延迟与质量的根本矛盾。研究指出现有端到端语音模型响应快但语义弱，级联 pipeline 质量高但延迟大。RelayS2S 通过双路径并行架构——快路径 S2S 模型推测生成短前缀立即播放，慢路径 ASR→LLM 生成高质量续写——在 GPT-4o 后端实现 P90 延迟 81ms（级联基线 1091ms）同时保持 99% 响应质量，且无需修改现有组件即可集成。

核心内容

研究背景 实时语音对话是对话 AI 最具挑战性的场景之一：系统需以人类对话的速度和流畅度倾听、推理并响应。现有方法面临核心权衡：端到端全双工语音到语音（S2S）模型可几乎立即响应并原生支持插话、反馈等交互行为，但语义输出较弱；级联 pipeline（ASR→LLM）提供更强的响应质量，但延迟随模型规模增长，常超过人类感知的自然阈值 200ms。

研究团队 论文由爱尔兰都柏林三一学院和都柏林大学的研究者出品，第一作者 Long Mai。

核心设计理念 RelayS2S 的关键洞察基于一个实证观察：虽然 S2S 响应整体较弱，但其前几个词通常可用。对话中的响应开头往往可预测，常表现为简短的话语标记或公式化短语。分析显示仅 8.5% 的五词 S2S 前缀被判定为上下文不适当——这一比率足够低，使推测前缀策略可行。

双路径并行架构 系统在检测到用户话轮结束时并行启动两条路径：快路径使用双工 S2S 模型快速生成响应开头的简短草稿（通常 5 个词，约 2 秒语音），经轻量验证器检查后立即发送到流式 TTS 播放；慢路径将用户语音发送到 ASR 转录，再传递给文本 LLM 生成高质量续写，续写以前缀为条件生成无缝衔接的完整响应。

分叉推测生成 系统创新性地设计了分叉推测生成机制：响应启动后，S2S 模型分叉为主在线流和推测生成流。主流继续每 160ms 处理实时用户语音，保持检测插话的能力；推测流从相同解码器状态初始化但停止观察未来语音输入，以模型最大解码速度自由运行生成前缀。这一设计解耦了快速响应生成与实时交互监控。

选择性前缀移交 推测流生成前缀后，轻量验证器（约 17 万参数）决定提交前缀或回退到慢路径。验证器复用已计算的解码器隐藏状态和校准信号，仅增加约 10ms 开销，在 8% 回退率下实现 96% 好前缀通过率。验证器使用焦点损失训练，专注于难以判断的坏前缀决策。

流式 TTS 接力 流式 TTS 模块以块增量模式运行，一旦有最小文本块可用即开始合成，无需等待完整响应。5-7 词的前缀产生约 2-3 秒语音， comfortably 超过慢路径启动时间，确保无中断的连贯 utterance。这一"接力"机制是系统名称的由来。

训练数据构建 研究构建了完全合成数据集：从 VoiceAssistant、OpenMOSS 等来源收集文本对话，使用 CosyVoice2 转换为语音，并程序化注入双工现象（反馈、插话、停顿）。最终数据集包含 104,478 段对话共 2,133 小时音频，涵盖 50%-100% 的非重叠噪声混合。

实验设置 研究在约 3,000 个保留测试对话（6,401 个上下文 - 响应对）上评估，对比纯 S2S 模型和三种级联基线（Qwen2.5-0.5B、Qwen2.5-7B、GPT-4o 后端）。评估指标包括文本响应质量（Gemini-3 评分）和响应启动延迟（P90）。

延迟结果 RelayS2S 在所有配置下实现 P90 延迟 81ms，与纯 S2S 模型的 71ms 接近，验证器开销仅约 10ms。相比之下，级联基线延迟随模型规模显著增长：Qwen2.5-0.5B 为 420ms，Qwen2.5-7B 为 513ms，GPT-4o 高达 1,091ms。

质量结果 RelayS2S 保留了级联 pipeline 的几乎所有响应质量。使用 0.5B 后端时，RelayS2S 低质量率 51.4% 与级联基线 51.8% 相当；使用 7B 后端时，低质量率仅增加 1.0 个百分点（22.3% vs 21.3%）；使用 GPT-4o 时，低质量率增加 1.9 个百分点（7.4% vs 5.5%），平均质量分数保持 99%（4.78 vs 4.83）。

话轮管理性能 快路径 S2S 模型的话轮控制 token 预测表现强劲：保持沉默 F1 达 99.8%，开始说话召回率 95.4%，停止说话 F1 达 96.7%，确认了鲁棒的插话处理能力。反馈预测较难（F1 50.8%），反映了何时适当反馈的固有主观性。

开源生态 研究团队已开源代码和数据（github.com/mailong25/relays2s），推动实时语音对话系统发展。

技术/行业洞察

这项研究反映了实时对话 AI 领域的一个关键趋势：从单一架构权衡向混合架构协同演进。传统方案要么选择低延迟低质量的端到端模型，要么选择高质量高延迟的级联 pipeline，RelayS2S 证明通过巧妙的架构设计可同时继承两者优势。

推测前缀策略的战略价值 在于利用对话的可预测性。响应开头通常是公式化的（如"当然，我可以帮你..."），S2S 模型生成这些开头的质量足够高，而后续内容需要更强的推理能力。通过让 S2S 负责"起跑"、LLM 负责"冲刺"，系统实现了延迟与质量的解耦。

分叉生成的设计智慧 体现了对实时交互复杂性的理解。单纯加速前缀生成会牺牲插话检测能力——如果模型埋头生成前缀，无法及时响应用户打断。RelayS2S 通过分叉设计，让主流继续监听实时音频，推测流专注快速生成，两者协同确保既快又安全。

轻量验证器的必要性 值得强调。虽然仅 8.5% 的前缀不适当，但若不加以筛选直接播放，用户体验会显著下降。验证器仅增加 10ms 开销即可拦截 46% 的坏前缀（在 8% 回退率下），这一成本 - 收益比极具吸引力。

无需修改组件的集成优势 具有现实意义。RelayS2S 的前缀移交不需要修改 S2S 模型或 LLM 的内部架构，可作为现有级联 pipeline 的即插即用模块。这一设计降低了采用门槛，使已有系统可快速获得延迟优化。

与现有方案的对比 具有启示意义。DDTSR 仅生成 1-3 词的话语连接词，提供的时域缓冲较小；LTS-VoiceAgent 在纯文本 pipeline 内实现"边听边想"，但缺乏语音级双工能力；KAME 需要将外部 LLM 响应作为"oracle"token 注入 S2S 模型，需联合训练。RelayS2S 提供"原生双工 + 实质前缀 + 即插即用"的完整方案。

规模效应的战略意义 值得注意。RelayS2S 的优势随慢路径模型规模增长而扩大——使用 GPT-4o 时延迟从 1,091ms 降至 81ms，而质量损失仅 1.9 个百分点。这意味着随着 LLM 能力增强，RelayS2S 的价值主张更强，为未来采用更大模型铺平道路。

从行业应用角度看，这项研究对智能客服平台、语音助手产品、呼叫中心系统、在线教育平台、 telehealth 远程医疗、车载语音交互等场景都有直接价值。例如，在智能客服中，RelayS2S 可实现接近真人的响应速度，同时保持专业准确的内容；在车载场景中，低延迟对于驾驶安全至关重要。

然而，该方法也面临挑战。首先，合成数据的真实性需验证——当前数据集完全合成，真实场景中的口音、噪声、重叠语音可能影响性能。其次，多语言支持需扩展——当前实验以英语为主，其他语言的对话模式可能不同。此外，边缘部署的优化需研究——在资源受限设备上，双路径并行可能增加计算负担。

应用场景

对智能客服平台：RelayS2S 可作为核心对话引擎。在电商、银行、电信等行业的客服场景中，系统可实现秒级响应，同时保持专业准确的内容。低延迟减少用户等待焦虑，高质量提升问题解决率，两者结合显著改善用户体验和满意度。

对语音助手产品：框架可赋能消费级语音助手。在智能家居、手机助手、智能音箱等场景中，RelayS2S 可使助手响应更自然流畅，减少"说完后停顿等待"的不自然感。原生双工能力支持用户随时打断、修正指令，交互更接近人与人对话。

对呼叫中心系统：方法可支持 IVR 自动语音应答升级。在传统 IVR 系统中，RelayS2S 可替代僵硬的菜单导航，实现自然语言对话式的客户服务。低延迟确保呼叫者无需长时间等待，高质量确保问题准确理解和解决，提升自助服务比例，降低人工成本。

对在线教育平台：系统可支持 AI 辅导老师。在语言学习、K12 辅导、职业培训等场景中，RelayS2S 可提供实时语音互动教学，学生可随时提问、打断，AI 老师即时响应并调整讲解节奏。自然流畅的对话体验提升学习 engagement 和效果。

对 telehealth 远程医疗：框架可支持初步问诊分诊。在远程医疗平台中，RelayS2S 可与患者进行自然语音对话，收集症状信息、提供初步建议、引导就医方向。低延迟减少患者焦虑，高质量确保信息准确收集，提升分诊效率和准确性。

对车载语音交互：RelayS2S 可赋能智能座舱语音系统。在驾驶场景中，驾驶员需快速获取信息（导航、音乐、电话），同时不能分心。RelayS2S 的即时响应减少驾驶员等待时间，双工能力支持随时打断修正指令，提升驾驶安全性和便利性。

对 AI 研究者：RelayS2S 提供了实时对话系统架构的参考设计。研究者可基于该框架探索新方向：如改进验证器准确率、优化前缀长度自适应、扩展多语言支持、探索更高效的 S2S 骨干模型等，推动实时对话 AI 领域进步。

双路径推测生成重塑实时语音对话：RelayS2S 实现 81ms 延迟与 99% 质量兼得

核心内容

技术/行业洞察

应用场景

延伸阅读

文章评论