Coding One

  • java
  • php
  • python
  • 前端
  • 大数据
  • 操作系统
  • 树莓派
  • 其他
Coding One
如果每天只要敲敲代码,那这样一辈子也挺好。
  1. 首页
  2. AI 资讯
  3. 正文

双路径推测生成重塑实时语音对话:RelayS2S 实现 81ms 延迟与 99% 质量兼得

2026年3月26日 8点热度 0人点赞 0条评论

导语:arXiv 最新论文提出 RelayS2S 框架,解决实时语音对话系统中延迟与质量的根本矛盾。研究指出现有端到端语音模型响应快但语义弱,级联 pipeline 质量高但延迟大。RelayS2S 通过双路径并行架构——快路径 S2S 模型推测生成短前缀立即播放,慢路径 ASR→LLM 生成高质量续写——在 GPT-4o 后端实现 P90 延迟 81ms(级联基线 1091ms)同时保持 99% 响应质量,且无需修改现有组件即可集成。

核心内容

研究背景 实时语音对话是对话 AI 最具挑战性的场景之一:系统需以人类对话的速度和流畅度倾听、推理并响应。现有方法面临核心权衡:端到端全双工语音到语音(S2S)模型可几乎立即响应并原生支持插话、反馈等交互行为,但语义输出较弱;级联 pipeline(ASR→LLM)提供更强的响应质量,但延迟随模型规模增长,常超过人类感知的自然阈值 200ms。

研究团队 论文由爱尔兰都柏林三一学院和都柏林大学的研究者出品,第一作者 Long Mai。

核心设计理念 RelayS2S 的关键洞察基于一个实证观察:虽然 S2S 响应整体较弱,但其前几个词通常可用。对话中的响应开头往往可预测,常表现为简短的话语标记或公式化短语。分析显示仅 8.5% 的五词 S2S 前缀被判定为上下文不适当——这一比率足够低,使推测前缀策略可行。

双路径并行架构 系统在检测到用户话轮结束时并行启动两条路径:快路径使用双工 S2S 模型快速生成响应开头的简短草稿(通常 5 个词,约 2 秒语音),经轻量验证器检查后立即发送到流式 TTS 播放;慢路径将用户语音发送到 ASR 转录,再传递给文本 LLM 生成高质量续写,续写以前缀为条件生成无缝衔接的完整响应。

分叉推测生成 系统创新性地设计了分叉推测生成机制:响应启动后,S2S 模型分叉为主在线流和推测生成流。主流继续每 160ms 处理实时用户语音,保持检测插话的能力;推测流从相同解码器状态初始化但停止观察未来语音输入,以模型最大解码速度自由运行生成前缀。这一设计解耦了快速响应生成与实时交互监控。

选择性前缀移交 推测流生成前缀后,轻量验证器(约 17 万参数)决定提交前缀或回退到慢路径。验证器复用已计算的解码器隐藏状态和校准信号,仅增加约 10ms 开销,在 8% 回退率下实现 96% 好前缀通过率。验证器使用焦点损失训练,专注于难以判断的坏前缀决策。

流式 TTS 接力 流式 TTS 模块以块增量模式运行,一旦有最小文本块可用即开始合成,无需等待完整响应。5-7 词的前缀产生约 2-3 秒语音, comfortably 超过慢路径启动时间,确保无中断的连贯 utterance。这一"接力"机制是系统名称的由来。

训练数据构建 研究构建了完全合成数据集:从 VoiceAssistant、OpenMOSS 等来源收集文本对话,使用 CosyVoice2 转换为语音,并程序化注入双工现象(反馈、插话、停顿)。最终数据集包含 104,478 段对话共 2,133 小时音频,涵盖 50%-100% 的非重叠噪声混合。

实验设置 研究在约 3,000 个保留测试对话(6,401 个上下文 - 响应对)上评估,对比纯 S2S 模型和三种级联基线(Qwen2.5-0.5B、Qwen2.5-7B、GPT-4o 后端)。评估指标包括文本响应质量(Gemini-3 评分)和响应启动延迟(P90)。

延迟结果 RelayS2S 在所有配置下实现 P90 延迟 81ms,与纯 S2S 模型的 71ms 接近,验证器开销仅约 10ms。相比之下,级联基线延迟随模型规模显著增长:Qwen2.5-0.5B 为 420ms,Qwen2.5-7B 为 513ms,GPT-4o 高达 1,091ms。

质量结果 RelayS2S 保留了级联 pipeline 的几乎所有响应质量。使用 0.5B 后端时,RelayS2S 低质量率 51.4% 与级联基线 51.8% 相当;使用 7B 后端时,低质量率仅增加 1.0 个百分点(22.3% vs 21.3%);使用 GPT-4o 时,低质量率增加 1.9 个百分点(7.4% vs 5.5%),平均质量分数保持 99%(4.78 vs 4.83)。

话轮管理性能 快路径 S2S 模型的话轮控制 token 预测表现强劲:保持沉默 F1 达 99.8%,开始说话召回率 95.4%,停止说话 F1 达 96.7%,确认了鲁棒的插话处理能力。反馈预测较难(F1 50.8%),反映了何时适当反馈的固有主观性。

开源生态 研究团队已开源代码和数据(github.com/mailong25/relays2s),推动实时语音对话系统发展。

技术/行业洞察

这项研究反映了实时对话 AI 领域的一个关键趋势:从单一架构权衡向混合架构协同演进。传统方案要么选择低延迟低质量的端到端模型,要么选择高质量高延迟的级联 pipeline,RelayS2S 证明通过巧妙的架构设计可同时继承两者优势。

推测前缀策略的战略价值 在于利用对话的可预测性。响应开头通常是公式化的(如"当然,我可以帮你..."),S2S 模型生成这些开头的质量足够高,而后续内容需要更强的推理能力。通过让 S2S 负责"起跑"、LLM 负责"冲刺",系统实现了延迟与质量的解耦。

分叉生成的设计智慧 体现了对实时交互复杂性的理解。单纯加速前缀生成会牺牲插话检测能力——如果模型埋头生成前缀,无法及时响应用户打断。RelayS2S 通过分叉设计,让主流继续监听实时音频,推测流专注快速生成,两者协同确保既快又安全。

轻量验证器的必要性 值得强调。虽然仅 8.5% 的前缀不适当,但若不加以筛选直接播放,用户体验会显著下降。验证器仅增加 10ms 开销即可拦截 46% 的坏前缀(在 8% 回退率下),这一成本 - 收益比极具吸引力。

无需修改组件的集成优势 具有现实意义。RelayS2S 的前缀移交不需要修改 S2S 模型或 LLM 的内部架构,可作为现有级联 pipeline 的即插即用模块。这一设计降低了采用门槛,使已有系统可快速获得延迟优化。

与现有方案的对比 具有启示意义。DDTSR 仅生成 1-3 词的话语连接词,提供的时域缓冲较小;LTS-VoiceAgent 在纯文本 pipeline 内实现"边听边想",但缺乏语音级双工能力;KAME 需要将外部 LLM 响应作为"oracle"token 注入 S2S 模型,需联合训练。RelayS2S 提供"原生双工 + 实质前缀 + 即插即用"的完整方案。

规模效应的战略意义 值得注意。RelayS2S 的优势随慢路径模型规模增长而扩大——使用 GPT-4o 时延迟从 1,091ms 降至 81ms,而质量损失仅 1.9 个百分点。这意味着随着 LLM 能力增强,RelayS2S 的价值主张更强,为未来采用更大模型铺平道路。

从行业应用角度看,这项研究对智能客服平台、语音助手产品、呼叫中心系统、在线教育平台、 telehealth 远程医疗、车载语音交互等场景都有直接价值。例如,在智能客服中,RelayS2S 可实现接近真人的响应速度,同时保持专业准确的内容;在车载场景中,低延迟对于驾驶安全至关重要。

然而,该方法也面临挑战。首先,合成数据的真实性需验证——当前数据集完全合成,真实场景中的口音、噪声、重叠语音可能影响性能。其次,多语言支持需扩展——当前实验以英语为主,其他语言的对话模式可能不同。此外,边缘部署的优化需研究——在资源受限设备上,双路径并行可能增加计算负担。

应用场景

对智能客服平台:RelayS2S 可作为核心对话引擎。在电商、银行、电信等行业的客服场景中,系统可实现秒级响应,同时保持专业准确的内容。低延迟减少用户等待焦虑,高质量提升问题解决率,两者结合显著改善用户体验和满意度。

对语音助手产品:框架可赋能消费级语音助手。在智能家居、手机助手、智能音箱等场景中,RelayS2S 可使助手响应更自然流畅,减少"说完后停顿等待"的不自然感。原生双工能力支持用户随时打断、修正指令,交互更接近人与人对话。

对呼叫中心系统:方法可支持 IVR 自动语音应答升级。在传统 IVR 系统中,RelayS2S 可替代僵硬的菜单导航,实现自然语言对话式的客户服务。低延迟确保呼叫者无需长时间等待,高质量确保问题准确理解和解决,提升自助服务比例,降低人工成本。

对在线教育平台:系统可支持 AI 辅导老师。在语言学习、K12 辅导、职业培训等场景中,RelayS2S 可提供实时语音互动教学,学生可随时提问、打断,AI 老师即时响应并调整讲解节奏。自然流畅的对话体验提升学习 engagement 和效果。

对 telehealth 远程医疗:框架可支持初步问诊分诊。在远程医疗平台中,RelayS2S 可与患者进行自然语音对话,收集症状信息、提供初步建议、引导就医方向。低延迟减少患者焦虑,高质量确保信息准确收集,提升分诊效率和准确性。

对车载语音交互:RelayS2S 可赋能智能座舱语音系统。在驾驶场景中,驾驶员需快速获取信息(导航、音乐、电话),同时不能分心。RelayS2S 的即时响应减少驾驶员等待时间,双工能力支持随时打断修正指令,提升驾驶安全性和便利性。

对 AI 研究者:RelayS2S 提供了实时对话系统架构的参考设计。研究者可基于该框架探索新方向:如改进验证器准确率、优化前缀长度自适应、扩展多语言支持、探索更高效的 S2S 骨干模型等,推动实时对话 AI 领域进步。

延伸阅读

  • arXiv 论文:RelayS2S: Dual-Path Speculative Generation for Real-Time Dialogue
  • PDF 下载:arXiv:2603.23346.pdf
  • GitHub 仓库:mailong25/relays2s
  • Moshi 实时对话模型:Moshi 研究
  • 语音对话系统综述:语音对话系统研究

论文作者:Long Mai 等

研究机构:爱尔兰都柏林三一学院、都柏林大学

提交时间:2026 年 3 月 24 日

论文编号:arXiv:2603.23346 [cs.AI]

核心贡献:RelayS2S 框架、分叉推测生成、选择性前缀移交、双路径并行架构、流式 TTS 接力

方法特点:S2S 前缀推测 + 级联续写、160ms 语音 tick、17 万参数验证器、8% 回退率、无需修改组件

实验结果:GPT-4o 后端 P90 延迟 81ms vs 1091ms、质量保持 99%(4.78 vs 4.83)、低质量率 7.4% vs 5.5%

关键词:实时语音对话、双路径架构、推测生成、低延迟、语音到语音模型、级联 pipeline、流式 TTS、话轮管理

标签: 暂无
最后更新:2026年3月26日

JVS, Claw

这个人很懒,什么都没留下

点赞
< 上一篇

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

COPYRIGHT © 2022 Coding One. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

闽ICP备17024682号