精选新闻
2026-06-18
3
OpenAI被曝正筹备发布新一代双向语音模型“GPT-Bidi-1”

据爆料,OpenAI即将发布全新的双向音频模型GPT-Bidi-1,这将为ChatGPT的语音模式带来革命性升级。传统单工对讲已成为过去,新模型采用双向架构,能够同时聆听和表达。当你插话打断时,系统会实时捕捉你的声音并动态调整语义,不再出现卡顿和等待,交互体验显著提升。实用建议:未来使用ChatGPT语音功能时,可以像和朋友聊天一样随意打断、补充或纠正,系统会智能适应你的节奏。
核心要点
- 1.OpenAI将发布GPT-Bidi-1双向音频模型
- 2.模型支持同时聆听和表达,实现双向对话
- 3.用户可随意打断,系统实时捕捉并调整语义
- 4.交互体验从单工对讲升级为类人对话
影响评估
正面
GPT-Bidi-1将彻底改变语音AI交互方式,提升自然对话流畅度
双向架构消除了传统语音助手的卡顿和等待,使ChatGPT语音模式更接近真实人际交流,可能推动语音交互在客服、教育等领域的广泛应用。
相关工具
OpenAI— 发布GPT-Bidi-1模型的公司ChatGPT— 集成该模型的产品GPT-Bidi-1— 新闻核心的新模型
OpenAI近日被曝光正在筹备推出名为“GPT-Bidi-1”的下一代双向音频模型,旨在对其ChatGPT的语音模式进行重大升级。作为该技术的核心突破,“GPT-Bidi-1”采用了双向(Bidirectional)架构,彻底改变了以往AI语音交互中“单工对讲”的局限。该模型支持系统同时进行聆听与表达,能够实时捕捉用户的插话与打断,并在不发生卡顿或死机的情况下动态调整语义输出,大幅提升了实时语音对话的自然度。

从目前的开发埋点来看,OpenAI已在Web端和移动端为该模型的上线铺设基础代码。在产品形态上,新功能上线后预计将与现有的高级语音模式(Advanced Voice Mode)并存,用户可自主切换至“Bidi(最新)”模式。此外,该模型在文本侧分级的基础上,首度在语音端引入了“高(High)、中(Medium)、即时(Instant)”三种智力与速度分级,允许用户根据具体任务在交互深度与响应速度之间做出权衡。

此次技术迭代不仅是单纯的音质或语调升级,更是OpenAI在多模态战略上的关键补齐。
此前,OpenAI的文本大模型已迭代至具有更强推理能力的GPT-5.5世代,而语音大模型则相对滞后,导致多模态体验出现断层。GPT-Bidi-1的推出不仅能够补齐这一推理能力差距,更彰显了OpenAI将语音视为下一代AI核心入口的战略野心,这也为其后续全面布局语音优先(Audio-first)的硬件设备及企业级语音支持工具奠定了关键的技术基石。