订阅 AI123 精选资讯,每周获取最新动态

立即订阅
返回新闻列表
精选新闻
2026-06-18
3

OpenAI被曝正筹备发布新一代双向语音模型“GPT-Bidi-1”

OpenAI被曝正筹备发布新一代双向语音模型“GPT-Bidi-1”
据爆料,OpenAI即将发布全新的双向音频模型GPT-Bidi-1,这将为ChatGPT的语音模式带来革命性升级。传统单工对讲已成为过去,新模型采用双向架构,能够同时聆听和表达。当你插话打断时,系统会实时捕捉你的声音并动态调整语义,不再出现卡顿和等待,交互体验显著提升。实用建议:未来使用ChatGPT语音功能时,可以像和朋友聊天一样随意打断、补充或纠正,系统会智能适应你的节奏。

核心要点

  • 1.OpenAI将发布GPT-Bidi-1双向音频模型
  • 2.模型支持同时聆听和表达,实现双向对话
  • 3.用户可随意打断,系统实时捕捉并调整语义
  • 4.交互体验从单工对讲升级为类人对话

影响评估

正面

GPT-Bidi-1将彻底改变语音AI交互方式,提升自然对话流畅度

双向架构消除了传统语音助手的卡顿和等待,使ChatGPT语音模式更接近真实人际交流,可能推动语音交互在客服、教育等领域的广泛应用。

相关工具

OpenAI发布GPT-Bidi-1模型的公司ChatGPT集成该模型的产品GPT-Bidi-1新闻核心的新模型

 OpenAI近日被曝光正在筹备推出名为“GPT-Bidi-1”的下一代双向音频模型,旨在对其ChatGPT的语音模式进行重大升级。作为该技术的核心突破,“GPT-Bidi-1”采用了双向(Bidirectional)架构,彻底改变了以往AI语音交互中“单工对讲”的局限。该模型支持系统同时进行聆听与表达,能够实时捕捉用户的插话与打断,并在不发生卡顿或死机的情况下动态调整语义输出,大幅提升了实时语音对话的自然度。

QQ20260617-153315.jpg

从目前的开发埋点来看,OpenAI已在Web端和移动端为该模型的上线铺设基础代码。在产品形态上,新功能上线后预计将与现有的高级语音模式(Advanced Voice Mode)并存,用户可自主切换至“Bidi(最新)”模式。此外,该模型在文本侧分级的基础上,首度在语音端引入了“高(High)、中(Medium)、即时(Instant)”三种智力与速度分级,允许用户根据具体任务在交互深度与响应速度之间做出权衡。

QQ20260617-153446.jpg

此次技术迭代不仅是单纯的音质或语调升级,更是OpenAI在多模态战略上的关键补齐。

此前,OpenAI的文本大模型已迭代至具有更强推理能力的GPT-5.5世代,而语音大模型则相对滞后,导致多模态体验出现断层。GPT-Bidi-1的推出不仅能够补齐这一推理能力差距,更彰显了OpenAI将语音视为下一代AI核心入口的战略野心,这也为其后续全面布局语音优先(Audio-first)的硬件设备及企业级语音支持工具奠定了关键的技术基石。