OpenAI被曝正筹备发布新一代双向语音模型“GPT-Bidi-1”

据爆料，OpenAI即将发布全新的双向音频模型GPT-Bidi-1，这将为ChatGPT的语音模式带来革命性升级。传统单工对讲已成为过去，新模型采用双向架构，能够同时聆听和表达。当你插话打断时，系统会实时捕捉你的声音并动态调整语义，不再出现卡顿和等待，交互体验显著提升。实用建议：未来使用ChatGPT语音功能时，可以像和朋友聊天一样随意打断、补充或纠正，系统会智能适应你的节奏。

核心要点

1.OpenAI将发布GPT-Bidi-1双向音频模型
2.模型支持同时聆听和表达，实现双向对话
3.用户可随意打断，系统实时捕捉并调整语义
4.交互体验从单工对讲升级为类人对话

影响评估

正面

GPT-Bidi-1将彻底改变语音AI交互方式，提升自然对话流畅度

双向架构消除了传统语音助手的卡顿和等待，使ChatGPT语音模式更接近真实人际交流，可能推动语音交互在客服、教育等领域的广泛应用。

相关工具

OpenAI— 发布GPT-Bidi-1模型的公司ChatGPT— 集成该模型的产品GPT-Bidi-1— 新闻核心的新模型

OpenAI近日被曝光正在筹备推出名为“GPT-Bidi-1”的下一代双向音频模型，旨在对其ChatGPT的语音模式进行重大升级。作为该技术的核心突破，“GPT-Bidi-1”采用了双向（Bidirectional）架构，彻底改变了以往AI语音交互中“单工对讲”的局限。该模型支持系统同时进行聆听与表达，能够实时捕捉用户的插话与打断，并在不发生卡顿或死机的情况下动态调整语义输出，大幅提升了实时语音对话的自然度。

从目前的开发埋点来看，OpenAI已在Web端和移动端为该模型的上线铺设基础代码。在产品形态上，新功能上线后预计将与现有的高级语音模式（Advanced Voice Mode）并存，用户可自主切换至“Bidi(最新)”模式。此外，该模型在文本侧分级的基础上，首度在语音端引入了“高(High)、中(Medium)、即时(Instant)”三种智力与速度分级，允许用户根据具体任务在交互深度与响应速度之间做出权衡。

此次技术迭代不仅是单纯的音质或语调升级，更是OpenAI在多模态战略上的关键补齐。

此前，OpenAI的文本大模型已迭代至具有更强推理能力的GPT-5.5世代，而语音大模型则相对滞后，导致多模态体验出现断层。GPT-Bidi-1的推出不仅能够补齐这一推理能力差距，更彰显了OpenAI将语音视为下一代AI核心入口的战略野心，这也为其后续全面布局语音优先（Audio-first）的硬件设备及企业级语音支持工具奠定了关键的技术基石。

OpenAI被曝正筹备发布新一代双向语音模型“GPT-Bidi-1”

核心要点

影响评估

相关工具

相关新闻

智能眼镜成首批受益者！高通推出全新个人 AI 设备上市加速计划

Anthropic 紧急叫停 Claude Agent SDK 计费变更，重度用户暂续现有订阅限额

昆仑万维发布天工3.1:上线全新画布设计与多 Agent 并行工作流

大模型长文本迎来新突破，智谱AI正式开源旗舰模型GLM-5.2

苹果 Xcode 27 深度集成 AI 智能体，迎来“氛围编程”新时代

核心要点

影响评估

相关工具

相关新闻

智能眼镜成首批受益者！高通推出全新个人 AI 设备上市加速计划

Anthropic 紧急叫停 Claude Agent SDK 计费变更，重度用户暂续现有订阅限额

昆仑万维发布天工3.1:上线全新画布设计与多 Agent 并行工作流

大模型长文本迎来新突破，智谱AI正式开源旗舰模型GLM-5.2

​苹果 Xcode 27 深度集成 AI 智能体，迎来“氛围编程”新时代

苹果 Xcode 27 深度集成 AI 智能体，迎来“氛围编程”新时代