OpenAI 发布语音 Agent 多模态模型

boonkiong · 发表于 2025-8-29 11:08:37

今天凌晨，OpenAI 正式发布了专用于语音 Agent 的多模态模型 GPT-realtime。

官方介绍，新模型在遵循复杂指令、精确调用工具以及生成更自然、更具表现力的语音方面表现优秀，譬如在重复字母/数字、逐字阅读免责声明脚本、句子之间无缝切换语言等场景。

值得一提的是，GPT-realtime 拥有出色的理解能力，能够捕捉到非语言类线索（如笑声），并且能实时在呈现的语音中调整语气。

根据内部评估，GPT-realtime 在其他语言（包括西班牙语、中文、日语和法语）中检测字母数字序列（如电话号码、VIN 等）的准确性也更高。在衡量推理能力的 Big Bench Audio 基准测试中， GPT-realtime 的准确率达到了 82.8%，超越了 2024 年 12 月发布的 GPT-4o-realtime（65.6%）。

其他方面，GPT-realtime 新增了「Marin」和「Cedar」音色。并且 GPT-realtime 还支持图像输入。

另外，OpenAI 还上线了 Realtime API 的多项全新功能：

• 在 Realtime API 会话中，开发者只需在会话配置中轻松传入远程 MCP 服务器的 URL，即可快速启用 MCP 支持。
• Realtime API 能够直接与公共电话网络、专用分组交换机系统、桌面电话及其他 SIP 终端建立连接。

文章来源：爱范儿

		自动登录	找回密码
密码			立即注册