找回密码
 立即注册
查看: 79|回复: 0

OpenAI 发布语音 Agent 多模态模型

[复制链接]

94

主题

38

回帖

991

积分

管理员

贡献
30
积分
991

管理员

发表于 2025-8-29 11:08:37 | 显示全部楼层 |阅读模式

0c2dcacf-892c-4657-9449-e8ed8f0d6099.jpeg


今天凌晨,OpenAI 正式发布了专用于语音 Agent 的多模态模型 GPT-realtime。

官方介绍,新模型在遵循复杂指令、精确调用工具以及生成更自然、更具表现力的语音方面表现优秀,譬如在重复字母/数字、逐字阅读免责声明脚本、句子之间无缝切换语言等场景。

值得一提的是,GPT-realtime 拥有出色的理解能力,能够捕捉到非语言类线索(如笑声),并且能实时在呈现的语音中调整语气。

根据内部评估,GPT-realtime 在其他语言(包括西班牙语、中文、日语和法语)中检测字母数字序列(如电话号码、VIN 等)的准确性也更高。在衡量推理能力的 Big Bench Audio 基准测试中, GPT-realtime 的准确率达到了 82.8%,超越了 2024 年 12 月发布的 GPT-4o-realtime(65.6%)。

其他方面,GPT-realtime 新增了「Marin」和「Cedar」音色。并且 GPT-realtime 还支持图像输入。

另外,OpenAI 还上线了 Realtime API 的多项全新功能:

   •   在 Realtime API 会话中,开发者只需在会话配置中轻松传入远程 MCP 服务器的 URL,即可快速启用 MCP 支持。
   •   Realtime API 能够直接与公共电话网络、专用分组交换机系统、桌面电话及其他 SIP 终端建立连接。

文章来源:爱范儿







上一篇:小米澎湃 OS 3 正式发布
下一篇:全球 AI 百大应用榜:ChatGPT 王座不保
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站内所有文字仅代表作者个人言论,不代表本网站立场,如侵犯了您的权利请发帖投诉
快速回复 返回顶部 返回列表