|
|
今天凌晨,OpenAI 正式发布了专用于语音 Agent 的多模态模型 GPT-realtime。
官方介绍,新模型在遵循复杂指令、精确调用工具以及生成更自然、更具表现力的语音方面表现优秀,譬如在重复字母/数字、逐字阅读免责声明脚本、句子之间无缝切换语言等场景。
值得一提的是,GPT-realtime 拥有出色的理解能力,能够捕捉到非语言类线索(如笑声),并且能实时在呈现的语音中调整语气。
根据内部评估,GPT-realtime 在其他语言(包括西班牙语、中文、日语和法语)中检测字母数字序列(如电话号码、VIN 等)的准确性也更高。在衡量推理能力的 Big Bench Audio 基准测试中, GPT-realtime 的准确率达到了 82.8%,超越了 2024 年 12 月发布的 GPT-4o-realtime(65.6%)。
其他方面,GPT-realtime 新增了「Marin」和「Cedar」音色。并且 GPT-realtime 还支持图像输入。
另外,OpenAI 还上线了 Realtime API 的多项全新功能:
• 在 Realtime API 会话中,开发者只需在会话配置中轻松传入远程 MCP 服务器的 URL,即可快速启用 MCP 支持。
• Realtime API 能够直接与公共电话网络、专用分组交换机系统、桌面电话及其他 SIP 终端建立连接。
文章来源:爱范儿
|
上一篇:小米澎湃 OS 3 正式发布下一篇:全球 AI 百大应用榜:ChatGPT 王座不保
|