OpenAI 新语音模型,更逼真可控且准确,OpenAI 新转录与语音生成模型:开启语音交互新时代

OpenAI 为其 API 引入新的转录和语音生成 AI 模型,介绍了这些新模型在语音合成和语音转文本方面的特点、优势,以及与旧模型的对比,还提到了新模型不打算公开的原因。

OpenAI 正为其 API 引入全新的转录和语音生成 AI 模型。该公司宣称,相较于以往版本,这些新模型有了显著改进。对于 OpenAI 而言,这些模型契合其更广泛的“代理”愿景。所谓“代理”,指的是构建能够代表用户独立完成任务的自动化系统。尽管“代理”的定义或许存在争议,但 OpenAI 产品负责人 Olivier Godemont 给出了一种解释,即可以与企业客户进行交流的聊天机器人。

OpenAI 声称,其新推出的文本转语音模型“gpt – 4o – mini – tts”优势明显。它不仅能够提供更加细致入微、听起来极为逼真的语音,而且相比上一代语音合成模型,具备更强的“可控性”。开发人员可以运用自然语言来指导 gpt – 4o – mini – tts 的说话方式,比如“像疯狂的科学家一样说话”或者“像正念老师一样用平静的声音说话”。

下面为大家呈现“真实犯罪风格”的饱经风霜的声音示例,以及女性“专业”声音的样本。

OpenAI 产品人员杰夫·哈里斯 (Jeff Haris) 表示,他们的目标是让开发人员能够对语音的“体验”和“语境”进行定制。

哈里斯进一步解释道:“在不同的场景下,我们不希望听到平淡、单调的声音。例如,在客户支持场景中,如果希望语音因为犯了一个错误而道歉,那么实际上可以让语音带有这种情感。我们坚信,开发人员和用户不仅希望能够真正控制所说的内容,还希望能够控制说话的方式。”

至于 OpenAI 的新语音转文本模型“gpt – 4o – transcribe”和“gpt – 4o – mini – transcribe”,它们实际上取代了该公司久经考验的 Whisper 转录模型。OpenAI 称,新模型经过“多样化、高质量的音频数据集”训练,即便在嘈杂混乱的环境中,也能更好地捕捉带有口音和变化的语音。

哈里斯补充说,新模型不太容易产生幻觉。大家都知道,Whisper 模型倾向于在谈话中捏造词语,甚至是整段话,从种族评论到想象中的医疗治疗等内容都可能出现。

哈里斯指出:“这些模型在这方面比 Whisper 有了很大的改进。确保模型准确对于获得可靠的语音体验至关重要,这里的准确意味着模型能够准确地听到单词,并且不会填充它们没有听到的细节。”

根据 OpenAI 的内部基准测试,gpt – 4o – transcribe 是两种转录模型中更准确的一种。对于泰米尔语、泰卢固语、马拉雅拉姆语和卡纳达语等印度语和德拉威语,其“单词错误率”接近 30%。这意味着该模型在这些语言中每 10 个单词中大约会漏掉 3 个。

OpenAI 新语音模型,更逼真可控且准确,OpenAI 新转录与语音生成模型:开启语音交互新时代

这是 OpenAI 内部语音识别基准的结果,图片来源:OpenAI。

与以往不同的是,OpenAI 并不打算公开其新的转录模型。该公司过去曾根据 MIT 许可发布过 Whisper 的新版本,供商业使用。

哈里斯表示,gpt – 4o – transcribe 和 gpt – 4o – mini – transcribe“比 Whisper 大得多”,因此不适合公开发布。

他接着说:“它们不像 Whisper 那样可以在笔记本电脑上本地运行。我们希望确保,如果要以开源形式发布产品,我们会经过深思熟虑,并且打造一个真正针对特定需求的模型。我们认为,终端用户设备是开源模型最有趣的应用场景之一。”

OpenAI 新引入的转录和语音生成 AI 模型,包括文本转语音模型“gpt – 4o – mini – tts”和语音转文本模型“gpt – 4o – transcribe”“gpt – 4o – mini – transcribe”。新模型在语音效果、可控性、准确性等方面有明显改进,且不太容易产生幻觉,但新转录模型因规模大不适合公开。这些新模型体现了 OpenAI 在语音技术领域的持续探索和创新。

原创文章,作者:melissa,如若转载,请注明出处:https://www.lingtongdata.com/1915.html

(0)
melissamelissa
上一篇 2025年3月21日
下一篇 2025年3月21日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注