Qwen2.5 – Omni：全模态大模型开启交互新时代，通义Qwen2.5 – Omni：实现语音视频通话的全模态奇迹-灵通数据

Qwen2.5 – Omni：全模态大模型开启交互新时代，通义Qwen2.5 – Omni：实现语音视频通话的全模态奇迹

Nelson • 2025年3月27日 16:23 • 社会新闻 • 阅读 8

通义系列的Qwen2.5 – Omni全模态大模型，包括其能处理多种输入并合成输出文本与语音的功能，在权威测试中的表现，采用的创新技术架构，小尺寸带来的产业应用优势，以及免费商用的情况。

在人工智能技术不断发展的当下，Qwen2.5 – Omni横空出世，它是通义系列模型中首个端到端全模态大模型。这一独特的大模型具备卓越的能力，能够同时处理多种不同类型的输入，其中涵盖了文本、图像、音频和视频等。更为厉害的是，它可以实时合成输出文本与自然语音。这一强大功能，无疑为用户与模型之间的交互带来了全新的体验。

想象一下，用户如今能够和Qwen进行语音聊天以及视频通话，仿佛在与一个真实的人交流。对于这样的新奇体验，网友们表现出了强烈的欣喜之情，大家纷纷期待着它能在更多领域发挥作用。

事实上，Qwen2.5 – Omni的实力并非仅仅停留在表面。在一系列同等规模的单模态模型权威基准测试中，它在语音生成测评分数上达到了与人类持平的能力。这一数据结果为该模型在语音和视频通话方面的可行性提供了坚实的数据支撑，进一步证明了它在技术上的先进性和可靠性。

Qwen2.5 – Omni之所以拥有如此强大的功能，离不开其背后先进的技术。在具体技术方面，它采用了通义团队全新首创的Thinker – Talker双核架构、Position Embedding融合音视频技术、位置编码算法TMRoPE（Time – aligned Multimodal RoPE）。

其中，双核架构Thinker – Talker为Qwen2.5 – Omni赋予了类似人类的“大脑”和“发声器”。Thinker承担着处理和理解用户输入内容的重要任务，就像人类的大脑一样，对各种信息进行分析和解读。而Talker则负责输出相应的语音标记，如同人类的发声器，将思考的结果以语音的形式表达出来。通过两者的紧密配合，完成了端到端的统一模型架构，实现了实时语义理解与语音生成的协同，让模型的交互更加自然和流畅。