首页 > 快讯 > 震撼揭幕Qwen3.5-Omni：215项顶级成就引领全感官AI新时代

震撼揭幕Qwen3.5-Omni：215项顶级成就引领全感官AI新时代

发布时间：2026-03-31 09:29:47 | 责任编辑：吴昊 | 浏览量：38 次

通义实验室昨晚正式发布全新多模态大模型 Qwen3.5-Omni。相比前代，该模型在理解力、交互感与任务执行力上实现了跨越式进化，标志着 AI 正在从“屏幕内的助手”真正走向“理解物理世界的智能体”。
Qwen3.5-Omni 采用原生的 “全模态”架构，能够无缝处理文本、图像、音频及视频输入。在涵盖音视频分析、推理、对话及翻译的测试中，该模型斩获了 215项 SOTA（业界最佳）战绩。特别是在通用音频理解与识别领域，其表现已全面超越 Gemini-3.1Pro，而视觉与文本能力则保持了与同尺寸 Qwen3.5模型持平的顶尖水准。
模型延续了经典的 Thinker-Talker 分工模式，并进行了底层重构:
Thinker（理解中枢）: 升级为 Hybrid-Attention MoE，支持 256K 超长上下文。这使其能处理长达 10小时的音频或 1小时的视频，并利用 TMRoPE 技术精准抓取长时序中的细粒度信息。
Talker（表达中枢）: 引入全新的 ARIA 技术与 RVQ 编码，替代了沉重的 DiT 运算。这不仅解决了语音输出中常见的漏字、数字误读问题，还赋予了模型强大的实时语音控制能力。
Qwen3.5-Omni 的进化直接转化为了多个突破性的应用场景:
自然涌现的 Vibe Coding: 模型在未经过专门训练的情况下，展现出了惊人的代码理解与生成能力，能根据视频画面逻辑直接生成 Python 代码或前端原型。
拟人化实时交互: 支持语义打断。它能分辨咳嗽等杂音与真正插话的区别，并允许用户通过指令调节语气（如“开心的”）与音量。
细粒度视频拆解: 可生成带时间戳的结构化 Caption，精准识别视频中的人物动作、背景音乐变化及镜头切换。
个性化音色克隆: 用户仅需上传一段录音，即可定制具备高自然度、支持113种语言的专属“数字分身”。
目前，Qwen3.5-Omni 已在阿里云百炼平台上线，提供 Plus、Flash、Light 三种尺寸，并同步开放了实时对话（Realtime）API 及魔搭社区 Demo。

这是一篇关于Qwen3.5-Omni 震撼发布:215项 SOTA 开启全感官 AI 时代的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：月之暗面得益于K2.5发布，营收迅速迈过亿级门槛，消费者争相以千万资金抢购计算能力

下一篇：曝光的小米自主开发输入法：配备大型模型，提供系统级AI自动修正功能

震撼揭幕Qwen3.5-Omni：215项顶级成就引领全感官AI新时代

最新Ai信息

最新Ai工具

热门AI推荐