首页 > 快讯 > AI新闻更新：智谱发布开源视觉推理模型GLM-4.5V；达摩院公开三大具身智能核心技术；360智脑发布全新Light-IF系列模型

AI新闻更新：智谱发布开源视觉推理模型GLM-4.5V；达摩院公开三大具身智能核心技术；360智脑发布全新Light-IF系列模型

发布时间：2025-08-12 17:41:06 | 责任编辑：张毅 | 浏览量：131 次

新鲜AI产品点击了解:
https://www.aibase.cn/
1、智谱GLM-4.5V开源发布:全球100B级最佳视觉推理模型
智谱宣布推出并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V，这是该公司在通向通用人工智能（AGI）道路上的又一重要探索性成果。
【AiBase提要:】
🤖 GLM-4.5V总参数达到106B，在41个视觉多模态榜单中达到SOTA性能
🎯 具备全场景视觉推理能力，包括图像推理、视频理解、GUI任务等
💡 新增"思考模式"开关，平衡效率与效果
💰 API价格低至输入2元/M tokens，输出6元/M tokens
2、阿里达摩院开源三项具身智能核心技术
在世界机器人大会上，阿里达摩院宣布开源三项自研核心技术:VLA模型RynnVLA-001-7B、世界理解模型RynnEC以及机器人上下文协议RynnRCP。这一举措旨在推动数据、模型与机器人本体的兼容适配，打通具身智能开发的完整流程。
【AiBase提要:】
🚀 开源三项核心技术:VLA模型、世界理解模型、机器人上下文协议
🔗 RynnRCP实现从传感器数据到机器人动作执行的完整工作流程
👁️ RynnVLA-001从第一人称视角视频学习人类操作技能
🌍 RynnEC从11个维度全面解析场景物体，无需依赖3D模型
详情链接:https://github.com/alibaba-damo-academy/RynnRCP
3、苹果即将升级 Apple Intelligence 至 GPT-5，推动 Siri 与写作工具智能化
苹果公司近日宣布，计划在即将发布的 iOS26、iPadOS26和 macOS Tahoe26系统更新中，将其 Apple Intelligence 中的 ChatGPT 核心模型升级至最新的 GPT-5版本。
【AiBase提要:】
🚀苹果将在 iOS26等系统更新中将 ChatGPT 模型升级至 GPT-5，以提升 Siri、写作工具和视觉智能的性能。
🚀新版本将引入多语言实时翻译及屏幕内容分析功能，增强设备在跨语言交流和信息处理方面的能力。
🚀苹果还首次向开发者开放设备端 API，支持第三方应用接入，提供低延迟和高隐私的 AI 体验。
4、高德全面接入通义大模型推出首个地图AI原生Agent
阿里巴巴集团高德地图联合通义实验室发布全球首个 AI 原生地图，推出“小高老师”智能体，实现全链路语音交互与复杂任务推理导航。
【AiBase提要:】
🎙️ 内置智能体“小高老师”，支持音频/文本等多模态交互，支持随时打断的全双工语音。
🧠 基于36万亿 token 预训练的 Qwen 大模型，实现空间语义深度理解与高效调度近百种内部工具。
🗂️ 联合推出复杂 POI 推理 Agent，可拆解多重约束并整合实时信息，提供精准推荐与导航。
🔍 依托自研 DeepResearch 框架，具备规划、反思、工具调用等完整 Agent 能力。
5、宇树科技将出征首届世界人形机器人运动会，硬件将被多队采用
宇树科技将于8月14日至17日参加首届世界人形机器人运动会。宇树透露，除其自有团队外，赛场上还将有多支队伍使用宇树机器人硬件参赛，但会搭配各自自研的算法。
【AiBase提要:】
🤖 除宇树自有团队外，赛场上还将有多个队伍使用宇树的机器人硬件参赛，但会搭配各自研发的算法。
🏟️ 此次运动会汇聚了天工、加速进化、松延动力、傅利叶、星海图等国内头部人形机器人企业，以及来自美国、德国、澳大利亚、巴西、日本等16个国家的共计280支队伍。
🔧 宇树科技的参与不仅展示了其在人形机器人硬件方面的实力，也体现了其设备在开放生态中的广泛应用和竞争力。
6、Claude AI 推出历史对话记忆功能，支持多背景切换
Anthropic 为 Claude AI 上线“记忆功能”，可自动记忆并复用用户历史对话中的背景信息，实现跨会话无缝衔接，并支持多背景隔离切换，目前仅向付费用户开放。
【AiBase提要:】
🔄 支持为不同项目设定独立背景，工作/生活场景一键切换，保持上下文延续。
💰 先行面向 Claude Max、Team、Enterprise 付费用户，Pro 版后续跟进，免费用户暂未开放。
⚙️ 用户可在“设置—搜索和参考聊天”中手动启用或查看记忆内容。
🤖 与 ChatGPT 手动预设不同，Claude 采用自动提取机制，体验更“无感”但可控性稍弱。
7、360智脑推出Light-IF系列模型显著提升复杂指令遵循能力
360智脑发布Light-IF系列模型，以“预览-自检式推理+信息熵控制”框架专治“懒惰推理”，在四大基准全面领先，小参数即可越级打大模型，并全部开源。
【AiBase提要:】
🎯 创新Light-IF框架:难度感知指令生成→Zero-RL强化→推理模式过滤→熵保持冷启动→熵自适应正则，显著抑制“只会复述不检查”的懒惰推理。
📈 权威评测霸榜:Light-IF-32B在SuperCLUE拿下0.575，领先第二名13.9个百分点;Light-IF-1.7B小模型反超Qwen3-235B-A22B等超大模型。
🔓 全面开源:模型权重将陆续上线Hugging Face，冷启动数据集与训练代码同步发布GitHub，并联合SuperCLUE推出中文评测基准SuperCLUE-CPIFOpen。
8、字节跳动推出视频字幕无痕擦除方案基于DiT大模型打造
字节跳动发布全球首个基于DiT大模型的“视频字幕无痕擦除”方案，实现像素级修复、多语言适配、一键“擦除-翻译-口型同步”，助力短剧出海与跨境电商全球化。
【AiBase提要:】
🎞️ 两大核心:DiT视频字幕擦除大模型+字体级分割模型，像素级精准修复，告别马赛克/模糊/闪烁。
🌐 多语言支持:突破中英限制，覆盖小语种，形成“擦除-翻译-口型同步”一站式闭环。
⚙️ 工程落地:万集数据验证，成功率100%;分布式分镜计算，效率提升数倍。
详情地址：https://console.volcengine.com/vod/
9、昆仑万维发布开源世界模型Matrix-Game2.0:实时生成分钟级高连贯视频
昆仑万维发布全球首个开源交互式世界模型 Matrix-Game2.0，实时生成分钟级25fps 高连贯视频，支持无语言提示的纯视觉驱动交互，已在 GTA、Minecraft 等场景落地。
【AiBase提要】
🚀 开源首发:业内首个通用场景实时长序列开源世界模型，持续迭代全面开放。
📹 分钟级生成:25fps 连续视频，物理规律与场景语义理解大幅提升，可直接用于游戏/影视/VR。
🎮 视觉驱动交互:摒弃语言提示，3D 因果 VAE + 多模态扩散 Transformer 逐帧响应用户动作，跨域适应多风格场景。
10、昆仑万维开源 Matrix-3D 大模型:用单张图像可生成高质量全景视频
昆仑万维开源 Matrix-3D:单图即可生成360° 可漫游3D 全景视频，轨迹一致、几何精准，全面开放代码与数据集。
【AiBase提要】
🌐 单图生成3D 世界:打破多视角依赖，直接由单张图像产出高质量全景视频与可探索3D 场景。
🎥 轨迹引导一致性:用 Mesh 渲染图驱动扩散模型，保证相机轨迹下的时空一致，减少伪影与遮挡。
⚙️ 双路径重建:超分+结构优化慢工出细活;Transformer 前馈网络极速推理，兼顾质量与效率
详情：https://github.com/SkyworkAI/Matrix-3D

以下是为您整理的今日AI领域重要进展：

🌟 智谱开源全球首个100B级视觉推理模型 GLM-4.5V

模型规模：总参数量达 1060亿，激活参数 120亿，是目前全球参数规模最大的开源视觉推理模型之一。
多模态能力：支持图像、视频、文本、文件等多种输入，具备图像推理、视频理解、GUI任务、复杂图表解析和精准视觉定位等全场景能力。
技术创新：采用三维旋转位置编码（3D-RoPE）和双三次插值机制，显著提升对高分辨率及极端宽高比图像的处理能力。
开源与体验：模型已在 Hugging Face、魔搭社区、GitHub 开源，并同步上线智谱开放平台，提供 2000万Tokens免费资源包。

🤖 阿里达摩院开源三项具身智能核心技术

开源内容：
1. RynnVLA-001-7B：视觉-语言-动作模型，通过视频学习人类操作技能，提升机械臂动作连贯性。
2. RynnEC：世界理解模型，仅凭视频即可构建空间感知，实现精准目标物体定位与分割。
3. RynnRCP：机器人上下文协议，首次引入MCP理念，打通数据采集到动作执行的全流程。
产业意义：推动机器人开发全流程标准化，降低策略迁移技术门槛，加速具身智能产业化落地。

🚀 360智脑推出Light-IF系列模型

技术亮点：提出 预览-自检式推理 和 信息熵控制 框架，显著增强大模型在复杂指令遵循方面的能力。
模型表现：
- Light-IF-32B 在SuperCLUE基准得分达 0.575，领先第二名 13.9个百分点。
- Light-IF-1.7B 在多个基准测试中表现超越体量更大的模型（如Qwen3-235B-A22B）。
开源计划：全系模型与训练数据集将陆续在 Hugging Face 和 GitHub 开源，并联合推出中文精确指令遵循测评基准 SuperCLUE-CPIFOpen。

以上进展标志着AI领域在 多模态推理、具身智能 和 复杂指令遵循 等方面取得重要突破，为开发者和研究者提供了强有力的开源工具与平台。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：华为新推UCM技术优化大型模型推理，减少对HBM的依赖问题

下一篇： Perplexity这位人工智能新星掷出345亿美元巨资，向谷歌Chrome发起正式收购邀约

AI新闻更新：智谱发布开源视觉推理模型GLM-4.5V；达摩院公开三大具身智能核心技术；360智脑发布全新Light-IF系列模型

🌟 智谱开源全球首个100B级视觉推理模型 GLM-4.5V

🤖 阿里达摩院开源三项具身智能核心技术

🚀 360智脑推出Light-IF系列模型

最新Ai信息

最新Ai工具

热门AI推荐