首页 > 快讯 > 「AI日报：6月27日」腾讯发布轻量级混元-A13B开源模型；可灵AI引进“视频音效”新功能

「AI日报：6月27日」腾讯发布轻量级混元-A13B开源模型；可灵AI引进“视频音效”新功能

发布时间：2025-06-27 17:07:24 | 责任编辑：张毅 | 浏览量：198 次

欢迎来到小编【AI日报】栏目!
每天三分钟了解当日AI大事件，助你洞悉AI行业趋势、创新AI产品应用。
更多AI资讯访问:
https://www.aibase.com/zh
1、腾讯开源轻量级混元-A13B模型1张中低端GPU卡即可部署
腾讯发布混元大模型家族的新成员混元-A13B模型，采用专家混合（MoE）架构，总参数规模达800亿，激活参数为130亿，大幅降低推理延迟与计算开销，为个人开发者和中小企业提供更具性价比的AI解决方案。该模型在数学、科学和逻辑推理任务中表现出色，支持调用工具生成复杂指令响应。
体验入口:https://hunyuan.tencent.com/
开源地址:https://github.com/Tencent-Hunyuan。
2、可灵AI推出“视频音效”功能，实现“所见即所听”沉浸体验
可灵AI全系列视频模型上线“视频音效”功能，用户生成视频时可同步生成立体声音效，实现“所见即所听”。升级的“音效生成”功能新增“视频生音效”模块，基于自研多模态视频生音效模型Kling-Foley，实现音画帧级对齐。该功能已向所有用户限时免费开放。
3、Black Forest震撼开源FLUX.1Kontext [dev]:媲美GPT-4o的图像编辑
Black Forest Labs开源图像编辑模型FLUX.1Kontext [dev]，基于12亿参数的流匹配变换器架构，支持消费级硬件运行。其核心功能是上下文感知与精准编辑，能理解文本和图像输入，实现真正上下文生成与编辑，支持多次迭代编辑。
开源地址:https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev
Github:https://github.com/black-forest-labs/flux。
4、OpenAI发布Deep Research API新模型:o3/o4-mini-deep research
OpenAI推出两款Deep Research API新模型o3-deep-research和o4-mini-deep-research，专为高阶分析和深度信息合成设计，支持自动化网页搜索、数据分析、代码执行等功能。定价方面，o3模型每1000次调用价格为10至40美元，o4-mini价格更低，为2至8美元。
5、1999元起!小米AI眼镜颠覆智能穿戴，拍摄、支付、音乐一镜全能!
小米推出首款人工智能穿戴产品小米AI眼镜，具备第一人称拍摄、语音助手和开放式耳机功能，通过电致变色技术为用户带来个性化体验。眼镜采用轻量化设计，重量仅为40克，配备1200万像素前置摄像头，支持2K30帧每秒视频录制和直播功能。
6、迅雷发布下载MCP服务一句话让Al自动下载
迅雷推出下载MCP服务，用户只需“一句话”就能让AI自动完成下载任务。该服务适配PC版迅雷和NAS迅雷，目前所有用户均可免费使用迅。雷MCP具备在国内外多个主流大模型应用接入的能力，如纳米AI、扣子空间、Cursor、Cherry Studio等。
7、一键生成爆款视频!HeyGen AI视频Agent席卷内容创作界!
HeyGen推出AI视频Agent，通过简单素材上传，自动完成从故事规划、脚本编写到镜头选择的整个视频制作流程，几分钟内即可获得可直接发布的专业级视频内容。支持多种视频类型，操作流程简便，无需专业视频编辑技能，智能化提示引导用户轻松上传素材并设定创作需求，AI完成从脚本到成片的全部工作。
8、重磅!谷歌开源Gemma3n多模态模型，手机也能跑出云端AI性能
谷歌发布并开源端侧多模态大模型Gemma3n，为手机、平板、笔记本等端侧设备带来强大多模态功能。提供E2B和E4B两个版本，原始参数量分别为5B和8B，但内存占用仅相当于传统2B和4B模型，分别只需2GB和3GB内存即可运行。原生支持图像、音频、视频和文本的多模态输入处理，支持140种文本语言和35种语言的多模态理解。
开源地址:https://huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4

以下是6月27日的AI日报内容：

腾讯开源轻量级混元-A13B模型

腾讯开源了轻量级混元-A13B模型，但目前未查到更多关于该模型的详细信息。此前腾讯混元AI视频曾发布并开源图生视频模型，新增对口型、动作驱动、背景音效等功能。

可灵AI推“视频音效”功能

功能介绍：可灵AI全系列视频模型上线“视频音效”功能，基于其自研的多模态视频生音效模型Kling-Foley，可在生成视频时同步生成高质量、富有空间感的立体声音效，实现“所见即所听”的沉浸式体验。
技术特点：该模型能够对音画进行帧级对齐，展现极高的音画同步精度和极佳的空间听感。其整体结构为多模态控制的流匹配模型，通过多模态联合条件模块融合文本、视频和时间提取的视频帧作为条件输入，最终生成高质量立体声音频。
应用场景：用户在生成视频时可直接获得匹配的音效，还可上传本地视频或选择历史作品，一键匹配精准同步的音效。此外，该功能可应用于多种场景，如动作、自然环境等，为视频创作提供更丰富的音频表达。
数据集构建：可灵AI构建了自有的多模态数据集，样本总数高达1亿+，每个样本包含原始视频片段、单声道音频片段及结构化文本描述。此外，还构建了名为Kling-Audio-Eval的基准数据集并开源，包含20935个精细标注的样本。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。