首页 > 快讯 > 腾讯推出具有高一致性和卓越控制能力的多模态视频生成工具 HunyuanCustom

腾讯推出具有高一致性和卓越控制能力的多模态视频生成工具 HunyuanCustom

发布时间:2025-05-12 11:01:47 | 责任编辑:张毅 | 浏览量:37 次

腾讯近日正式开源其全新多模态定制视频生成框架——HunyuanCustom,标志着AI视频创作进入更高自由度与精准控制的全新阶段。该框架基于腾讯自研的 HunyuanVideo 打造,主打**“主体一致性”与“多模态灵活输入”**,致力于实现视频内容与输入素材高度匹配的个性化生成。
HunyuanCustom 的核心优势在于其强大的多模态输入能力:支持用户通过文本描述、单图或多图图像、参考音频甚至已有的视频片段作为输入,系统可综合这些信息生成定制化视频。这种跨模态感知能力为内容创作提供了极大的灵活性和表现力。
在视频内容的准确性方面,HunyuanCustom特别强调人物或物体在视频中的身份一致性,有效解决了传统AI视频中“换脸失真”或形象漂移的问题,使得生成结果更真实、统一、可信。
该框架的潜力正在多个行业场景中逐步显现,包括但不限于:
虚拟人物广告:快速生成具备特定形象的AI人物进行商业宣传;
虚拟试穿:帮助用户在线预览不同穿搭效果,提升电商体验;
唱歌头像生成:将照片与音乐融合,打造趣味性与表现力兼具的个性化视频;
智能视频编辑:自动替换视频中的指定人物或对象,提高后期制作效率。
腾讯表示,HunyuanCustom 的开源将显著降低多模态视频创作门槛,为开发者、内容创作者以及各类行业用户提供高质量、高一致性的视频生产能力,进一步拓展AI视频的实用边界。
地址:https://github.com/Tencent/HunyuanCustom

腾讯推出具有高一致性和卓越控制能力的多模态视频生成工具 HunyuanCustom

腾讯近日正式开源了其全新的多模态定制化视频生成工具 HunyuanCustom,这标志着 AI 视频创作进入了一个更高自由度与精准控制的全新阶段。以下是关于 HunyuanCustom 的详细介绍:

技术特点

  • 多模态输入能力:HunyuanCustom 融合了文本、图像、音频、视频等多种模态输入,用户可以通过输入文本描述、单图或多图图像、参考音频甚至已有视频片段来生成定制化视频。

  • 高主体一致性:该工具在主体一致性方面表现出色,能够有效解决传统 AI 视频中“换脸失真”或形象漂移的问题,确保人物或物体在视频中的身份特征保持一致。

  • 强控制力:HunyuanCustom 具备强大的控制信号跟随能力,可以根据文本、参考主体图像和语音等多种模态信号生成用户需要的对象、场景和动作。

  • 高质量生成:基于腾讯混元视频大模型的强大能力,HunyuanCustom 在人物细节还原、动作流畅性、光影真实度等方面都达到业内领先水平。

功能与应用场景

  • 单主体视频生成:用户只需上传一张包含目标人物或物体的图片,并提供一句文本描述,HunyuanCustom 就能生成连贯自然的视频内容。

  • 多主体视频生成:用户可以提供多张图片(如人物和物体的照片),并输入文字描述,让这些主体按要求出现在视频里。

  • 单主体视频配音:在音频驱动模式下,用户可以上传人物图像并配上音频语音,生成人物在任意场景中说话、唱歌或进行其他音视频同步表演的效果。

  • 视频局部编辑:支持将图片中的人物或物体自然地替换或插入到任意视频片段中,进行创意植入或场景扩展。

HunyuanCustom 广泛应用于虚拟人物广告、虚拟试穿、唱歌头像生成、智能视频编辑等多个领域。

开源计划

目前,HunyuanCustom 的单主体生成能力已经开源,并在混元官网(https://hunyuan.tencent.com/)上线。其他能力(如音频驱动视频定制、视频驱动视频定制、多主体视频定制等)将于 5 月内陆续对外开源。

HunyuanCustom 的开源将极大地推动视频创作技术的发展,为视频创作者、短视频博主、电商从业者、广告创意人等提供强大的工具。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复