新中文图像编辑工具UniWorld-V2横空出世!轻松框选修改,实现中文字体精确渲染,性能远超GPT-Image与Gemini,堪称业界新霸主!
发布时间:2025-11-07 12:07:48 | 责任编辑:吴昊 | 浏览量:6 次
在图像编辑领域,一项颠覆性的技术正在改变游戏规则!兔展智能与北京大学的 UniWorld 团队推出了新一代图像编辑模型 ——UniWorld-V2。这一模型不仅在图像处理的细节控制上超越了 Nano Banana,更在理解中文指令方面表现出色。
UniWorld-V2基于一种创新的视觉强化学习框架 ——UniWorld-R1,该框架首次将强化学习策略优化应用于图像编辑,显著提升了编辑的准确性和灵活性。与传统的监督微调方法相比,UniWorld-R1的设计旨在解决数据过拟合和泛化能力差的问题,让模型在面临多样化编辑指令时能够更好地响应。
举个例子,当用户要求 AI 将一位女生的手势改为 “OK” 时,UniWorld-V2能够精准理解并修改。与之相比,Nano Banana 则未能准确捕捉用户的意图。更令人惊叹的是,在海报编辑示例中,UniWorld-V2能够渲染出复杂的中文艺术字体,如 “月满中秋”,确保效果清晰且语义准确。
该模型的精细化控制力同样令人瞩目。通过简单的框选操作,用户可以指定编辑区域,实现高难度的调整,比如将特定物体移出框外。此外,UniWorld-V2还能在光影处理方面展现出色的能力,能够自然地将物体融入场景,提升整体的和谐感。
在测试基准 GEdit-Bench 和 ImgEdit 中,UniWorld-V2分别以7.83和4.49的高分遥遥领先其他知名模型,如 OpenAI 的 GPT-Image-1和 Gemini2.0。这些成绩的背后,得益于 UniWorld-R1框架的强大通用性,它不仅提升了 UniWorld-V2的性能,也为其他模型带来了显著改进。
UniWorld-R1的论文、代码和模型已在 GitHub 和 Hugging Face 平台上公开,为未来的研究打下基础。这一技术的发布,不仅推动了多模态领域的发展,也为图像编辑技术带来了新的可能性。
论文地址:
https://arxiv.org/abs/2510.16888
GitHub链接:
https://github.com/PKU-YuanGroup/UniWorld
这是一篇关于中文图像编辑迎来新王!UniWorld-V2发布,框选即改、中文字体精准渲染,性能碾压GPT-Image与Gemini的文章,内容值得关注。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
