港大&Adobe提出通用生成框架UniReal：通过学习真实世界动态实现通用图像生成和编辑

作者：AIGC Studio 2025-01-20 11:15

本文经AIGC Studio公众号授权转载，转载请联系出处。今天给大家介绍的文章来自公众号粉丝投稿，由香港大学，Adobe提出的统一图像生产与编辑方法UniReal，将多种图像任务统一成视频生成的范式，并且在大规模视频中学习真实的动态与变化，在指令编辑、图像定制化、图像组合等多种任务达到最佳水准。上图为UniReal多功能性的展示。

本文经AIGC Studio公众号授权转载，转载请联系出处。

今天给大家介绍的文章来自公众号粉丝投稿，由香港大学，Adobe提出的统一图像生产与编辑方法UniReal，将多种图像任务统一成视频生成的范式，并且在大规模视频中学习真实的动态与变化，在指令编辑、图像定制化、图像组合等多种任务达到最佳水准。

上图为UniReal多功能性的展示。作为一个通用框架，UniReal 支持在单一模型内进行广泛的图像生成和编辑任务，适应不同的输入输出配置并生成高度逼真的结果，可有效处理具有挑战性的场景，例如阴影、反射、灯光效果、物体姿势变化等。

论文概述

论文提出了一个统一的框架UniReal，旨在解决各种图像生成和编辑任务。现有的解决方案通常因任务而异，但基本原则是相同的：在捕捉视觉变化的同时保持输入和输出之间的一致性。受最近视频生成模型的启发，这些模型有效地平衡了帧之间的一致性和变化，文中提出了一种统一的方法，将图像级任务视为不连续的视频生成。具体来说，将不同数量的输入和输出图像视为帧，从而实现对图像生成、编辑、自定义、合成等任务的无缝支持。虽然是为图像级任务设计的，但是利用了视频作为通用监督的可扩展来源。UniReal 从大规模视频中学习世界动态，展示了处理阴影、反射、姿势变化和物体交互的高级能力，同时也展示了用于新应用的新兴能力。

方法介绍

UniReal将图像生成和编辑任务制定为不连续帧生成。首先，输入图像通过 VAE 编码器编码到潜在空间中。然后，将图像潜在和噪声潜在修补成视觉标记。之后将索引嵌入和图像提示（资产/画布/控件）添加到视觉标记中。同时，上下文提示和基本提示由 T5 编码器处理。将所有潜在补丁和文本嵌入连接为一个长 1D 张量并将它们发送到转换器。最后对去噪结果进行解码以获得所需的输出图像。