AIGC宇宙 AIGC宇宙

港大&Adobe提出通用生成框架UniReal:通过学习真实世界动态实现通用图像生成和编辑

本文经AIGC Studio公众号授权转载,转载请联系出处。 今天给大家介绍的文章来自公众号粉丝投稿,由香港大学,Adobe提出的统一图像生产与编辑方法UniReal,将多种图像任务统一成视频生成的范式,并且在大规模视频中学习真实的动态与变化,在指令编辑、图像定制化、图像组合等多种任务达到最佳水准。 上图为UniReal多功能性的展示。

本文经AIGC Studio公众号授权转载,转载请联系出处。

今天给大家介绍的文章来自公众号粉丝投稿,由香港大学,Adobe提出的统一图像生产与编辑方法UniReal,将多种图像任务统一成视频生成的范式,并且在大规模视频中学习真实的动态与变化,在指令编辑、图像定制化、图像组合等多种任务达到最佳水准。

图片图片

图片

上图为UniReal多功能性的展示。作为一个通用框架,UniReal 支持在单一模型内进行广泛的图像生成和编辑任务,适应不同的输入输出配置并生成高度逼真的结果,可有效处理具有挑战性的场景,例如阴影、反射、灯光效果、物体姿势变化等。

相关链接

  • 论文:https://arxiv.org/abs/2412.07774
  • 主页:https://xavierchen34.github.io/UniReal-Page/
  • 代码:即将开放...

论文概述

论文提出了一个统一的框架UniReal,旨在解决各种图像生成和编辑任务。现有的解决方案通常因任务而异,但基本原则是相同的:在捕捉视觉变化的同时保持输入和输出之间的一致性。受最近视频生成模型的启发,这些模型有效地平衡了帧之间的一致性和变化,文中提出了一种统一的方法,将图像级任务视为不连续的视频生成。具体来说,将不同数量的输入和输出图像视为帧,从而实现对图像生成、编辑、自定义、合成等任务的无缝支持。虽然是为图像级任务设计的,但是利用了视频作为通用监督的可扩展来源。UniReal 从大规模视频中学习世界动态,展示了处理阴影、反射、姿势变化和物体交互的高级能力,同时也展示了用于新应用的新兴能力。

方法介绍

图片UniReal将图像生成和编辑任务制定为不连续帧生成。首先,输入图像通过 VAE 编码器编码到潜在空间中。然后,将图像潜在和噪声潜在修补成视觉标记。之后将索引嵌入和图像提示(资产/画布/控件)添加到视觉标记中。同时,上下文提示和基本提示由 T5 编码器处理。将所有潜在补丁和文本嵌入连接为一个长 1D 张量并将它们发送到转换器。最后对去噪结果进行解码以获得所需的输出图像。

结果展示

自由形式的指导性编辑

图片

主题驱动的图像定制

图片

人体形象个性化

图片

对象/部件插入

图片

图像理解

图片

更多应用

图片

相关资讯

IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线

IBM 近日宣布,其 AI 开发平台 watsonx.ai 现已支持 DeepSeek-R1蒸馏版的 Llama3.18B和 Llama3.370B模型。 DeepSeek 通过知识蒸馏技术,利用 R1模型生成的数据对多个 Llama和 Qwen变体进行了优化,进一步提升了模型性能。 在 watsonx.ai平台上,用户可以通过两种方式使用 DeepSeek 蒸馏模型。
2/11/2025 2:25:00 PM
AI在线

DeepSeek-R1 登顶 Hugging Face:以10000 赞力压 150 万个模型

今日凌晨,全球最大开源平台之一 Hugging Face 的首席执行官 Clement Delangue 在社交平台发文宣布,DeepSeek-R1在 Hugging Face 上获得了超过10000个赞,成为该平台近150万个模型中最受欢迎的大模型。 这一里程碑式的成就标志着 DeepSeek-R1在全球 AI 社区中的广泛认可与影响力。 DeepSeek-R1的崛起速度令人瞩目。
2/24/2025 9:30:00 AM
AI在线

DeepSeek 更新 R1 推理 AI 模型:代码生成与复杂推理性能大幅提升 推理能力比肩 o1

DeepSeek 公司近日对其高性能推理 AI 模型 DeepSeek-R1进行了重大更新,显著提升了模型在代码生成和复杂推理任务中的表现,引发人工智能领域的广泛关注。 以下基于公开信息和最新动态,全面解析此次更新的关键亮点。 R1模型更新:代码能力大幅提升DeepSeek-R1的最新更新在代码生成能力上取得了显著突破。
5/29/2025 10:01:21 AM
AI在线
testab