AIGC宇宙 AIGC宇宙

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

作者:夏花生
2024-07-12 08:01
大家好,这里是和你们一起探索 AI 的花生~ 最近国内科技公司快手在 AI 方面接连发力,推出了类 Sora 视频生成模型「可灵 Kling」、人像动画控制模型「Liveportait」、以及文生图扩散模型「可图 Kolors」,质量均位于同类模型前列,在国外互联网上都引起了广泛的关注和讨论,颇有异军突起之势。 其中「可图 Kolors」为开源模型,它不仅在生成质量上超过了前段时间推出的 SD3,与 Midjourney v6 模型不相上下,还支持识别中文提示词和生成中文字符,可谓是国产开源绘画模型之光,今天就为大

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

大家好,这里是和你们一起探索 AI 的花生~

最近国内科技公司快手在 AI 方面接连发力,推出了类 Sora 视频生成模型「可灵 Kling」、人像动画控制模型「Liveportait」、以及文生图扩散模型「可图 Kolors」,质量均位于同类模型前列,在国外互联网上都引起了广泛的关注和讨论,颇有异军突起之势。

其中「可图 Kolors」为开源模型,它不仅在生成质量上超过了前段时间推出的 SD3,与 Midjourney v6 模型不相上下,还支持识别中文提示词和生成中文字符,可谓是国产开源绘画模型之光,今天就为大家介绍一下 Kolors 的模型特点和使用方法。

相关推荐:

一、Kolors 简介

Kolors 是一个基于潜在扩散的大规模文本到图像生成模型,在数十亿个文本-图像对上训练而成。据官方介绍,Kolors 在图像生成质量、复杂提示词理解、字符文本内容渲染等方面都有优异表现,尤其擅长生成高质量、细节清晰的人像图片。

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

Kolors 生成的图像

由于 Kolors 将 GLM (General Language Model, 通用语言模型)接入了文本编码器,所以它可以准确理解中文提示词的含义,即使提示词中包含复杂的对象、颜色和位置关系,也能处理得很好。在实际测试中,Kolor 对中文提示词的反应效果甚至比英文还好,这种直接输入中文就生成高质量图像带给人的感觉也非常棒。

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

当然 Kolors 最令人惊喜的是它支持生成正确的中文字符,这应该是首个实现此功能的 AI 绘画大模型。文字支持黑体、手写、书法等多种字体,即使是笔画很复杂的字也能准确生成,是 AI 绘画发展的又一大重要进步。

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

作为国产大模型,Kolors 对中式元素的呈现效果也非常棒。无论是长城、故宫、鸟巢这样的标志性建筑,还是猪脚饭、螺蛳粉、老婆饼这样的传统美食,Kolors 都能正确呈现出来。内容本土化是 AI 绘画用户的核心需求之一,大家肯定都希望输入提示词 “一个可爱的小男孩”后,得到的是一个中国男孩而不是白人小男孩的形象,Kolor 在这方面的改进可以说非常贴心了。

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

在官方测评报告中,Kolors 在人类评估中的表现超过了现有的 SD3、Playground v2.5 等开源模型,在文本忠诚度、视觉吸引力,整体满意度上更是与 Midjourney v6 不相上下。在大模型评测平台 FlagEval 的 “文生图模型排行榜”中,Kolors 也获得第二名的好成绩,仅次于 DALL·E 3。

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

大家可以在 Huggingface 上免费体验 Kolors 的图像生成效果,生成速度非常快,几秒就能返回结果。我直接用中文提示词出了几个图,测试其中文和中国元素生成能力,效果都非常不错。

Huggingface Kolors 在线试玩: https://huggingface.co/spaces/gokaygokay/Kolors

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

二、ComfyUI 中使用 Kolors 模型

Kolors 模型开源后 ComfyUI 社区很快就进行了跟进,@Kijia 已经制作了 ComfyUI-KwaiKolorsWrapper 节点,安装后即可在本地使用 Kolors 出图。需要注意的是 Kolors 目前仅允许用于学术研究,如果想商用,需要填写问卷并发送至 [email protected] 进行注册。

ComfyUI 安装步骤:

① 通过 ComfyUI Manager 安装 ComfyUI-KwaiKolorsWrapper 插件;

② 在 ComfyUI-KwaiKolorsWrapper 文件夹中打开终端,运行 pip install -r requirements.txt 命令,安装依赖项;.

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

③ KolorsWrapper 文件夹的 example 文件夹中,导入 kolors_example 工作流到 ComfyUI 中,这个工作流中的节点都是 Kolors 专属的,不同于一般的节点,大家在使用的时候注意区分。

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

④ 工作流打开后,如果点击生成,后台会自动下载所需的各种模型文件,但这一步需要等待很长时间,容易出错,所以更推荐大家从我给的网盘资料中下载 Kolors 文件夹 ,放到根目录的 ComfyUI\models\diffusers 文件夹中。

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

⑤ 如果你是从别处获得的模型资源,可以再多检查一步:进入 Kolors\ text_encoder 文件夹,找到所有名称带 text encoder 的文件,将前缀的 text_encoder_ 部分删除,否则工作流运行的时候会报错。

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

⑥ 从网盘中下载 chatglm 文件,安装到 ComfyUI\models\LLM\checkpoints 中(如果没有就新建文件夹)。网盘中一共有三个模型可选,fp16 适合 13G 的显存,8bit 适合 8-9G ,4bit 适合 4 G,大家按实际需要选择一个下载即可(我的显存是 8G,实测只能带动 4bit 模型)。

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

在基础工作流中,各个节点的作用如下:

(Down)load Kolors Model : 加载 Kwai-Kolors/Kolors 大模型,默认 fp16 精度; (Down)load ChatGLM3 Model:加载 ChatGLM3 文本编码器。不同的模型需要选择不同的精度,对应关系为:fp16-fp16;quan8-8bit;quna4-4bit。 Kolors Text Encode:提示词输入框,如果在提示词后加上丨小符号,可以隔离提示词,同时生成多张图像; Kolors Sampler:推荐使用 1024 分辨率,其余保持默认即可; Load VAE:可以使用 sdxl vae。

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

以上就是对国产开源绘画大模型 Kolors 的相关介绍,官方未来还将推出更多围绕 Kolors 的应用和插件,包括 ControlNet、IP-Adapter 和 LCM 等,我们可以期待它的未来发展。

文章相关链接:

kolors 官方模型地址: https://huggingface.co/Kwai-Kolors/Kolors ComfyUI Kolors 插件地址: https://github.com/kijai/ComfyUI-KwaiKolorsWrapper ChatGLM3 模型地址: https://huggingface.co/Kijai/ChatGLM3-safetensors/tree/main
相关标签:

相关资讯

Google、Meta又放大招!用嘴做视频的时代也要来了

大家好,这里是和你们聊设计的花生~ 近段时间 AI 工具发展势头越发迅猛,在为大家介绍过的 AI 模型中,DALLE·2 和 Midjourney 在文本生成图像的质量和精准度上有了大幅度优化提升,后起之秀 Stable Diffusion 则将 AI 模型的操作门槛降低到普通人都能轻松入门的高度。除了这些着力发展文本-图像(text-image)模型的科技公司,我在 8 月份也向大家概括地介绍过 Google、微软、Facebook 这些我们熟悉的互联网科技巨头在文本-图像 AI 模型上的研发成果,也同样有不凡的
10/11/2022 7:47:58 AM
夏花生

Runway!AI技术+视频制作的新一代视频内容生成工具

大家好,这里是和你们聊设计的花生~ 之前和大家聊过不少 AI 图像生成工具,有的可以根据文本生成图像,有的则是将 AI 技术运用到图像处理中,让扣除背景、消除画面元素成为非常轻松快速的事情,大大提升了设计师的工作效率。既然 AI 技术在图片处理的应用上如此成熟,那如果用到视频的剪辑制作上会有什么效果呢? Runway 官网: AI 技术的快速消除图像内容 比如在视频里实现一键抠图,将人物从背景中分离出来,进行背景更换或者插入文字图层:或者在视频里实现快速修图,用画笔一抹,就能去除视频中不需要的部分:甚至在视频里也
1/5/2023 7:04:55 AM
夏花生

AI短视频神器Gen-2开放测试!靠打字做短视频的时代来了?

大家好,这里是和你们一起探索 AI 的花生。 前几天知名 AI 视频处理平台 Runway 宣布开放测试旗下的 GEN-2,一款可以直接根据文本生成视频的工具,我们先看看官方放出的 2 个演示:视频来源:推特@runwayml :Gen-2 Now Available | Runway - YouTube 了解 Runway:看到视频时真的被小小的震撼了一下,因为画面的稳定度和流畅度都超乎想象。虽然目前用 AI 生成视频的方法并不少,比如之前为大家介绍的 D-ID,是通过图像来生成数字人视频;还有利用 Stable
6/12/2023 7:51:57 AM
夏花生
  • 1