【AIGC-02】Comfy-UI

2024-04-08

一、基础知识

1.1 Stable Diffusion 原理

Pixel Space：实际 / 像素空间

Latent Space：潜空间，压缩过的空间，如果直接用原图像素量太大。

Conditioning：描述词

CLIP

一个基于对比的文本图像预训练方法，一个基于对比学习的多模态模型

U-Net

因为结构画出来是一个U形的东西，得名U-Net

1.2 ComfyUI 文件结构

# 插件地址
ComfyUI\custom_nodes\

# models 地址
\models\checkpoints\

# Lora 地址
ComfyUI\models\loras\

同步WebUI和ComfyUI模型

1.3 ComfyUI 快捷键

1.4 打包

效率节点

解包与封包：解包的意思是把打包好的管道打开修改里面某一项，然后再次把修改的封起来

题词权重方式：

A1111：SDXL的权重方式

解包

封包

自制集成节点

二、模型

2.1 ConrtolNet

manager-搜索controlnet

安装地址：F:\ComfyUI-aki-v1.3\models\controlnet

controlnet预处理插件

1.5CN理模型

SDXL-CN模型

视觉编码模型

Aux集成预处理器 可以选择任何一种预处理器，使用起来比较灵活，推荐

2.2 CLIP视觉编码

将图片转化成CLIP条件的工具

需要三大件： CLIP视觉加载器——>CLIP视觉编码——>unCLIP条件

注意：尽量使用SDXL模型，支持效果更好

2.3 LCM-lora快速出图

模型地址

使用注意：

模型对K采样器 有要求：

步数：4-8

CFG：1-2

采样器：LCM（不是必须，但是LCM会更快）

采用模型离散采样算法 会细节更丰富，当然不用也可以

注意 v1.5 和 SDXL 选择

同Seed下，用了 LCM离散采样 的细节会稍微好一点

2.4 SDXL-turbo 快速出图

官方标准版文档

官方只能识别512x512分辨率的

参数推荐：

步数：1

CFG:：1-2

评价：速度快，但是效果并不好

DreamShaper XL

分辨率提高到1024

参数推荐：

CFG: 1-2

Step: 4-8

采样器：DPM++ SDE Karrars

意义：如果性能足够，参数可以稍低，实现实时生图

三、必备插件

3.1 Comfy-UI-Manager

Comfy-UI-Manager

3.2 WD1.4 反推

3.3 SDXL风格化

提示词界面

提示词界面，高级版本

text_positive_g: （形容词），eg：xx样式的牛仔裤

text_positive_l: （名词），eg：1个牛仔裤

text_negtive：抹除画面物体

CLIP文本提示词SDXL优化版本

clip 空间大小应该是实际图片大小的 2~4倍

3.4 AnimateDiff

官方项目地址

AD模型地址

AnimateDiff 需要：专门加载器的大模型 + 匹配的LoRA才能生效

AnimateDiff v3 模型动物园

Name	HuggingFace	Type	Storage Space 存储空间	Description
`v3_adapter_sd_v15.ckpt`	Link	Domain Adapter 域适配器	97.4 MB
`v3_sd15_mm.ckpt.ckpt`	Link	Motion Module 运动模块	1.56 GB
`v3_sd15_sparsectrl_scribble.ckpt`	Link	SparseCtrl Encoder SparseCtrl 编码器	1.86 GB	scribble condition 涂鸦条件
`v3_sd15_sparsectrl_rgb.ckpt`	Link	SparseCtrl Encoder SparseCtrl 编码器	1.85 GB	RGB image condition RGB图像条件

AnimateDiff Evolved ：配套更全，只安装这个即可

核心处理器

动态缩放：影响运动强度

动态LoRA

控制运镜方向的，只能v2

联系上下文

理论上一个视频只有2s，但是有了联系上下文功能，就可以实现理论上无限时常的视频生成

参数一般情况保持默认即可

参数解释：

上下文长度：一批次出几个图像，默认16（即8帧），设置为8的倍数即可，显存高可以开的大

上下文步长：一帧一帧推理还是跳着推理，1最细腻

上下文叠加：上下文连接的帧数，理论运动越激烈叠加的越少，极限可以开到1。

sparcectrl

官方文档

SparseCtrl 索引方法：图片出现在视频的第几帧

SparseCtrl分散方法：

不变：即不变

起始：图片为视频的开头状态（视频补齐之后运动）

结束：图片为视频的结尾状态（视频补齐之前运动）

中心：图片为视频的中间状态（补齐两端运动）

3.5 VideoHelperSuite

处理视频帧组成视频的插件

Ping-Pong：视频从头到尾，再从尾到头，如此重复

3.6 FIZZ

普通使用：通过类似关键帧的方式控制图像生成

高阶使用：通过数学函数更加精准控制生成图像

普通使用

注意：

关键帧提示词的末尾不应该有”,”

3.7 Advanced-ControlNet

高级ControlNet

animediff_controlnet_checkpoint.ckpt模型下载地址

3.8 Frame-Interpolation补帧

补帧工具

官方网站

manager 直接搜索下载

补帧方式

由于补帧方式太多，随大流用 RIFE VFI 即可

ckpt名称：用默认 rife47.pth 即可

乘数：想让帧数翻几倍

其他选择默认即可

3.9 XY图表

前提：必须用效率节点

3.10 IPAdapter

IPAdapter_plus

ComfyUI_InstantID

h94 (xiaohu) (huggingface.co)

InsightFace

InsightFace

注意：使用InsightFace 需要单独安装InsightFace，默认秋叶启动器是自带的，能用就别重装啥的瞎搞，不能的话或者用的原版comfyui看教程

https://www.youtube.com/watch?v=72xow6bNWSc&list=PLK7sA3zrSa4s0tO8w2pdc7zPTcIAgS7ru&index=16

原理

unCLIP 过程的升级版，把图像、文本分别分析成 TOKEN ，组成embedding 传入 U-Net

模型列表

模型特点分析：

ipa_v1.5 ：Token 8个，对于风格有一定的迁移，像与不像的阈值在0.4-0.5之间

ipa_Plus_v1.5 ：Token 16个，能更加还原原图风格，保持姿态一致性

ipa_light ：更轻量级的模型，如果想要更偏向参考词而不是图片，用这个合适

ipa_vit_G ：为一个用大参数 clip_vision 的模型，出图更加细腻，但是也不会保持姿势

ipa_full_face_v1.5 ：8个Token，参考整张图片，面部如果在原图占比小那么效果会不好

ipa_plus_face_v1.5 ：16个Token，单独把人物面部从原图中裁切出来进行参考

ipa_faceid_v1.5：基础 faceid

ipa_faceid_plusv2_v1.5：效果更好的 faceid

ipa_faceid_portrait_v1.5：可通过多张图片进行ip定制，CLIP可以更好地发挥

ipa_plus_face 和 ipa_faceid和 ipa_faceid_PlusV2区别

ipa_plus_face ：基于clip_version 进行

ipa_faceid ：基于 insightface 库进行

ipa_faceid_PlusV2 ：融合clip_version 和 insightface 运行

权重：

Ease in out : 提词起不了多大作用

Style trsansfer（SDXL），也并不一定是sdxl才能用，兼容sd1.5模型

composition（SDXL）只模仿构图

负面图像是用来校正成品图片的

3.11 InstantID

官方GitHub地址

默认通过CN参考原图的头部位置，如果需要额外的面部控制，可以给另一个图片来控制头部位置

更多参考图，组批次

3.12 DynamiCrafter

安装方式：Manager安装

源项目GitHub

ComfyUI-DynamiCrafterWrapper

配合Dynami的模型下载至checkpoint

【特点：擅长物理世界的东西的运动】

插帧

起始和末尾画面都给

四、工作流构建

4.1 放大

自建放大模板：

① 二重放大（2 Step Normal Scale）

原始图像——>① 潜空间放大（Latent）——>②模型放大——>出图

② 三重放大（3 Step Super Scale）

原始图像——>① 潜空间放大（Latent）——>②SD放大——>③模型放大——>出图

① 潜空间放大

SD 放大

运行速度：

模型放大＜潜空间放大（二次采样）＜ SD放大

4.2 SDXL风格化文生图

简易SDXL风格文生图流程

高级SDXL风格文生图流程

4.3 ControlNet

LineArt 文生图

其余CN模型同理

LineArt 图生图

其余CN模型同理

4.4 快速出图

V1.5 ：LCM

SDXL：SDXL-turbo

LCM

SDXL-turbo

4.5 SVD

Huggingface模型下载

影响运动强弱的参数

SVD_图像到视频条件 增强：数值越大运动越强

适合风景广角运动（模拟无人机飞行效果）

简易版

4.6 ComfyUI-AnimateDiff

能够影响画面运动的参数：

① 运动幅度：

AnimateDiff 加载器缩放系数 ：(运动强度)，数值越高运动越大

LoRA模型强度：(运动强度)，数值越高运动越大，但是影响的不大

LoRACLIP强度：(运动强度)，数值越高运动越大，但是影响的不大

视频时长：时长长度过短也会导致运动幅度不够

② 视频长度：

AnimateDiff 上下文设置 上下文长度 : 一个视频总帧数

批次大小：（全部帧数）

疑问

这里的元节点数直接影响了生成帧数

t2v

AD文生视频 + 提示词微调

控制动态：

动态扩散加载器运动缩放

LoRA强度

视频时长

AD文生视频 + 提示词微调 + CN控制优化 + 补帧

控制动态：

动态扩散加载器运动缩放

LoRA强度

视频时长

i2v

AD图生视频 +单图 + 高级CN控制

控制动态：

动态扩散加载器运动缩放

LoRA强度

SparseCtrl 加载器 动态强度 动态缩放

高级ControlNet强度

视频时长

AD图生视频 +双图 + 高级CN控制

v2v

加载器——>2个CN——>K采样——>输出

4.7 DynamiCrafter

基础一图流

要用专用的 1024 模型

4.8 IPAdapter 各模型对比

4.9 风格转绘

ComfyUI进阶教学-IPAdapter 高级风格控制

关键在于【迭代思维】

① 不同IPA模型的选择（sd1.5 或者 light）；

② IPA强度和CLIP强度的协调，然后二次递进或递减来调整风格；

③ 大模型的风格是否契合；

④ 参考图也可以 1个切分成 2个（没那么重要）。

调整提示：

IPA模型：参考3.10 IPAdapter，不同模型有不同的画面特点；

应用IPAdapteer 权重：参考画面（风格）的强度；

K采样器 CFG ：越大 CLIP提示词 对图片的影响越大。

Style trsansfer（SDXL），也并不一定是sdxl才能用，兼容sd1.5模型

composition（SDXL）只模仿构图

控制“风格度”：

先 模型放大 编码 解码 重采样（重绘幅度0.4左右） (适当调整二次采样的CLIP)

递进（加风格）：原始模型输出 + IPA【具体：增加IPA强度（调大缩减CFG值）】

递减（去风格）：主模型重绘能力去调回本来样子

4.10 InstantID

官方GitHub地址

特点：

更”像“

仅支持 SDXL 模型

对clip提示词支持更好

推荐CFG：3-5

更多参考图，组批次

纯 InstantID

InstantID + IPA 二次识别

注意权重

直接用 PLUS 版本的 IPA 可能会导致环境被影响

解决办法：给人脸画遮罩mask，直接把mask连接到IPA

PLUS版本需要裁切人脸，

InstantID + IPA + 风格模仿

调整遮罩强度

目的： 为了避免身体卡通，面部写实的情况。

遮罩强度为0时，面部完全由两个组件影响

强度0.5时，风格融合更好一点，稍微削InstantID 和 IPA对弱面部影响，稍微提升风格对面部影响

4.11 CLIP控制构图

ipact 和 inspire

Gligen

五、高级理解

ComfyUI高级理解(1) 图像合成、Clip分离精确控制Prompts，总有你不知道的小技巧！ #comfyui #aigc - YouTube

不要频繁编解码，编解码是有损失的，pixel到letent空间是除以8的关系，在大佬的工作流里，一半只会有一次解码，后面还会跟一个图像修复

5.1 CLIP

CLIP具体过程如下图

CLIP三种融合方式

作用1：提词隔离（比如撑着伞的女孩打着红色的伞 ，但是可能衣服也被“染”红了）

ConditioningAverage 条件平均

可以制作物种融合

插件卡片里的“系数” 是上方条件的强度

Conditioning(Combine) 条件合并

适合平均采样
解决”染色”效果不好

Conditioning (Concat) 条件联结

可以比较完美的解决“染色”问题

CLIP SKIP

skip 跳过的越多，对提示词忽略的成分越多

# 下图正面CLIP
1girl, bare shoulders, long hair, chinese clothes, black_coat,  pink hair3d,super high resolution, best quality, 4k

#1个女孩，光肩，长发，中国衣服，黑色，粉色头发3d，超高分辨率，最佳质量，4k