一、AIGC 图像生成到底在做什么

AIGC 图像生成可以简单理解为:让模型根据文本、参考图或结构约束,生成符合要求的新图像
常见输入包括:

  • 文本提示词:告诉模型“画什么”
  • 参考图:告诉模型“长什么样”
  • 结构条件:告诉模型“构图怎么摆”
  • 参数控制:告诉模型“生成时偏向什么风格”

从学习路径上看,它并不只是“会写提示词”这么简单,而是由模型、工作流、参数、后处理四部分共同决定结果。

1.1 常见应用场景

  • 插画、立绘、壁纸、头像生成
  • 商品图、海报、封面、广告素材
  • 游戏原画草图、角色概念图
  • 设计灵感探索与风格迭代
  • 影视分镜、镜头草案、视觉参考

1.2 和传统修图的区别

传统修图更像“对已有图像做加工”;
AIGC 更像“基于条件重新生成一张新图”。

所以在 AIGC 场景里,重点不再只是 PS 技巧,而是:

  • 你是否知道该选什么模型
  • 你是否能把需求拆成可表达的提示词
  • 你是否会搭建一条稳定的生成流程

二、图像生成模型的核心原理

目前主流开源图像生成模型大多建立在**扩散模型(Diffusion Model)**之上。

它的大致思路是:

  1. 先把清晰图像逐步加噪,得到一张“纯噪声图”
  2. 再训练模型学会如何一步步从噪声还原出图像
  3. 推理时,从噪声开始,按照提示词逐步去噪,得到结果

你可以把它理解成:

  • 训练阶段:模型学“如何从模糊混乱中恢复图像”
  • 生成阶段:模型按你的要求“把噪声雕刻成图”

2.1 为什么同一句提示词每次出图不同

因为生成起点通常是一张随机噪声图。

所以哪怕提示词一样,只要以下任一项变化,结果就可能不同:

  • 随机种子(seed)
  • 采样器(sampler)
  • 步数(steps)
  • CFG Scale
  • 模型或 LoRA

2.2 影响结果的 5 个关键参数

1. Seed

决定随机起点。
固定 seed,才能更稳定地复现实验结果。

2. Steps

去噪步数。
步数太低,细节不足;步数过高,耗时上升且不一定继续增益。

3. CFG Scale

模型对提示词的服从程度。

  • 太低:不听话
  • 太高:容易生硬、失真

4. Sampler

采样方式。
不同采样器会影响风格、速度和稳定性。

5. 分辨率

分辨率不是越高越好。
先在较合理尺寸下出图,再放大修复,通常更稳。

三、主流工具链怎么选

3.1 闭源在线产品

代表:Midjourney、即梦、可灵、海螺、豆包等。

优点:

  • 上手快
  • 界面友好
  • 不依赖本地显卡

缺点:

  • 价格和额度受平台限制
  • 模型与参数透明度较低
  • 工作流可控性不如开源工具

适合:

  • 快速体验
  • 非技术用户
  • 对私有化和可控性要求不高的场景

3.2 Stable Diffusion 生态

这是当前最主流的开源图像生成生态之一。

优点:

  • 可私有部署
  • 可换底模、LoRA、ControlNet、VAE
  • 社区资源极其丰富

缺点:

  • 学习成本高
  • 环境配置复杂
  • 参数、模型组合很多,新手容易迷路

适合:

  • 有持续生成需求
  • 需要自定义风格
  • 想构建自己的工作流

3.3 ComfyUI

ComfyUI 本质上是一个节点式工作流编排工具
它不是新的图像模型,而是把 Stable Diffusion 生态里的各个步骤可视化了。

你可以在 ComfyUI 里显式控制:

  • 文本编码
  • 模型加载
  • 采样
  • ControlNet
  • LoRA
  • 图像放大
  • 面部修复

它特别适合“流程稳定后反复复用”的场景。

四、从零出图的一条基础工作流

下面是一条最适合新手理解的基础链路:

  1. 选底模
  2. 写正向提示词
  3. 写反向提示词
  4. 调整采样器、步数、CFG
  5. 批量出图
  6. 保留 seed,二次微调
  7. 放大与修复

4.1 正向提示词怎么写

推荐顺序:

主体 + 场景 + 构图 + 光线 + 风格 + 细节 + 画质

示例:

1
1 girl, long black hair, white dress, flower field, sunset light, cinematic composition, soft light, detailed face, delicate illustration, high quality

4.2 反向提示词怎么写

反向提示词用来排除常见问题。

常见内容:

1
low quality, blurry, bad anatomy, extra fingers, malformed hands, deformed face, watermark, text, duplicate

4.3 新手常见误区

  • 提示词写得过长但没有重点
  • 一次改太多参数,导致无法定位问题
  • 不固定 seed,结果无法复盘
  • 还没学会基础采样就急着堆 LoRA 和插件

五、如何提高出图稳定性

5.1 固定一套“最小可用基线”

先固定:

  • 一个常用底模
  • 一个采样器
  • 一组默认参数
  • 一套反向提示词

这样你调参时,才知道究竟是哪个变量造成了变化。

5.2 先出草图,再做精修

推荐流程:

  1. 小尺寸快速试图
  2. 选中构图最好的一张
  3. 固定 seed 精修
  4. 放大
  5. 面部修复或局部重绘

5.3 LoRA 的使用原则

LoRA 更适合“补充风格或角色特征”,不适合一上来叠太多。

建议:

  • 一次先挂 1 个 LoRA
  • 强度从 0.6~0.8 开始试
  • 多个 LoRA 叠加时注意风格冲突

六、学习顺序建议

如果你刚开始学,顺序可以这样排:

  1. 先理解扩散模型和基本参数
  2. 学会写基础提示词
  3. 学会固定 seed 做复现
  4. 再学 LoRA
  5. 再学 ControlNet / 局部重绘 / 放大
  6. 最后学 ComfyUI 节点工作流

不要一开始就追求“最复杂工作流”,先把最小链路跑通最重要。

七、实践建议

7.1 设备建议

本地部署时,显卡显存会直接决定体验。

一般来说:

  • 低显存:适合学习和低分辨率试图
  • 中高显存:更适合 LoRA、ControlNet、较高分辨率

7.2 素材与版权

图像生成虽快,但仍需注意:

  • 商用授权
  • 模型训练来源风险
  • 人物肖像与品牌元素
  • 二次传播合规问题

尤其是面向商业项目时,必须额外确认版权与平台协议。

八、总结

AIGC 图像生成真正的核心,不是“多会写玄学提示词”,而是:

  • 理解模型能力边界
  • 建立稳定工作流
  • 做好参数复现
  • 学会逐步精修

当你把“模型 + 提示词 + 工作流 + 后处理”这 4 件事串起来之后,出图质量才会真正稳定。

延伸阅读