AIGC 图像生成入门与实践
一、AIGC 图像生成到底在做什么
AIGC 图像生成可以简单理解为:让模型根据文本、参考图或结构约束,生成符合要求的新图像。
常见输入包括:
- 文本提示词:告诉模型“画什么”
- 参考图:告诉模型“长什么样”
- 结构条件:告诉模型“构图怎么摆”
- 参数控制:告诉模型“生成时偏向什么风格”
从学习路径上看,它并不只是“会写提示词”这么简单,而是由模型、工作流、参数、后处理四部分共同决定结果。
1.1 常见应用场景
- 插画、立绘、壁纸、头像生成
- 商品图、海报、封面、广告素材
- 游戏原画草图、角色概念图
- 设计灵感探索与风格迭代
- 影视分镜、镜头草案、视觉参考
1.2 和传统修图的区别
传统修图更像“对已有图像做加工”;
AIGC 更像“基于条件重新生成一张新图”。
所以在 AIGC 场景里,重点不再只是 PS 技巧,而是:
- 你是否知道该选什么模型
- 你是否能把需求拆成可表达的提示词
- 你是否会搭建一条稳定的生成流程
二、图像生成模型的核心原理
目前主流开源图像生成模型大多建立在**扩散模型(Diffusion Model)**之上。
它的大致思路是:
- 先把清晰图像逐步加噪,得到一张“纯噪声图”
- 再训练模型学会如何一步步从噪声还原出图像
- 推理时,从噪声开始,按照提示词逐步去噪,得到结果
你可以把它理解成:
- 训练阶段:模型学“如何从模糊混乱中恢复图像”
- 生成阶段:模型按你的要求“把噪声雕刻成图”
2.1 为什么同一句提示词每次出图不同
因为生成起点通常是一张随机噪声图。
所以哪怕提示词一样,只要以下任一项变化,结果就可能不同:
- 随机种子(seed)
- 采样器(sampler)
- 步数(steps)
- CFG Scale
- 模型或 LoRA
2.2 影响结果的 5 个关键参数
1. Seed
决定随机起点。
固定 seed,才能更稳定地复现实验结果。
2. Steps
去噪步数。
步数太低,细节不足;步数过高,耗时上升且不一定继续增益。
3. CFG Scale
模型对提示词的服从程度。
- 太低:不听话
- 太高:容易生硬、失真
4. Sampler
采样方式。
不同采样器会影响风格、速度和稳定性。
5. 分辨率
分辨率不是越高越好。
先在较合理尺寸下出图,再放大修复,通常更稳。
三、主流工具链怎么选
3.1 闭源在线产品
代表:Midjourney、即梦、可灵、海螺、豆包等。
优点:
- 上手快
- 界面友好
- 不依赖本地显卡
缺点:
- 价格和额度受平台限制
- 模型与参数透明度较低
- 工作流可控性不如开源工具
适合:
- 快速体验
- 非技术用户
- 对私有化和可控性要求不高的场景
3.2 Stable Diffusion 生态
这是当前最主流的开源图像生成生态之一。
优点:
- 可私有部署
- 可换底模、LoRA、ControlNet、VAE
- 社区资源极其丰富
缺点:
- 学习成本高
- 环境配置复杂
- 参数、模型组合很多,新手容易迷路
适合:
- 有持续生成需求
- 需要自定义风格
- 想构建自己的工作流
3.3 ComfyUI
ComfyUI 本质上是一个节点式工作流编排工具。
它不是新的图像模型,而是把 Stable Diffusion 生态里的各个步骤可视化了。
你可以在 ComfyUI 里显式控制:
- 文本编码
- 模型加载
- 采样
- ControlNet
- LoRA
- 图像放大
- 面部修复
它特别适合“流程稳定后反复复用”的场景。
四、从零出图的一条基础工作流
下面是一条最适合新手理解的基础链路:
- 选底模
- 写正向提示词
- 写反向提示词
- 调整采样器、步数、CFG
- 批量出图
- 保留 seed,二次微调
- 放大与修复
4.1 正向提示词怎么写
推荐顺序:
主体 + 场景 + 构图 + 光线 + 风格 + 细节 + 画质
示例:
1 | 1 girl, long black hair, white dress, flower field, sunset light, cinematic composition, soft light, detailed face, delicate illustration, high quality |
4.2 反向提示词怎么写
反向提示词用来排除常见问题。
常见内容:
1 | low quality, blurry, bad anatomy, extra fingers, malformed hands, deformed face, watermark, text, duplicate |
4.3 新手常见误区
- 提示词写得过长但没有重点
- 一次改太多参数,导致无法定位问题
- 不固定 seed,结果无法复盘
- 还没学会基础采样就急着堆 LoRA 和插件
五、如何提高出图稳定性
5.1 固定一套“最小可用基线”
先固定:
- 一个常用底模
- 一个采样器
- 一组默认参数
- 一套反向提示词
这样你调参时,才知道究竟是哪个变量造成了变化。
5.2 先出草图,再做精修
推荐流程:
- 小尺寸快速试图
- 选中构图最好的一张
- 固定 seed 精修
- 放大
- 面部修复或局部重绘
5.3 LoRA 的使用原则
LoRA 更适合“补充风格或角色特征”,不适合一上来叠太多。
建议:
- 一次先挂 1 个 LoRA
- 强度从 0.6~0.8 开始试
- 多个 LoRA 叠加时注意风格冲突
六、学习顺序建议
如果你刚开始学,顺序可以这样排:
- 先理解扩散模型和基本参数
- 学会写基础提示词
- 学会固定 seed 做复现
- 再学 LoRA
- 再学 ControlNet / 局部重绘 / 放大
- 最后学 ComfyUI 节点工作流
不要一开始就追求“最复杂工作流”,先把最小链路跑通最重要。
七、实践建议
7.1 设备建议
本地部署时,显卡显存会直接决定体验。
一般来说:
- 低显存:适合学习和低分辨率试图
- 中高显存:更适合 LoRA、ControlNet、较高分辨率
7.2 素材与版权
图像生成虽快,但仍需注意:
- 商用授权
- 模型训练来源风险
- 人物肖像与品牌元素
- 二次传播合规问题
尤其是面向商业项目时,必须额外确认版权与平台协议。
八、总结
AIGC 图像生成真正的核心,不是“多会写玄学提示词”,而是:
- 理解模型能力边界
- 建立稳定工作流
- 做好参数复现
- 学会逐步精修
当你把“模型 + 提示词 + 工作流 + 后处理”这 4 件事串起来之后,出图质量才会真正稳定。
延伸阅读
- OpenAI Image Generation Docs: https://platform.openai.com/docs/guides/image-generation
- Stability AI API Docs: https://platform.stability.ai/docs
- ComfyUI Docs: https://docs.comfy.org/
