5.2 图片生成提示

引言：为什么"图像生成提示词"比你想象得更重要

随着 DALL·E 3、Midjourney、Stable Diffusion 等图片生成模型的发展，文生图已成为设计师、内容创作者的"无障碍画笔"。但生成结果常常"不符合你的想象"：

想要"小红书风格"，结果像 PPT
想生成"一个可爱女孩"，结果五官崩坏
想做"科技海报"，结果文字模糊

这些问题的核心原因不是模型弱，而是提示词没有写对。图像生成任务比文本生成更依赖精确控制。

5.2.1 图像生成提示的本质

AI 绘画与文本不同：它不是"理解"，而是"按照你的指令组合视觉元素"。 你的指令越具体，图像越可控。

图像生成涉及的维度：

维度	说明
主体（Subject）	画谁？画什么？
场景（Scene）	地点？背景？环境？
风格（Style）	写实/二次元/商业插画？
构图（Composition）	特写？半身？全身？
光线（Lighting）	柔光？侧光？氛围光？
色调（Color Palette）	暖色？冷色？莫兰迪？

5.2.2 图像生成提示的黄金结构

【主体】你要让 AI 画谁？画什么？
【场景】地点？背景？环境？
【风格】写实 / 二次元 / 商业插画 等
【构图】特写？半身？全身？俯视？
【光线】柔光？侧光？氛围光？
【细节】发型、服装、表情、材质
【色调】暖色？冷色？
【限制】禁止畸形、禁止多余手指
【用途】封面？海报？产品图？

5.2.3 图像生成的五大关键变量

变量	说明	示例
主体（Subject）	最重要，写清楚人/物、外貌、服装	"短发亚洲女性，穿白色衬衫，手拿相机"
风格（Style）	决定画面"像什么"	"小红书爆款风格（柔光、干净、清爽）"
构图（Composition）	决定画面结构	"半身构图，遵循三分法"
光线（Lighting）	决定画面质感	"柔光与浅浅的逆光边缘"
背景（Background）	决定画面氛围	"咖啡店室内，暖色氛围灯"

5.2.4 小白可直接使用的六大模板

模板 1：写实摄影

【类型】写实照片
【主体】短发亚洲女性，穿白色衬衫，坐在咖啡店
【构图】半身，三分法
【风格】清新、自然、高质感
【光线】柔光+暖色灯
【背景】咖啡店内部，桌上有笔记本
【限制】禁止畸形、不要额外人物

模板 2：二次元插画

【类型】二次元插画
【主体】金发少女，穿校园风制服
【构图】全身
【风格】日系轻小说封面
【色调】亮色、活泼
【背景】校园走廊
【限制】禁止手部畸形、五官错位

模板 3：产品展示图

【类型】产品图（电商）
【主体】蓝牙耳机
【构图】产品置于中央
【风格】极简、科技感
【光线】高光+反射
【背景】纯白 or 科技蓝渐变
【用途】电商详情页

模板 4：海报设计

【类型】科技海报
【主题】AI 智能助手发布
【风格】未来科技+深蓝色调
【构图】中央主体+左右留白
【元素】抽象光线、科技纹理
【限制】避免模糊文字

模板 5：UI/APP 设计稿

【类型】UI 概念图
【主体】移动端界面
【构图】俯视 45°
【风格】扁平化、现代
【细节】展示卡片组件、导航栏

模板 6：Logo 图标

【类型】Logo 设计
【风格】极简、现代
【元素】字母 D+C 的抽象组合
【色调】深绿色 #005238
【用途】软件图标

5.2.5 避免"灾难级输出"的技巧

错误	问题	解决方法
只写一句提示	五官出错、风格混乱	使用完整结构模板
风格冲突	AI 不知道你想要什么	只选择一种风格
不给构图要求	主体偏侧、切头	明确构图方式
不给限制	多余手指、畸形	加入禁止项

本节小结

关键要点

图片生成是"视觉元素组合任务"，不是"凭感觉"
提示词必须同时控制：主体、风格、构图、光线、背景
图片提示最重要的是"具体+明确"
六类模板是快速提升质量的捷径
限制项是避免 AI 畸形输出的关键

图片生成是多模态提示工程的核心能力，接下来我们将学习：视频生成提示。

5.2 图片生成提示 ​

引言：为什么"图像生成提示词"比你想象得更重要 ​

5.2.1 图像生成提示的本质 ​

5.2.2 图像生成提示的黄金结构 ​

5.2.3 图像生成的五大关键变量 ​

5.2.4 小白可直接使用的六大模板 ​

模板 1：写实摄影 ​

模板 2：二次元插画 ​

模板 3：产品展示图 ​

模板 4：海报设计 ​

模板 5：UI/APP 设计稿 ​

模板 6：Logo 图标 ​

5.2.5 避免"灾难级输出"的技巧 ​

本节小结 ​