5.1 图像理解提示

引言：为什么"图像理解提示"是当下最重要的技能之一

在 GPT-4V、Claude 3.5 Sonnet、Gemini 2.0 等多模态模型普及之后，AI 不止能"看图说话"，还能分析趋势、找错误、拆解结构、推理逻辑，甚至能读网页截图、读表格、读 UI 设计图。

但小白遇到最大的问题是：不知道如何让 AI 在"看图"时输出准确、清晰、可执行的结果。

5.1.1 AI 在"图像理解"时到底做了什么

步骤	说明
抽取视觉特征	颜色、形状、纹理、文字、边缘、物体轮廓
检测对象	识别人、物品、场景、文字（OCR）、标识、图标
捕捉关系	空间位置、前后关系、分组、互动
推断场景语义	办公室or家庭？产品广告or教学图？
结合语言模型	用语言模型的逻辑方式组织成回答

提示词的核心任务，是让 AI"朝正确的角度"分析图像，而不是随便描述。

5.1.2 图像理解提示的 4 个核心原则

原则	说明	示例
明确任务目的	避免 AI 东拉西扯	是要总结？分析？提取信息？找错误？
给出分析结构	让 AI 输出稳定	"请分为：概述/关键对象/重要细节/用途"
限制输出范围	减少幻觉	"不要推测图中未出现的内容"
明确分析维度	任务越复杂越需要	UI图：布局/交互/文案/视觉层次

5.1.3 小白可立即使用的 6 大图像理解模板

模板 1：图像内容总结（最基础）

请总结这张图片的主要内容。

【输出要求】
1. 图像概述（不超过 30 字）
2. 关键对象
3. 重要细节
4. 图片可能的用途

【限制】
- 不要推测图片未显示的内容
- 信息不足请说明

模板 2：分析 UI 设计图

请分析以下 UI 设计图。

【分析维度】
1. 布局结构
2. 信息层级（视觉层次）
3. 交互逻辑
4. 可访问性问题
5. 可以改进的地方

【限制】
- 不要猜测业务逻辑中图片未表现的部分

模板 3：产品图分析

请分析这张产品图。

【分析维度】
1. 产品类型与核心功能
2. 图像展示重点
3. 消费者关心的特征
4. 可以衍生的卖点
5. 可以优化的拍摄角度或文案

【限制】
- 不要编造产品功能

模板 4：漫画/插画场景分析

请分析这张漫画场景。

【分析维度】
1. 场景概述
2. 人物动作与互动
3. 氛围（如：紧张、温暖、搞笑）
4. 视觉重点
5. 可能的故事走向（如信息不足须明确说明）

模板 5：文字截图解析

请阅读并解析这张截图文字内容。

【输出结构】
1. 原文关键内容总结
2. 文中提到的人物/事件
3. 关键观点
4. 若有模糊区域请指出

模板 6：图表数据分析

请分析下面的图表。

【分析结构】
1. 图表类型
2. 主趋势（上升/下降/稳定）
3. 关键变化点
4. 重要数字（如能识别）
5. 可得出的结论

5.1.4 不同图像类型的最佳提示策略

图像类型	分析重点	提示建议
现实场景照片	场景、动作、表情、氛围、空间关系	"请重点分析场景、人物动作和情绪"
UI/网页截图	结构、层次、文案、交互逻辑	"请从设计逻辑角度分析"
表格/图表	趋势、关键点、变化幅度、对比	"请分析主趋势和关键变化点"
产品图	材质、卖点、适用场景、风格	"请分析产品特征和卖点"
文字截图	OCR准确性、主要观点、人物关系	"请提取关键内容并总结"

5.1.5 图像理解中最常见的错误

错误	问题	解决方法
不给任务目标	AI 只会胡乱描述	明确是总结、分析还是提取
让 AI 过度推测	引发幻觉	加入"不要推测未出现的内容"
不提供结构格式	输出混乱文本	给出明确的输出结构
把所有图片当照片处理	分析不到位	针对不同类型使用不同策略

本节小结

关键要点

图像理解不是"看图说话"，而是"结构化视觉分析"
明确任务 + 输出格式 + 限制 = 稳定高质量结果
针对不同图像类型需要不同策略
通过模板小白可以立即进行结构化理解
多模态幻觉必须通过限制和结构化提示来避免

图像理解是多模态提示工程的基础，接下来我们将学习：图片生成提示。

5.1 图像理解提示 ​

引言：为什么"图像理解提示"是当下最重要的技能之一 ​

5.1.1 AI 在"图像理解"时到底做了什么 ​

5.1.2 图像理解提示的 4 个核心原则 ​

5.1.3 小白可立即使用的 6 大图像理解模板 ​

模板 1：图像内容总结（最基础） ​

模板 2：分析 UI 设计图 ​

模板 3：产品图分析 ​

模板 4：漫画/插画场景分析 ​

模板 5：文字截图解析 ​

模板 6：图表数据分析 ​

5.1.4 不同图像类型的最佳提示策略 ​

5.1.5 图像理解中最常见的错误 ​

本节小结 ​