Appearance
5.1 图像理解提示
引言:为什么"图像理解提示"是当下最重要的技能之一
在 GPT-4V、Claude 3.5 Sonnet、Gemini 2.0 等多模态模型普及之后,AI 不止能"看图说话",还能分析趋势、找错误、拆解结构、推理逻辑,甚至能读网页截图、读表格、读 UI 设计图。
但小白遇到最大的问题是:不知道如何让 AI 在"看图"时输出准确、清晰、可执行的结果。
5.1.1 AI 在"图像理解"时到底做了什么
| 步骤 | 说明 |
|---|---|
| 抽取视觉特征 | 颜色、形状、纹理、文字、边缘、物体轮廓 |
| 检测对象 | 识别人、物品、场景、文字(OCR)、标识、图标 |
| 捕捉关系 | 空间位置、前后关系、分组、互动 |
| 推断场景语义 | 办公室or家庭?产品广告or教学图? |
| 结合语言模型 | 用语言模型的逻辑方式组织成回答 |
提示词的核心任务,是让 AI"朝正确的角度"分析图像,而不是随便描述。
5.1.2 图像理解提示的 4 个核心原则
| 原则 | 说明 | 示例 |
|---|---|---|
| 明确任务目的 | 避免 AI 东拉西扯 | 是要总结?分析?提取信息?找错误? |
| 给出分析结构 | 让 AI 输出稳定 | "请分为:概述/关键对象/重要细节/用途" |
| 限制输出范围 | 减少幻觉 | "不要推测图中未出现的内容" |
| 明确分析维度 | 任务越复杂越需要 | UI图:布局/交互/文案/视觉层次 |
5.1.3 小白可立即使用的 6 大图像理解模板
模板 1:图像内容总结(最基础)
请总结这张图片的主要内容。
【输出要求】
1. 图像概述(不超过 30 字)
2. 关键对象
3. 重要细节
4. 图片可能的用途
【限制】
- 不要推测图片未显示的内容
- 信息不足请说明模板 2:分析 UI 设计图
请分析以下 UI 设计图。
【分析维度】
1. 布局结构
2. 信息层级(视觉层次)
3. 交互逻辑
4. 可访问性问题
5. 可以改进的地方
【限制】
- 不要猜测业务逻辑中图片未表现的部分模板 3:产品图分析
请分析这张产品图。
【分析维度】
1. 产品类型与核心功能
2. 图像展示重点
3. 消费者关心的特征
4. 可以衍生的卖点
5. 可以优化的拍摄角度或文案
【限制】
- 不要编造产品功能模板 4:漫画/插画场景分析
请分析这张漫画场景。
【分析维度】
1. 场景概述
2. 人物动作与互动
3. 氛围(如:紧张、温暖、搞笑)
4. 视觉重点
5. 可能的故事走向(如信息不足须明确说明)模板 5:文字截图解析
请阅读并解析这张截图文字内容。
【输出结构】
1. 原文关键内容总结
2. 文中提到的人物/事件
3. 关键观点
4. 若有模糊区域请指出模板 6:图表数据分析
请分析下面的图表。
【分析结构】
1. 图表类型
2. 主趋势(上升/下降/稳定)
3. 关键变化点
4. 重要数字(如能识别)
5. 可得出的结论5.1.4 不同图像类型的最佳提示策略
| 图像类型 | 分析重点 | 提示建议 |
|---|---|---|
| 现实场景照片 | 场景、动作、表情、氛围、空间关系 | "请重点分析场景、人物动作和情绪" |
| UI/网页截图 | 结构、层次、文案、交互逻辑 | "请从设计逻辑角度分析" |
| 表格/图表 | 趋势、关键点、变化幅度、对比 | "请分析主趋势和关键变化点" |
| 产品图 | 材质、卖点、适用场景、风格 | "请分析产品特征和卖点" |
| 文字截图 | OCR准确性、主要观点、人物关系 | "请提取关键内容并总结" |
5.1.5 图像理解中最常见的错误
| 错误 | 问题 | 解决方法 |
|---|---|---|
| 不给任务目标 | AI 只会胡乱描述 | 明确是总结、分析还是提取 |
| 让 AI 过度推测 | 引发幻觉 | 加入"不要推测未出现的内容" |
| 不提供结构格式 | 输出混乱文本 | 给出明确的输出结构 |
| 把所有图片当照片处理 | 分析不到位 | 针对不同类型使用不同策略 |
本节小结
关键要点
- 图像理解不是"看图说话",而是"结构化视觉分析"
- 明确任务 + 输出格式 + 限制 = 稳定高质量结果
- 针对不同图像类型需要不同策略
- 通过模板小白可以立即进行结构化理解
- 多模态幻觉必须通过限制和结构化提示来避免
图像理解是多模态提示工程的基础,接下来我们将学习:图片生成提示。


