Skip to content

5.1 图像理解提示

引言:为什么"图像理解提示"是当下最重要的技能之一

在 GPT-4V、Claude 3.5 Sonnet、Gemini 2.0 等多模态模型普及之后,AI 不止能"看图说话",还能分析趋势、找错误、拆解结构、推理逻辑,甚至能读网页截图、读表格、读 UI 设计图。

但小白遇到最大的问题是:不知道如何让 AI 在"看图"时输出准确、清晰、可执行的结果。

5.1.1 AI 在"图像理解"时到底做了什么

步骤说明
抽取视觉特征颜色、形状、纹理、文字、边缘、物体轮廓
检测对象识别人、物品、场景、文字(OCR)、标识、图标
捕捉关系空间位置、前后关系、分组、互动
推断场景语义办公室or家庭?产品广告or教学图?
结合语言模型用语言模型的逻辑方式组织成回答

提示词的核心任务,是让 AI"朝正确的角度"分析图像,而不是随便描述。

5.1.2 图像理解提示的 4 个核心原则

原则说明示例
明确任务目的避免 AI 东拉西扯是要总结?分析?提取信息?找错误?
给出分析结构让 AI 输出稳定"请分为:概述/关键对象/重要细节/用途"
限制输出范围减少幻觉"不要推测图中未出现的内容"
明确分析维度任务越复杂越需要UI图:布局/交互/文案/视觉层次

5.1.3 小白可立即使用的 6 大图像理解模板

模板 1:图像内容总结(最基础)

请总结这张图片的主要内容。

【输出要求】
1. 图像概述(不超过 30 字)
2. 关键对象
3. 重要细节
4. 图片可能的用途

【限制】
- 不要推测图片未显示的内容
- 信息不足请说明

模板 2:分析 UI 设计图

请分析以下 UI 设计图。

【分析维度】
1. 布局结构
2. 信息层级(视觉层次)
3. 交互逻辑
4. 可访问性问题
5. 可以改进的地方

【限制】
- 不要猜测业务逻辑中图片未表现的部分

模板 3:产品图分析

请分析这张产品图。

【分析维度】
1. 产品类型与核心功能
2. 图像展示重点
3. 消费者关心的特征
4. 可以衍生的卖点
5. 可以优化的拍摄角度或文案

【限制】
- 不要编造产品功能

模板 4:漫画/插画场景分析

请分析这张漫画场景。

【分析维度】
1. 场景概述
2. 人物动作与互动
3. 氛围(如:紧张、温暖、搞笑)
4. 视觉重点
5. 可能的故事走向(如信息不足须明确说明)

模板 5:文字截图解析

请阅读并解析这张截图文字内容。

【输出结构】
1. 原文关键内容总结
2. 文中提到的人物/事件
3. 关键观点
4. 若有模糊区域请指出

模板 6:图表数据分析

请分析下面的图表。

【分析结构】
1. 图表类型
2. 主趋势(上升/下降/稳定)
3. 关键变化点
4. 重要数字(如能识别)
5. 可得出的结论

5.1.4 不同图像类型的最佳提示策略

图像类型分析重点提示建议
现实场景照片场景、动作、表情、氛围、空间关系"请重点分析场景、人物动作和情绪"
UI/网页截图结构、层次、文案、交互逻辑"请从设计逻辑角度分析"
表格/图表趋势、关键点、变化幅度、对比"请分析主趋势和关键变化点"
产品图材质、卖点、适用场景、风格"请分析产品特征和卖点"
文字截图OCR准确性、主要观点、人物关系"请提取关键内容并总结"

5.1.5 图像理解中最常见的错误

错误问题解决方法
不给任务目标AI 只会胡乱描述明确是总结、分析还是提取
让 AI 过度推测引发幻觉加入"不要推测未出现的内容"
不提供结构格式输出混乱文本给出明确的输出结构
把所有图片当照片处理分析不到位针对不同类型使用不同策略

本节小结

关键要点

  1. 图像理解不是"看图说话",而是"结构化视觉分析"
  2. 明确任务 + 输出格式 + 限制 = 稳定高质量结果
  3. 针对不同图像类型需要不同策略
  4. 通过模板小白可以立即进行结构化理解
  5. 多模态幻觉必须通过限制和结构化提示来避免

图像理解是多模态提示工程的基础,接下来我们将学习:图片生成提示