Appearance
5.3 语音与视频提示基础
引言:语音与视频时代到来了
随着 GPT-4o、Gemini 2.0、Whisper、Runway 等技术的发展,AI 不再只理解"文字与图片",而是能听懂语音、分析音频情绪、识别视频动作场景、提取视频脚本分镜。
提示词工程正式从"文本与图像"进入"音频与视频"的时代。
5.3.1 AI 如何"理解"音频
| 步骤 | 说明 |
|---|---|
| 语音转文本(ASR) | 提取字词、句子 |
| 音频内容理解 | 分析说话者、语气、情绪、背景声音 |
| 结构化输出 | 总结、提炼、分类、转成脚本 |
你的提示词必须告诉 AI:要不要识别文字?要不要分析情绪?要不要忽略噪声?
5.3.2 AI 如何"理解"视频
| 步骤 | 说明 |
|---|---|
| 逐帧视觉理解 | 识别人物、物体、动作、场景 |
| 时序分析 | 分析动作随时间变化、顺序、关键动作 |
| 音频+视觉合并 | 结合画面、字幕、对话、音乐情绪 |
| 结构化总结 | 输出分镜、脚本、节奏、风格、故事线 |
5.3.3 语音提示的四大核心原则
| 原则 | 说明 | 示例 |
|---|---|---|
| 告诉 AI 要"识别"还是"理解" | 明确任务类型 | "请提取音频文字内容" vs "请分析说话者情绪" |
| 指定忽略项 | 音频中常有噪声 | "请忽略背景噪声、口头禅、重复词语" |
| 输出结构必须明确 | 避免混乱输出 | "请按:内容总结/情绪分析/说话方式 输出" |
| 避免幻觉 | 不要让 AI 猜 | "若无法判断,请回答'无法从音频中判断'" |
5.3.4 视频提示的五大核心原则
| 原则 | 说明 |
|---|---|
| 明确视频任务类型 | 内容总结/分镜提取/镜头语言分析/脚本生成 |
| 结构化分段输出 | "请按时间顺序(0:00-0:10...)进行总结" |
| 告诉 AI 要不要分析音频 | "请结合视频画面+旁白内容解释重点" |
| 限制推测 | "请不要推测视频外的内容" |
| 告诉 AI 输出"可编辑内容" | "请将视频转换为可编辑脚本格式" |
5.3.5 语音提示模板
模板 1:音频转写
请将下面的音频内容转写成文字,不要加入任何推测。模板 2:音频总结
请总结这段音频内容。
【格式】
1. 内容概述(30 字以内)
2. 重点观点
3. 行动建议模板 3:情绪分析
请分析这段音频的情绪。
【分析维度】
- 情绪类型
- 情绪强度
- 语气变化模板 4:会议音频总结
请总结以下会议音频。
【格式】
- 主题
- 参与人
- 决策点
- TODO 列表5.3.6 视频提示模板
模板 1:视频总结
请总结此视频内容,分为:
1. 主要内容
2. 关键画面
3. 核心观点
4. 适合转成短视频的要点模板 2:时间轴总结
请按 10 秒为一个区间总结视频内容。模板 3:视频脚本提取
请将视频转换成脚本,包括:
- 场景
- 镜头类型
- 画面内容
- 旁白内容模板 4:视频节奏分析
请分析此视频的节奏,包括:
- 情绪变化
- 镜头切换频率
- 叙事节奏模板 5:视频故事线结构化
请分析视频的故事结构,包括:
- 开场
- 冲突
- 高潮
- 结尾5.3.7 常见错误
| 错误 | 问题 | 解决方法 |
|---|---|---|
| 一句话提示 | 结果不稳定 | 使用完整结构模板 |
| 不告诉 AI 分析音频还是视频 | AI 只描述画面 | 明确"结合画面+旁白" |
| 没有结构化输出 | 内容杂乱无章 | 给出明确输出格式 |
| 让 AI 推测视频外信息 | 诱发幻觉 | 加入限制项 |
本节小结
关键要点
- AI 的语音与视频理解能力已经很强
- 小白必须用"结构化+限制"的提示才能稳定结果
- 语音任务:先决定"识别/理解/情绪分析"
- 视频任务:视觉+音频+时序,必须告诉 AI 如何分析
- 模板是新手快速掌握语音/视频任务的捷径
语音与视频提示是多模态的重要组成,接下来我们将学习:多模态组合提示。


