5.3 语音与视频提示基础

引言：语音与视频时代到来了

随着 GPT-4o、Gemini 2.0、Whisper、Runway 等技术的发展，AI 不再只理解"文字与图片"，而是能听懂语音、分析音频情绪、识别视频动作场景、提取视频脚本分镜。

提示词工程正式从"文本与图像"进入"音频与视频"的时代。

5.3.1 AI 如何"理解"音频

步骤	说明
语音转文本（ASR）	提取字词、句子
音频内容理解	分析说话者、语气、情绪、背景声音
结构化输出	总结、提炼、分类、转成脚本

你的提示词必须告诉 AI：要不要识别文字？要不要分析情绪？要不要忽略噪声？

5.3.2 AI 如何"理解"视频

步骤	说明
逐帧视觉理解	识别人物、物体、动作、场景
时序分析	分析动作随时间变化、顺序、关键动作
音频+视觉合并	结合画面、字幕、对话、音乐情绪
结构化总结	输出分镜、脚本、节奏、风格、故事线

5.3.3 语音提示的四大核心原则

原则	说明	示例
告诉 AI 要"识别"还是"理解"	明确任务类型	"请提取音频文字内容" vs "请分析说话者情绪"
指定忽略项	音频中常有噪声	"请忽略背景噪声、口头禅、重复词语"
输出结构必须明确	避免混乱输出	"请按：内容总结/情绪分析/说话方式输出"
避免幻觉	不要让 AI 猜	"若无法判断，请回答'无法从音频中判断'"

5.3.4 视频提示的五大核心原则

原则	说明
明确视频任务类型	内容总结/分镜提取/镜头语言分析/脚本生成
结构化分段输出	"请按时间顺序（0:00-0:10...）进行总结"
告诉 AI 要不要分析音频	"请结合视频画面+旁白内容解释重点"
限制推测	"请不要推测视频外的内容"
告诉 AI 输出"可编辑内容"	"请将视频转换为可编辑脚本格式"

5.3.5 语音提示模板

模板 1：音频转写

请将下面的音频内容转写成文字，不要加入任何推测。

模板 2：音频总结

请总结这段音频内容。

【格式】
1. 内容概述（30 字以内）
2. 重点观点
3. 行动建议

模板 3：情绪分析

请分析这段音频的情绪。

【分析维度】
- 情绪类型
- 情绪强度
- 语气变化

模板 4：会议音频总结

请总结以下会议音频。

【格式】
- 主题
- 参与人
- 决策点
- TODO 列表

5.3.6 视频提示模板

模板 1：视频总结

请总结此视频内容，分为：
1. 主要内容
2. 关键画面
3. 核心观点
4. 适合转成短视频的要点

模板 2：时间轴总结

请按 10 秒为一个区间总结视频内容。

模板 3：视频脚本提取

请将视频转换成脚本，包括：
- 场景
- 镜头类型
- 画面内容
- 旁白内容

模板 4：视频节奏分析

请分析此视频的节奏，包括：
- 情绪变化
- 镜头切换频率
- 叙事节奏

模板 5：视频故事线结构化

请分析视频的故事结构，包括：
- 开场
- 冲突
- 高潮
- 结尾

5.3.7 常见错误

错误	问题	解决方法
一句话提示	结果不稳定	使用完整结构模板
不告诉 AI 分析音频还是视频	AI 只描述画面	明确"结合画面+旁白"
没有结构化输出	内容杂乱无章	给出明确输出格式
让 AI 推测视频外信息	诱发幻觉	加入限制项

本节小结

关键要点

AI 的语音与视频理解能力已经很强
小白必须用"结构化+限制"的提示才能稳定结果
语音任务：先决定"识别/理解/情绪分析"
视频任务：视觉+音频+时序，必须告诉 AI 如何分析
模板是新手快速掌握语音/视频任务的捷径

语音与视频提示是多模态的重要组成，接下来我们将学习：多模态组合提示。

5.3 语音与视频提示基础 ​

引言：语音与视频时代到来了 ​

5.3.1 AI 如何"理解"音频 ​

5.3.2 AI 如何"理解"视频 ​

5.3.3 语音提示的四大核心原则 ​

5.3.4 视频提示的五大核心原则 ​

5.3.5 语音提示模板 ​

模板 1：音频转写 ​

模板 2：音频总结 ​

模板 3：情绪分析 ​

模板 4：会议音频总结 ​

5.3.6 视频提示模板 ​

模板 1：视频总结 ​

模板 2：时间轴总结 ​

模板 3：视频脚本提取 ​

模板 4：视频节奏分析 ​

模板 5：视频故事线结构化 ​

5.3.7 常见错误 ​

本节小结 ​