Skip to content

5.3 语音与视频提示基础

引言:语音与视频时代到来了

随着 GPT-4o、Gemini 2.0、Whisper、Runway 等技术的发展,AI 不再只理解"文字与图片",而是能听懂语音、分析音频情绪、识别视频动作场景、提取视频脚本分镜。

提示词工程正式从"文本与图像"进入"音频与视频"的时代。

5.3.1 AI 如何"理解"音频

步骤说明
语音转文本(ASR)提取字词、句子
音频内容理解分析说话者、语气、情绪、背景声音
结构化输出总结、提炼、分类、转成脚本

你的提示词必须告诉 AI:要不要识别文字?要不要分析情绪?要不要忽略噪声?

5.3.2 AI 如何"理解"视频

步骤说明
逐帧视觉理解识别人物、物体、动作、场景
时序分析分析动作随时间变化、顺序、关键动作
音频+视觉合并结合画面、字幕、对话、音乐情绪
结构化总结输出分镜、脚本、节奏、风格、故事线

5.3.3 语音提示的四大核心原则

原则说明示例
告诉 AI 要"识别"还是"理解"明确任务类型"请提取音频文字内容" vs "请分析说话者情绪"
指定忽略项音频中常有噪声"请忽略背景噪声、口头禅、重复词语"
输出结构必须明确避免混乱输出"请按:内容总结/情绪分析/说话方式 输出"
避免幻觉不要让 AI 猜"若无法判断,请回答'无法从音频中判断'"

5.3.4 视频提示的五大核心原则

原则说明
明确视频任务类型内容总结/分镜提取/镜头语言分析/脚本生成
结构化分段输出"请按时间顺序(0:00-0:10...)进行总结"
告诉 AI 要不要分析音频"请结合视频画面+旁白内容解释重点"
限制推测"请不要推测视频外的内容"
告诉 AI 输出"可编辑内容""请将视频转换为可编辑脚本格式"

5.3.5 语音提示模板

模板 1:音频转写

请将下面的音频内容转写成文字,不要加入任何推测。

模板 2:音频总结

请总结这段音频内容。

【格式】
1. 内容概述(30 字以内)
2. 重点观点
3. 行动建议

模板 3:情绪分析

请分析这段音频的情绪。

【分析维度】
- 情绪类型
- 情绪强度
- 语气变化

模板 4:会议音频总结

请总结以下会议音频。

【格式】
- 主题
- 参与人
- 决策点
- TODO 列表

5.3.6 视频提示模板

模板 1:视频总结

请总结此视频内容,分为:
1. 主要内容
2. 关键画面
3. 核心观点
4. 适合转成短视频的要点

模板 2:时间轴总结

请按 10 秒为一个区间总结视频内容。

模板 3:视频脚本提取

请将视频转换成脚本,包括:
- 场景
- 镜头类型
- 画面内容
- 旁白内容

模板 4:视频节奏分析

请分析此视频的节奏,包括:
- 情绪变化
- 镜头切换频率
- 叙事节奏

模板 5:视频故事线结构化

请分析视频的故事结构,包括:
- 开场
- 冲突
- 高潮
- 结尾

5.3.7 常见错误

错误问题解决方法
一句话提示结果不稳定使用完整结构模板
不告诉 AI 分析音频还是视频AI 只描述画面明确"结合画面+旁白"
没有结构化输出内容杂乱无章给出明确输出格式
让 AI 推测视频外信息诱发幻觉加入限制项

本节小结

关键要点

  1. AI 的语音与视频理解能力已经很强
  2. 小白必须用"结构化+限制"的提示才能稳定结果
  3. 语音任务:先决定"识别/理解/情绪分析"
  4. 视频任务:视觉+音频+时序,必须告诉 AI 如何分析
  5. 模板是新手快速掌握语音/视频任务的捷径

语音与视频提示是多模态的重要组成,接下来我们将学习:多模态组合提示