kdenlive 制作切片

梳理用 Kdenlive、Whisper、Demucs 制作剪辑与字幕步骤。

September 16, 2025 · wang1zhen

Table of Contents

工具与素材准备
人声与伴奏分离
自动字幕生成（Whisper medium）
字幕美化
时间轴混音（Kdenlive）
导入字幕
导出成品

工具与素材准备

剪辑：Kdenlive
字幕生成：Whisper（medium 模型）
字幕美化：Aegisub
AI 分离：Demucs（–two-stems=vocals）

音频统一规格：48 kHz，双声道，WAV。

# 从录播提取音频
ffmpeg -i record.mp4 -vn -ac 2 -ar 48000 record.wav

人声与伴奏分离

使用 Demucs two-stems：

demucs --two-stems=vocals record.wav

输出目录：./separated/htdemucs/record/

vocals.wav → 人声轨
no_vocals.wav → 伴奏轨

自动字幕生成（Whisper medium）

仅对人声生成字幕：

whisper vocals.wav --model medium --language ja --task transcribe --output_format srt

vocals.wav → 输入音频文件（人声轨）
–model medium
–language ja → 指定语言（日语，中文 zh，英文 en）
–task transcribe → 转写模式（保持原语言）
–output_format srt → 输出带时间戳的 .srt

输出：vocals.srt

字幕美化

在 Aegisub 打开 vocals.srt。
创建样式：

Style: SongStyle,Noto Sans CJK JP,48,&H00FFFFFF,&H000000FF,&H00FACE87,&H64000000,0,0,0,0,100,100,0,0,1,3,1,2,10,10,30,1

白字 &H00FFFFFF
浅蓝描边 &H00FACE87
Outline=3，Shadow=1
Alignment=2（底部居中）
应用样式到全部字幕行。
导出 .ass 文件。

时间轴混音（Kdenlive）

轨道布局：

A1：人声 (vocals.wav)
A2：伴奏 (no_vocals.wav)

混音规则：

唱歌时：A1 + A2（A2 音量比 A1 低 3–6 dB）
聊天时：A2 保留，A1 静音

静音方法：

在需要静音的片段，选中 A1 → Timeline → Add effect → Volume and Dynamics → Mute。

导入字幕

在 Kdenlive 添加字幕轨。
导入 .ass 文件。
确认预览，导出时会用 libass 渲染特效。

导出成品

在 Kdenlive 渲染时，选择内嵌字幕（硬字幕）。
导出设置：
- 视频：H.264，保持原分辨率和帧率
- 音频：AAC 320 kbps

欢迎来到评论区

感谢您的耐心阅读！来选个表情，或者留个评论吧！