How to Understand T2V Models?(Open-Sora MAINLY)
Open-Sora 的典型架构组成:
- Text Encoder (CLIP or T5)
- 将文本编码为嵌入向量
- 通常作为 cross-attention 的 key/value 输入
- Latent Space 编码器/解码器
- 使用 VAE 将视频压缩到隐空间
- 减少计算量,提升训练效率
- Video Diffusion Transformer (Video DiT)
- 包含多个 Transformer Block
- 每个 Block 内部包含:
- Spatio-Temporal Attention(空间+时间注意力)
- Cross-Attention(与文本嵌入交互)
- FFN(前馈网络)
- Noise Predictor / Denoiser Head
- 预测噪声残差,用于去噪过程