Step-Video-T2V是由 阶跃星辰 与 吉利汽车集团 联合开源的一款先进文本生成视频(Text-to-Video)模型。这款模型在 2025 年 2 月 18 日正式发布,具备强大的多模态生成能力,支持中文和英文输入,适用于广告、影视制作、教育等多个场景。
其主要特点功能:
- 强大的模型参数:拥有 300 亿参数,能够生成最长 204 帧的视频,支持高分辨率和流畅的动态效果。
- 高效压缩技术:采用深度压缩变分自编码器(Video-VAE),实现 16×16 空间压缩和 8x 时间压缩,同时保持视频的高质量。
- 双语支持:内置双语文本编码器,支持中文和英文输入,适应多语言用户需求。
- 视觉质量优化:通过视频偏好优化(Video-DPO)技术,减少视频中的伪影,提升视觉效果,使生成的视频更加真实和自然。
- 多场景适用:在运动、风景、动物、节日、3D 动画等多个类别中表现出色,适用于创意内容制作、广告、教育等领域。
Step-Video-T2V 是一款开源模型,用户可以通过其 GitHub 仓库获取代码和模型权重,方便开发者进行二次开发和应用。
Step-Video-T2V:一款开源的多模态文本生成视频模型
数据统计
相关导航
没有相关内容!
暂无评论...