Etna 是七火山科技推出的一个
文生视频的
AIGC 模型,它能够依据简短的文本描述生成对应的视频内容,为视频创作领域带来了新的解决方案。
- 先进的架构设计
- 采用 DiT 架构,加入时空卷积和注意力层,使得模型拥有一定的时空理解能力,能够处理视频数据,考虑图像序列中的时间连续性,进而生成具有时间维度的视频内容。
- 目前主干网络采用 Diffusion 架构,同时正在一个更大的数据集上实验和适配与 Sora 相似的 Diffusion + Transform 架构,不断探索更优的技术方案。
- 卓越的性能表现
- 时长合适:生成的视频时长在 8 – 15 秒之间,能满足多种场景下的视频内容需求。
- 高分辨率:最高支持 3840 * 2160 的 4K 分辨率,画面细腻逼真,为用户呈现高质量的视觉体验。
- 流畅帧率:以 60fps 的帧率呈现视频,经过超 20 亿参数训练,保证视频流畅自然。
Etna 模型在语言模型和图像模型中插入时空卷积和注意力层,以此来处理视频数据,使其具备时空理解能力,从而能够理解并生成具有时间维度的视频内容。
Etna 模型在一个大型视频数据集上进行充分训练,训练过程采用先进的 deep – learning 技术策略,包含 LDS 大规模训练、复杂 HPO 超参数优化和 DPO 微调,确保了模型的强大性能和生成能力。
- 在页面显著位置设置 “了解更多” 按钮,引导用户深入了解 Etna 模型的详细信息和技术细节。
- 提供 “联系我们” 按钮,方便有合作意向或咨询需求的用户与七火山科技取得联系。