首页 > 技术

视频生成跨越式突破,智象未来(HiDream.ai)智象大模型2.0迈入分钟级行列

2024-08-12 12:55:08      西盟科技资讯   


  近日,智象未来(HiDream.ai)智象大模型2.0在文生视频领域取得了重大突破,将视频生成时长从去年的15秒提升至分钟级别,这是继去年12月打破4秒时长限制后的又一技术飞跃。

  智象未来(HiDream.ai)智象大模型2.0的文生视频功能在时长、画面自然度、内容和角色一致性方面均有显著提升,这得益于其自研的DiT架构。与传统U-Net架构相比,DiT架构具有更高的灵活度,能够有效提升图像和视频的生成质量。众所周知,DiT 架构的基础实现依赖于 Transformer 技术。为了进一步提升这一技术的性能,智象未来(HiDream.ai)智象大模型 2.0 对整个Transformer网络结构、训练数据的构成和训练策略上采用完全自研的模块,特别是在训练策略方面进行了深度研究和改进。

  该模型采用了高效的时空联合注意力机制,不仅适应了视频的空间域和时间域特征,还解决了传统注意力机制在训练过程中的速度问题。为了支持更长视频片段的训练,智象未来(HiDream.ai)智象大模型2.0能够处理几分钟甚至十几分钟的视频片段,使得直接输出分钟级时长的视频成为可能。同时,智象未来(HiDream.ai)还自研了视频描述生成的Captioning Model,实现了对视频内容的详细且精准描述。

  在训练策略上,智象未来(HiDream.ai)智象大模型2.0利用不同长度的视频片段进行视频和图片数据的联合训练,并动态调整不同长度视频的采样率,以完成长镜头训练。此外,模型还根据用户反馈数据进行强化学习,进一步优化性能。

  从原来的15秒左右延长至分钟级别,智象未来(HiDream.ai)的智象大模型2.0现已实现视频生成时长的显著提升,达到了行业领先水平。除了视频时长进入分钟级别这一重大进步外,此次升级的另一个亮点是视频时长和尺寸的可变性。以往的视频生成模型通常是预设固定时长,用户无法进行选择。而智象未来(HiDream.ai)则将选择权交给了用户,用户既可以直接指定视频时长,也可以根据输入的Prompt内容,让系统动态判断。内容复杂时,系统会生成较长视频;内容简单时,则生成较短视频,以这种动态调整的方式,自适应地满足用户的创作需求。同时,视频的尺寸也可根据用户需求进行定制,这一灵活的设计大幅提升了用户体验。

  值得一提的是,智象未来(HiDream.ai)的智象大模型2.0在视频画面观感上也有了显著的提升,物体动作表现得更加自然流畅,细节渲染更为精细,并且支持了4K超清画质。随着这次技术升级,智象未来(HiDream.ai)智象大模型2.0正朝着生成更高质量的多镜头视频方向快速发展,并向L3阶段加速前进。据了解,升级后的文生视频功能即将投入使用,届时用户将能够体验到更加丰富和高质量的视频生成服务。

  业内人士表示,随着智象未来(HiDream.ai)智象大模型2.0的不断完善和升级,其有望为视频内容创作领域带来更多革命性的变化,助力广大用户轻松实现创意变现,推动整个行业迈向更加广阔的发展空间。

相关阅读