首页介绍第二版    字节跳动正式进军AI视频生成赛道

字节跳动正式进军AI视频生成赛道

2024年9月26日 09:50
浏览量:0
收藏
在AI视频生成领域,字节跳动近日连续推出两款重磅模型——Loopy视频生成模型和豆包视频生成模型,以其独特的技术特点和创新应用,引领着行业发展的新浪潮。
首先亮相的Loopy视频生成模型,以其强大的音频驱动能力吸引了业界的广泛关注。该模型能够将静态照片转化为动态视频,让照片中的人物仿佛拥有了生命。其技术特点主要体现在以下几个方面:

1. 音频驱动:Loopy可将任何音频文件转化为视频中人物的面部动作和表情,实现音频与视频的完美同步。

2. 面部动作生成:模型能够细致捕捉嘴型、眉毛、眼睛等面部部位的自然动作,使生成的视频更加生动逼真。

3. 无需额外条件:Loopy在生成视频时无需额外的空间信号或条件,独立完成视频创作过程。

4. 长期运动信息捕捉:能够处理长期运动信息,确保生成的视频动作自然流畅。

5. 多样化的输出:根据音频特性生成相应的面部表情和头部动作,满足不同创意表达的需求。

而紧随其后发布的豆包视频生成模型,则在复杂交互画面处理和多镜头内容一致性方面取得了显著突破。该模型基于DiT架构,通过高效的DiT融合计算单元,实现了大动态与运镜的自由切换。其技术特点包括:

1. 自然连贯的多拍动作与多主体复杂交互:豆包能够生成连贯且真实的人物表演视频,让不同人物完成多个动作指令的互动。

2. 多镜头组合视频:通过全新设计的扩散模型训练方法,攻克了多镜头切换的一致性难题,保持主体、风格、氛围的一致性。

3. 极致的运镜控制:实现了前后景变焦、摇摄、目标跟随等复杂的运镜能力,大大提升了AI视频的运镜控制效果。

此外,豆包视频生成模型还具备专业级光影布局和色彩调和能力,画面视觉极具美感和真实感。其深度优化的Transformer结构,则大幅提升了泛化能力,支持多种风格和设备比例的适配。

值得一提的是,字节跳动的这两款AI视频生成模型不仅技术先进,更在应用场景上展现了广泛的潜力。从社交媒体到电影制作,从游戏开发到教育和培训,Loopy和豆包都将为创作者提供更多灵感和创作空间。