字节跳动正式进军AI视频生成赛道

2024年9月26日 09:50

ꄘ浏览量：0

在AI视频生成领域，字节跳动近日连续推出两款重磅模型——Loopy视频生成模型和豆包视频生成模型，以其独特的技术特点和创新应用，引领着行业发展的新浪潮。

首先亮相的Loopy视频生成模型，以其强大的音频驱动能力吸引了业界的广泛关注。该模型能够将静态照片转化为动态视频，让照片中的人物仿佛拥有了生命。其技术特点主要体现在以下几个方面：

1. 音频驱动：Loopy可将任何音频文件转化为视频中人物的面部动作和表情，实现音频与视频的完美同步。

2. 面部动作生成：模型能够细致捕捉嘴型、眉毛、眼睛等面部部位的自然动作，使生成的视频更加生动逼真。

3. 无需额外条件：Loopy在生成视频时无需额外的空间信号或条件，独立完成视频创作过程。

4. 长期运动信息捕捉：能够处理长期运动信息，确保生成的视频动作自然流畅。

5. 多样化的输出：根据音频特性生成相应的面部表情和头部动作，满足不同创意表达的需求。

而紧随其后发布的豆包视频生成模型，则在复杂交互画面处理和多镜头内容一致性方面取得了显著突破。该模型基于DiT架构，通过高效的DiT融合计算单元，实现了大动态与运镜的自由切换。其技术特点包括：

1. 自然连贯的多拍动作与多主体复杂交互：豆包能够生成连贯且真实的人物表演视频，让不同人物完成多个动作指令的互动。

2. 多镜头组合视频：通过全新设计的扩散模型训练方法，攻克了多镜头切换的一致性难题，保持主体、风格、氛围的一致性。

3. 极致的运镜控制：实现了前后景变焦、摇摄、目标跟随等复杂的运镜能力，大大提升了AI视频的运镜控制效果。

此外，豆包视频生成模型还具备专业级光影布局和色彩调和能力，画面视觉极具美感和真实感。其深度优化的Transformer结构，则大幅提升了泛化能力，支持多种风格和设备比例的适配。

值得一提的是，字节跳动的这两款AI视频生成模型不仅技术先进，更在应用场景上展现了广泛的潜力。从社交媒体到电影制作，从游戏开发到教育和培训，Loopy和豆包都将为创作者提供更多灵感和创作空间。

我们的服务

服务保障

7*24小时在线服务

一站式流程化服务,专属微信群

便捷的管理平台

随时随地查看计算,管理与监控

便捷的管理平台

快捷专线多网多线路优化网络

友情连接

北京总部

北京市朝阳区广通产业园10号楼6层北京市朝阳区广通产业园10号楼6层605室605室

18301007135 tangyahua@iccsc.cn

智算云公众微信