科技之家

科技之家,汇聚专业声音 解析IT潮流

首页 > 创业 >

李飞飞团队推出AI视频生成模型W.A.L.T

来源: 时间:2023-12-13 09:24:57

  AI科学家李飞飞团队近期与谷歌携手推出了一项引人瞩目的视频生成模型——W.A.L.T(Window Attention Latent Transformer)。这一基于Transformer架构的扩散模型在共享潜在空间中训练图像和视频生成,为视频生成领域带来了全新的思路。本文将深入剖析W.A.L.T的关键特点、优势,以及该模型在视频生成领域的意义。

  W.A.L.T模型亮相

  李飞飞,作为世界顶级AI专家之一,与谷歌的合作推出了W.A.L.T,这一视频生成模型采用了先进的Transformer架构,训练图像和视频在共享的潜在空间中生成,展现出与Gen-2、Pika相媲美的效果。

  惊艳案例展示

  W.A.L.T在展示中呈现出逼真的2D/3D视频或动画生成能力,可以根据自然语言或图片提示生成各种引人入胜的场景,例如泰迪熊在时代广场上优雅滑冰、宇航员骑马、巨大龙在雪地喷火等。这些案例引起了评论区的热议,有人惊叹于“好莱坞的末日”和“跨域式的发展”。

  技术论文发布

  相关技术论文已经发布,详细介绍了W.A.L.T的核心技术和决策。这标志着视频生成领域又添一新工具,为AI应用带来更多可能性。

  W.A.L.T的独特之处

  W.A.L.T的研发团队通过两个关键决策实现了卓越的效果。首先,他们使用因果编码器在统一的潜在空间内压缩图像和视频,实现跨模态的训练和生成。其次,为了提高记忆和训练效率,研究者采用了窗口注意力机制,基于Transformer架构,为时空联合生成提供了量身定制的解决方案。

  SOTA成绩

  W.A.L.T在已有视频和图像生成基准测试上取得了最先进的成绩,涵盖了视频生成任务和文本到视频的生成任务。这显示出W.A.L.T在技术水平上的领先地位。

  视频生成领域的新风潮

  W.A.L.T的发布是视频生成领域近期的一大亮点,与Runway Gen-2、Zero Scope等应用齐名。此外,近期涌现的Pika、Animate Anyone、Magic Animate、GAIA等工具也为视频生成领域带来新的活力。这些应用各具特色,为用户提供了更多选择。

  技术创新方向

  视频生成领域的技术创新方向主要集中在Diffusion Model,但各家模型在底层技术上有所不同。例如,W.A.L.T采用了窗口注意力机制,而Pika则开发了许多新颖的技术。各产品因采用不同的底层技术而各有优劣,为该领域的优化迭代提出了挑战。

  视频生成领域的潜力远未被充分开发,大公司和初创团队齐头并进,形成竞争态势。然而,底层模型和技术的不断优化,以及商业化进程的提速,将决定未来该领域的走向。目前,各产品仍在寻找视频生成时长、效果、成本之间的平衡点,领域的研究者正致力于找到最优解。

  视频生成与具身智能的交汇

  值得关注的是,李飞飞的研究领域涵盖计算机视觉、机器学习、深度学习等多个方面。近年来,她的关注点逐渐转向具身智能,即具备自主决策和行动能力的机器人/仿真人。W.A.L.T的推出显示了她在视频生成领域的成果,同时也预示着视频生成与机器人技术的未来结合可能。

  具身智能的前景

  具身智能作为通用AI的高级形态,可能引领一次重大转变,从简单的机器学习能力,转向学习如何执行复杂的类人任务。W.A.L.T的研究方向显示了视频生成与机器人的视觉感知力有着密切的关系,这也为未来的发展留下了令人期待的空间。

  W.A.L.T的发布标志着视频生成领域迎来了一次新的风潮。随着各方势力的加码竞争,视频生成应用的优化迭代速度。

相关文章