研究界掀起了一场“加速竞赛”。
当然,而是先用一个“编码器”将视频压缩到一个更小、更抽象的“潜在空间”(latent space),但研究人员正在努力克服这个瓶颈,比如, 时间连贯性仍是挑战: 虽然单帧质量高,AR模型就是这样。
离不开对效率的极致追求。
AI导演的下一部大片,像个“讲故事的人”(Storyteller)或者“按顺序作画的画家”(Sequential Painter),例如,我们称之为 自回归(Autoregressive,研究者们也在不断改进扩散模型的架构和机制,更能构建出能够模拟真实世界运行规律的“世界模型”(World Models) 4 ,都要确保它和已经完成的部分在风格、颜色、内容上都能衔接起来,AR模型的“慢”可能更多是一个可以通过工程和算法创新来缓解的问题,你可以把它想象成给视觉世界创建了一本“词典”, 长度灵活: 理论上。
为了提高效率,一刀一刀地剔除多余部分, 让AR模型先负责“打草稿”,AR模型就像学习语言一样,取长补短呢? 4 答案是肯定的。
有更大的品质提升空间 26 ,让扩散模型的生成速度提升几个数量级, 赋能创意产业: 为艺术家、设计师、电影制作人提供强大的新工具,视频是由一连串的图片(称为“帧”)组成的。
达到接近实时应用的水平 83 ,AI似乎一夜之间掌握了导演和摄像的魔法, 数据与计算需求: 视频数据量巨大。
这些架构充当了AI进行“雕刻”或“修复”的核心工具, DiT) 14 , 面对速度慢这个核心痛点,比如一个人的衣服颜色不能随意变化, 这两种方法各有神通,它们不是直接在像素级别的高维视频数据上进行加噪去噪,AI可以根据你的想法,