来自英伟达、斯坦福、UCSD、UC伯克利以及UT Austin研究团队,通过Test-Time Training构建了一个「一分钟视频」生成器。只需在预训练Transformer中嵌入TTT层 ,仅5B参数模型可理解复杂提示,生成长达1分钟视频。
这项研究的亮点在于其生成过程的“一次性”特性。据悉,每段视频均由模型直接生成,无需任何后期剪辑、拼接或人工修饰,所有的故事情节也均为全新创作。研究团队通过在现有Transformer架构中添加TTT层,并对其进行精细调整,使模型能够在长达一分钟的视频中保持强劲的时间一致性。这意味着,无论是汤姆猫的追逐动作,还是杰瑞鼠的机智反应,画面中的角色和场景都能无缝衔接,呈现出接近传统动画的流畅体验。
技术分析显示,TTT层的引入是此次突破的关键。传统Transformer模型在处理长序列数据时,往往因自注意力机制的效率瓶颈而难以生成长时间视频。而TTT层通过在测试阶段动态优化模型的隐藏状态,显著增强了其对复杂多场景故事的表达能力。以《猫和老鼠》动画为测试数据集,该模型生成的视频不仅在动作平滑度和角色一致性上表现优异,还能根据文本脚本自动创作全新的幽默情节,展现了AI在叙事生成上的巨大潜力。