当前位置:首页>学术动态

【喜讯】网络与媒体实验室高水平论文被计算机视觉领域顶级会议CVPR 2025录用

编辑:netmedia 发布时间:2025-06-24 访问次数:76

  近日,由网络与媒体实验室鲁东明、许端清教授指导的2023级直博生苏彤彤同学一篇名为Encapsulated Composition of Text-to-Image and Text-to-Video Models for High-Quality Video Synthesis论文被计算机视觉领域顶级会议CVPR 2025(会议主议程)录用。


  CVPR(IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION 国际计算机视觉与模式识别会议)是计算机视觉三大顶级会议之一,也是中国计算机学会(CCF)推荐的人工智能领域的A类会议。根据大会通知,CVPR 2025共收稿13,008篇有效论文,其中有2,878篇成功入选,整体录用率为22.1%。

image.png


论文简介

  当下的文生视频(Text-to-Video,T2V)模型一般有两种,一种为选择从预训练文生图(Text-to-Image,T2I)模型初始化共享的空间模块参数,新增的时序模块专注于动作建模;另一种为选择直接在重新设计的模型结构上,从零开始进行在大量图片和视频上的联合训练。不同的训练模式,生成视频的表现重点有所差异:或侧重于成像能力(如画面质量,属性绑定,风格理解),或专注于动作能力(如动作幅度,物理合理性)。


  早期的AnimateDiff,VideoCrafter2等属于第一类模式,由于是从预训练文生图模型初始化,因此很大程度上保留了出色的成像能力。然而,新增的时序模块在学习复杂动作模式方面表现有限,导致生成视频在动作的物理合理性和时序一致性上表现较为一般。


  近一年,以HunyuanVideo,CogVideoX为第二类模式代表的开源生成模型,已经在动作表现力和物理合理性上接近商用级别的效果,这依赖于海量真实世界的视频。但由此带来的结果就是相较文生图模型牺牲了(1)风格理解,例如“梵高风格的柯基在公园奔跑”;(2)不常见场景生成,例如“骑着马的宇航员”,等真实视频数据分布所缺乏的能力。在Appearance Style和Overall Consistency这两个关注风格理解和奇幻场景的维度的文本提示表现上,依然是早期第一类模式的VideoCrater2,在开源模型中位列第一,并超越了绝大多数闭源模型(Appearance Style在全榜单中排名第一)。


image.png

  我们的方法EVS(Encapsulated Video Synthesizer,封装化视频生成器)考虑解耦视频生成的多方面目标,通过引入额外的文本生成图像模型能力,灵活高效地提升生成视频的成像质量,同时充分保留视频的动作表现力与时序一致性。


  动作表现力是视频的核心要素。基于此,我们优先筛选具有优质动作表现力的视频作为原视频,结合其他画质优秀,或擅长风格的文生图模型来进行成像的提升。在逐帧使用文生图模型的过程中,需要同时确保帧间的时序一致性。除了跨帧注意力保证语义层面整体的一致性以外,我们采用视频生成模型的加噪-去噪来引导进行不一致性的修复。


  在这一过程中,视频生成模型的引入会再一次带来成像质量的退化。一个自然的设计思路为交替使用T2I和T2V,关键在于如何设计交替使用的具体实现方式。如果把T2I和T2V当作完整的生成模型,完全去噪得到最终的干净样本再切换到另一个模型的加噪去噪,那么会产生冗余去噪步骤,交替使用会是一个很耗时的流程。如果将 T2I 和 T2V 视为迭代的去噪器,旨在任意时刻将一个模型当前的去噪结果传递给另一个模型,则需要严格对齐两者的噪声调度器。然而,对于任意两个模型而言,这种适配通常难以实现。


image.png

  本论文探索了一套高效结合T2I和T2V模型的高质量视频生成框架,无需适配特定的T2I和T2V,且最大程度地减少冗余的加噪去噪步骤:将T2V模型作为封装的模块,加在T2I去噪的过程中。在这个过程中,除了当前的去噪结果,会同步维护当前预估的最终生成结果:其所属空间对于T2I和T2V模型是共享的(T2V逐帧使用T2I的VAE将视频转化到隐空间),因此可以作为“快捷转换点”支持随时的从一个模型切换到另一个模型。从整体流程是来看,T2V是作为封装的模块插入到T2I的去噪过程中。


  本论文进一步探讨了如何降低 T2I 带来的帧间不一致性,以及T2V 带来的成像质量下降问题。对于前者,可以通过引入研究较为成熟的 T2I 图像编辑方案,结合DDIM反演与部分特征注入的方式,尽量保持编辑后帧与原视频结构的一致性,从而为编辑后的帧间一致性提供保障。而本方案进一步聚焦于后者,探索其优化可能性。


  相较于以往工作基于 I2V 模型研究特征注入如何平衡原视频动作保持,和第一帧图像条件遵循的问题,我们的方案已在所有帧中完成了编辑操作。在此基础上,T2V 模型只需专注于修复帧间不一致性,其难度显著低于将第一帧的内容一致性迁移到后续帧。对于修复不一致性这一目标,可以视作在保留T2I编辑后成像提升的基础上,引入T2V模型的时序一致性先验知识。考虑两个极端情况:加噪-去噪是完全引入T2V的全部先验知识,包括成像和时序,无法解耦地仅进行不一致性的修复而避免成像质量下降;在去噪过程中完整注入DDIM反演过程中的特征会重建原视频中的不一致性。本方案通过混合当前步骤自由去噪和反演过程中的特征,将包含先前成像提升的信息,选择性地保留到生成的修复不一致性后的视频中。


image.png


  除了视频质量提升,我们的框架还可以扩展到视频编辑中。需要在多个阶段调节合适的加噪强度:


image.png


作者简介

  苏彤彤,2023级博士生,指导老师:鲁东明、许端清。主要研究方向:扩散生成模型,图像/视频编辑。

image.png


导师简介

  许端清, 博士,浙江大学计算机科学与技术学院教授,主要研究方向:人工智能、深度学习、图像智能处理等。

image.png


  鲁东明,博士,浙江大学计算机科学与技术学院教授,主要研究方向:虚拟现实、计算机视觉、无线传感器网络技术、大数据人工智能等。

image.png





版权所有:浙江大学网络与媒体实验室   电话 (+86)571-87951388  传真 (+86)571-89751105

您是第4863444位访问者 | 寸草心科技 管理登录 旧版入口