当前位置:首页>学术动态

【喜讯】网络与媒体实验室高水平论文被计算机视觉领域顶级会议IJCAI 2025录用

编辑:netmedia 发布时间:2025-07-08 访问次数:103

  近日,由鲁东明老师指导的2023级直博生苏彤彤同学一篇题为AdaptEdit: An Adaptive Correspondence Guidance Framework for Reference-Based Video Editing 的论文被IJCAI 2025(AI, Arts & Creativity track)录用。IJCAI(International Joint Conference on Artificial Intelligence 国际人工智能联合会议)被中国计算机学会(CCF)推荐为A类会议。


image.png


论文简介

image.png

图 1:我们的方法关注基于参考图像的视频外观编辑任务,通过使用任意工具编辑第一帧的外观作为参考图片,一致性地迁移到后续帧中。



     在众多视频编辑类型中,外观编辑是一类尤为重要的编辑任务。这类编辑的特点是保持原视频中物体的动作、形状和布局等基本要素不变,仅对外观属性(如颜色、材质、风格等)进行调整。这种编辑类型因其实用性,成为最接近实际应用场景的一类操作。例如,可以通过外观编辑实现风格化渲染、局部色彩校正或材质替换。


     先前视频编辑的方案,大多利用预训练的文本到图像(Text-to-Image, T2I)模型来完成这一任务,依赖文本输入作为编辑的引导信号。尽管这种方法在一定程度上能够满足用户需求,但其局限性如下。首先,文本表达本身具有一定的模糊性,用户可能难以用精确的语言描述复杂的视觉效果。其次,这种基于文本的引导方式往往难以实现对编辑过程的细粒度控制,尤其是在需要对局部细节进行精准调整时(例如希望将一辆汽车的车门,车身分别为不同的颜色),模型的表现可能不尽如人意。这个需求可以通过专业的美术处理流程,例如PhotoShop,ComfyUI掩码重绘等方式进行实现。因此,我们考虑将整个视频的编辑过程分解为两个步骤:(1) 编辑单张图像作为参考;(2) 基于参考图像的引导完成整个视频的编辑。其中的关键挑战在于第二步:如何确保编辑后视频帧之间的一致性,以及如何确保参考帧的引导保真度。


     基于参考图像引导的视频编辑有三类方案。第一类方案使用图生视频(Image-to-Video, I2V)模型,例如 I2VGen-XL,SVD,并使用参考图像作为引导信号。然而,由于这些 I2V 模型生成能力的局限性,编辑后视频的长度和运动范围受到了严格限制,同时还会出现随着帧数推移画面质量明显下降的问题。第二类和第三类方案考虑利用原视频中的帧间一致性来约束参考图像向后传播的一致性,其中第二类方案通过估计原视频中的光流来将参考帧中的像素或图像特征传播到后续帧中。然而,这些方法的性能取决于光流估计到准确度。光流估计通常是在特定类型视频中的刚体运动上训练的。因此,当处理视频中的形状变形、视角变化或光照变化时,其迁移的准确度会显著下降。


     第三类方法将基于参考图像引导的视频编辑任务转化为一个更通用的外观迁移任务,旨在保持当前帧(目标图像)的结构,将参考图像的外观特征传播到具备帧间一致性的视频帧中。相较于使用具有局限性的光流估计,近期方法有将这一任务与扩散模型中的自注意力联系起来,利用生成模型的强泛化性来实现Zero-shot的能力。单张图片DDIM Inversion过程中的自注意力可以建模内部相似性,而当给定两张图像,扩展自注意力到跨图像注意力(Cross-image-Attention,CiA)是一种常见的图像间特征迁移方法,常应用于风格迁移任务。然而,原始的 CiA 只能捕捉粗粒度的对应关系,因为目标图像的query与参考图像中的多个key存在相似性,匹配值的加权平均会导致细粒度细节的丢失,从而限制了处理细粒度外观迁移的能力,导致外观泄露的问题。对CiA使用简单的增大对比度的方式会破坏注意力权重的分布,从而影响当前帧的结构重建。一些研究发现,特定时间步和 U-Net层中的扩散特征(DIffuion FeaTure,DIFT)做相似度计算可以准确建模语义对应关系(correspondence)。然而,基于最高相似性进行像素级别的交换,而未引入生成过程,会导致明显的块状分割伪影。


image.png

图2:不同k的选择对外观迁移结果的影响。当k=1时,对注意力图的干预过大,导致模糊和色彩偏移问题;当k逐渐增大,原始CiA导致的内容图片的外观泄露问题越发明显


     我们考虑使用DIFT来引导跨图像注意力CiA:既引入生成模型来保证输出在图像域内,又引入DIFT来保证细粒度的特征匹配和迁移。引导可以分为不同的强度。第一类引导直接根据匹配进行query的替换:将参考帧图片的query根据最大相似的匹配填充到当前帧的对应位置,与参考帧图片的key和value进行去噪网络的注意力计算。然而这种方法缺乏鲁棒性,对匹配的精确度要求很高,容易遇到和像素级别最大匹配类似的问题。第二类引导为将DIFT以掩码的形式引入注意力图中:将top-k匹配在注意力图中对应的位置加上权重。k的选择需要进行选择:当k太大,对于CiA的引导强度不够,会依然出现外观泄露的问题;当k太小,对原始注意力图的干扰过多,导致模糊以及value增幅引起的颜色过饱和问题。



image.png

图3: 实验结果显示,原始的CiA会出现外观泄露的情况,简单的对k拉高对比度(beta=1.67)会大幅度破坏车原始的结构。在正确选择k的情况下,我们的方法可以在防止外观泄露的前提下,保证画质的稳定。


image.png

图4:AdaptEdit方法图。左:使用DIFT引导参考图片和内容图片的跨图注意力,进行细粒度的外观匹配和迁移;右:代理任务用于为图片各区域分配最佳的k作为引导强度


  在一些情况下,对于整张图片来说,我们很难找到一个全局最优的k。本论文通过设置一个代理任务来自适应的根据当前图片的特性,为不同区域分配不同的k,实现自适应的DIFT引导(Adaptive Correspondence Guidance)。代理任务需要和最终的外观编辑类型保证一定的相关性,且具备确定性的映射用于构造Ground Truth。对于颜色编辑任务,其对应的确定性的代理任务可以是HSV色彩空间变换。我们遍历一定范围内的k值,得到一系列代理任务的生成结果,在不同区域通过和Ground Truth对比,来选择最佳的k。


image.png

图5:我们通过设置代理任务,在全图中各区域自适应的搜索k作为约束参数,达到最佳的外观迁移效果


     未来,对于颜色迁移之外的外观迁移类型,难以在每一帧中都能构造对应的代理任务。我们只有第一帧的参考图片作为Ground Truth;第一帧使用AdaptEdit迁移作为待优化的图片。如何充分利用这一对图像作为训练对,泛化到后续帧AdaptEdit迁移结果的优化(修复未知组合的退化,包括模糊和色彩偏移),是下一阶段的研究目标。


作者简介

image.png

苏彤彤,2023级博士生,指导老师:鲁东明、许端清。主要研究方向:扩散生成模型,图像/视频编辑。


image.png


鲁东明,博士,浙江大学计算机科学与技术学院教授,主要研究方向:虚拟现实、计算机视觉、无线传感器网络技术、大数据人工智能等。



版权所有:浙江大学网络与媒体实验室   电话 (+86)571-87951388  传真 (+86)571-89751105

您是第4863444位访问者 | 寸草心科技 管理登录 旧版入口