【喜讯】网络与媒体实验室高水平论文被 KDD 2025录用
近日,由网络与媒体实验室董亚波老师和许端清老师指导的2023级硕博连读生(2021级硕,2023级博)张君如同学一篇题目为Diffusion-Guided Diversity for Single Domain Generalization in Time Series Classification的论文被国际数据挖掘领域顶级会议KDD 2025 Research Track(会议主议程)录用。
ACM SIGKDD(ACM SIGKDD CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING国际数据挖掘与知识发现大会,简称“KDD”)是数据挖掘领域历史最悠久、规模最大、最具影响力的盛会之一,被中国计算机学会(CCF)推荐为A类会议。根据大会通知,KDD 2025 (31st SIGKDD Conference on Knowledge Discovery and Data Mining) 分两轮投稿周期,其中本轮共收稿1988篇,最终录用367篇,总体接受率约18.4%。
论文简介
在现实世界中,时间序列分类广泛应用于人体动作识别、医疗信号分析、智能穿戴设备等场景。然而,模型在实际部署中经常面临“训练数据仅来自单一源域(Single Domain)”的问题,而测试环境却存在大量未知的目标域。由于不同设备、环境、使用人群等差异导致的分布偏移,传统的训练方法往往在实际中效果显著下降。
因此,“如何在只有单一训练域的前提下实现跨域泛化”成为时序分类中的重大挑战。不幸的是,现有多数领域泛化方法依赖多个源域进行分布对齐或多域融合,难以适用于数据资源受限的单源场景。另一些数据增强方法则只在原始域内部引入扰动,难以扩展到模拟跨域多样性的需求。
为了解决这一核心难题,本研究创新性地提出了一个基于扩散生成模型的伪域扩展方法 SEED(Segment-dErived Expansion of Domains),实现了从单一源域中模拟出多个潜在“伪域”,进而提升模型的泛化能力。
本研究提出的 SEED 框架,围绕“从单一源域中实现跨域泛化”这一核心难题,提出三项关键技术创新,有效解决了现有方法在数据多样性和域泛化能力上的瓶颈:
第一,时间协变量偏移建模??从单一域中构造伪域:传统的单源域泛化方法通常忽略了时序数据内部的动态变化特征。 SEED提出利用时间协变量偏移(temporal covariate shift)来建模片段间的分布差异,即观察到即使在相同类别下,序列的不同时间片段也可能展现出显著分布差异。 SEED将完整时间序列划分为片段,并将这些片段视为潜在的“伪域”,为生成更加多样化的训练数据提供基础结构。
第二,片段级分布建模??刻画域内变异性与时间上下文:相比于现有方法仅建模域级或者实例级表示,SEED提出对片段级表示建模,以捕捉时序数据中的时间动态性与时间上下文信息。我们通过两个编码器分支分别学习 segment-specific 表征(编码风格信息)和 segment-invariant 表征(编码类别语义),并通过正交训练策略进行解耦。这种细粒度建模策略增强了伪域构造的表达能力,并提供了生成条件的多样性来源。
第三,提示融合采样机制??结合伪域分布与类别信息的混合生成:为实现高分布多样性的样本生成,SEED 设计了伪域提示,即将segment-specific 表示与segment-invariant 表示相结合,作为条件扩散模型的引导。通过组合不同伪域与类别语义信息,模型能够生成具备多样性和类别可控性的时间序列样本,扩展单一源域多样性。
上述三项创新协同作用,使得 SEED 能够在单一源域的前提下,通过构造和模拟多个潜在伪域。此外,论文还从理论层面对泛化误差界进行了详细推导,证明通过增强源域多样性,可以有效提升模型在目标域的上界表现,为时序数据的单域泛化问题提供了可行的理论依据与方法指导。实验结果也充分验证了该方法在多个标准跨域时序数据集上的领先性能。
作者简介
张君如,2021级博士生,指导老师:许端清、董亚波。主要研究方向:传感器时序数据挖掘和分析,研究内容包括基于大语言模型的时序建模、生成模型以及迁移学习等。
导师简介
许端清,浙江大学计算机科学与技术学院教授,主要研究方向:人工智能、深度学习、图像智能处理等。
董亚波,浙江大学计算机科学与技术学院副教授,主要研究方向:物联网技术、文物保护技术、传感器数据挖掘及处理等。