【喜讯】网络与媒体实验室高水平论文被数据挖掘领域顶级会议KDD 2024录用
近日,由网络与媒体实验室董亚波副教授和许端清教授指导的2023级硕博连读生(2021级硕,2023级博)张君如同学,一篇名为“Diverse Intra- and Inter-Domain Activity Style Fusion for Cross-Person Generalizationin Activity Recognition”的论文被国际数据挖掘领域顶级会议KDD 2024 Research Track(会议主议程)录用。
会议简介
ACM SIGKDD(ACM SIGKDD CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING国际数据挖掘与知识发现大会,简称“KDD”)是世界数据挖掘领域最高级别的学术会议,由ACM数据挖掘及知识发现专委会(SIGKDD)主办(CCF A类),在全球范围内享有盛誉,会议录取率平均低于20%。
论文简介
研究背景:
随着可穿戴设备的普及和计算能力的提升,人类活动识别(HAR)已成为一个备受关注的领域。通过智能手机、智能手表等设备收集的时间序列数据,HAR 能够为健康监测、行为分析等领域提供重要支持。尽管深度学习(DL)模型在HAR任务中展现出卓越的性能,但如何在不同个体间实现稳定泛化,仍是一个重大挑战。
具体来说,在实际应用中,由于年龄、性别、健康状况等多种因素的影响,不同个体在进行相同活动时可能会表现出显著的数据分布差异。这种差异使得传统的基于独立同分布(i.i.d.)假设的深度学习模型在跨个体泛化时表现不佳。因此,如何克服个体间的活动风格差异,提高模型的泛化能力,成为了HAR领域亟待解决的问题。为此,域泛化(DG)技术应运而生,它试图通过提取跨不同个体(即不同域)的鲁棒特征,以增强模型在未知目标域上的适应能力。
现有DG方法的缺陷以及我们方法的改进
然而,现有的域泛化方法在实际应用中面临诸多挑战。一方面,由于HAR任务中训练数据的多样性通常有限,模型可能无法学习到足够的跨域特征;另一方面,传统的数据增强方法主要关注于域内多样性的增强,而无法有效解决域间可变性问题。
研究内容和结果:
针对HAR领域中域多样性有限的问题,我们提出了一种名为DI2SDiff的先进时序数据生成方法,其核心目标在于生成高度多样化的数据分布。该方法的核心思想被命名为“域填充”,旨在通过合成数据来填补源域内以及源域之间的分布空白,同时确保类标签的鲁棒性。
DI2SDiff框架图
在DI2SDiff的实现过程中,我们采用了条件扩散概率模型,以有效实现“域填充”的概念。首先,我们设计了一个对比学习管道,用于从源域数据中提取活动风格表征,这些表征不仅捕捉了数据的独特风格,还保持了其在分类任务中的鲁棒性。随后,我们提出了一种新的风格融合采样策略。该策略允许我们在同一类别中随机组合一种或多种风格表示,进而利用这些组合的风格作为指导,驱动扩散模型生成融合多种风格特征的新颖活动样本。
这种方法的随机组合特性不仅确保了域内数据的多样性,而且扩展到了跨域的数据合成,从而实现了真正意义上的“域填充”。此外,我们为DI2SDiff提供了坚实的经验证据和深入的理论分析,进一步验证了其有效性和可靠性。
DI2SDiff生成的多样化样本有效的填充了域空白
通过这一创新方法,我们成功解决了HAR任务中数据多样性受限的难题,并为其他类似领域提供了宝贵的参考和启示。最终,DI2SDiff通过生成高度多样化的数据分布,显著提升了深度学习模型在跨个体泛化方面的性能,有力地推动了HAR技术的进一步发展和应用。
作者简介
张君如,2021级博士生,指导老师:董亚波、许端清。主要研究方向:传感器时序数据挖掘和分析,包括自监督学习、迁移学习和强化学习等。
董亚波,浙江大学计算机科学与技术学院副教授,人工智能所副所长。主要研究方向:物联网技术、文物保护技术、传感器数据挖掘及处理等。
许端清,浙江大学计算机科学与技术学院教授,主要研究方向:人工智能、深度学习、图像智能处理等。