浙江大学网络与媒体实验室

【喜讯】网络与媒体实验室高水平论文被数据挖掘领域顶级会议KDD 2024录用

编辑：netmedia 发布时间：2024-07-15 访问次数：5770

近日，由网络与媒体实验室董亚波副教授和许端清教授指导的2023级硕博连读生（2021级硕，2023级博）张君如同学，一篇名为“Diverse Intra- and Inter-Domain Activity Style Fusion for Cross-Person Generalizationin Activity Recognition”的论文被国际数据挖掘领域顶级会议KDD 2024 Research Track（会议主议程）录用。

会议简介

ACM SIGKDD（ACM SIGKDD CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING国际数据挖掘与知识发现大会，简称“KDD”）是世界数据挖掘领域最高级别的学术会议，由ACM数据挖掘及知识发现专委会（SIGKDD）主办（CCF A类），在全球范围内享有盛誉，会议录取率平均低于20%。

论文简介

研究背景：

随着可穿戴设备的普及和计算能力的提升，人类活动识别（HAR）已成为一个备受关注的领域。通过智能手机、智能手表等设备收集的时间序列数据，HAR 能够为健康监测、行为分析等领域提供重要支持。尽管深度学习（DL）模型在HAR任务中展现出卓越的性能，但如何在不同个体间实现稳定泛化，仍是一个重大挑战。

具体来说，在实际应用中，由于年龄、性别、健康状况等多种因素的影响，不同个体在进行相同活动时可能会表现出显著的数据分布差异。这种差异使得传统的基于独立同分布（i.i.d.）假设的深度学习模型在跨个体泛化时表现不佳。因此，如何克服个体间的活动风格差异，提高模型的泛化能力，成为了HAR领域亟待解决的问题。为此，域泛化（DG）技术应运而生，它试图通过提取跨不同个体（即不同域）的鲁棒特征，以增强模型在未知目标域上的适应能力。

现有DG方法的缺陷以及我们方法的改进

然而，现有的域泛化方法在实际应用中面临诸多挑战。一方面，由于HAR任务中训练数据的多样性通常有限，模型可能无法学习到足够的跨域特征；另一方面，传统的数据增强方法主要关注于域内多样性的增强，而无法有效解决域间可变性问题。

研究内容和结果：

针对HAR领域中域多样性有限的问题，我们提出了一种名为DI2SDiff的先进时序数据生成方法，其核心目标在于生成高度多样化的数据分布。该方法的核心思想被命名为“域填充”，旨在通过合成数据来填补源域内以及源域之间的分布空白，同时确保类标签的鲁棒性。

DI2SDiff框架图

在DI2SDiff的实现过程中，我们采用了条件扩散概率模型，以有效实现“域填充”的概念。首先，我们设计了一个对比学习管道，用于从源域数据中提取活动风格表征，这些表征不仅捕捉了数据的独特风格，还保持了其在分类任务中的鲁棒性。随后，我们提出了一种新的风格融合采样策略。该策略允许我们在同一类别中随机组合一种或多种风格表示，进而利用这些组合的风格作为指导，驱动扩散模型生成融合多种风格特征的新颖活动样本。

这种方法的随机组合特性不仅确保了域内数据的多样性，而且扩展到了跨域的数据合成，从而实现了真正意义上的“域填充”。此外，我们为DI2SDiff提供了坚实的经验证据和深入的理论分析，进一步验证了其有效性和可靠性。

DI2SDiff生成的多样化样本有效的填充了域空白

通过这一创新方法，我们成功解决了HAR任务中数据多样性受限的难题，并为其他类似领域提供了宝贵的参考和启示。最终，DI2SDiff通过生成高度多样化的数据分布，显著提升了深度学习模型在跨个体泛化方面的性能，有力地推动了HAR技术的进一步发展和应用。

作者简介

张君如，2021级博士生，指导老师：董亚波、许端清。主要研究方向：传感器时序数据挖掘和分析，包括自监督学习、迁移学习和强化学习等。

董亚波，浙江大学计算机科学与技术学院副教授，人工智能所副所长。主要研究方向：物联网技术、文物保护技术、传感器数据挖掘及处理等。

许端清，浙江大学计算机科学与技术学院教授，主要研究方向：人工智能、深度学习、图像智能处理等。