学术交流



热烈祝贺山东大学信息检索实验室荣获WSDM 2024最佳论文提名奖

2024年3月14日

国际信息检索与数据挖掘领域顶级会议WSDM (The 17th ACM International Conference on Web Search and Data Mining)于2024年3月4日-3月8日在墨西哥召开,山东大学计算机科学与技术学院信息检索实验室研究成果“Debiasing Sequential Recommenders through Distributionally Robust Optimization over System Exposure”获得了本次会议的最佳论文提名奖。论文第一作者是计算机学院硕士研究生杨纪元,通讯作者是计算机学院助理教授辛鑫,合作者包括马军教授、陈竹敏教授、任昭春教授,任鹏杰研究员,丁玥助理研究员,蔡飞副教授以及张瑞研究员,这是山东大学信息检索团队在近期获得另一国际顶级会议EMNLP 2023杰出论文奖之后的又一突出工作。

图 最佳论文提名奖获奖证书

WSDM是信息检索与数据挖掘领域的国际顶级会议、清华计算机类会议排名A类顶级学术会议,在互联网搜索、数据挖掘领域享有很高的学术声誉。本次会议共收到615 篇投稿,仅有112篇被录用,录用率约18%,其中仅有3篇论文获得最佳论文提名(包含最佳论文)奖,来自谷歌的研究团队获得最佳论文奖,来自密歇根州立大学、微软和卡内基梅隆大学的研究团队获得另一个最佳论文提名奖。

图 讲者2023级硕士研究生赵子奇在大会现场

本篇获奖论文研究了序列推荐系统中的曝光偏差问题。序列推荐模型通常经过用户-物品的交互进行训练,这种交互会受到系统曝光偏差的影响,导致从有偏的序列推荐模型中学习到的用户偏好与真实的用户偏好并不完全一致。现有的去偏方法并未充分利用系统曝光数据,存在推荐性能次优而且存在方差大的问题。本文提出了一种通过对系统曝光数据进行分布鲁棒优化(DRO)的方法对序列推荐模型进行去偏,关键思路是利用 DRO 优化不确定集上的最坏误差,以保护模型免受曝光偏差引起的分布差异。该方法的主要挑战在于如何构建不确定集并避免对有偏样本用户的偏好进行过度估计。此外,由于测试集也可能受到曝光偏差的影响,如何评估模型的去偏差效果也是一个悬而未决的问题。为此,我们首先引入一个在系统曝光数据上训练的曝光模拟器来计算曝光分布,然后将其视为名义分布(nominal distribution)来构造 DRO 的不确定集。然后,我们对那些具有高曝光几率的物品引入惩罚,以避免对有偏样本用户偏好的过度估计。最后,我们设计了一个去偏的自归一化反倾向性评分(SNIPS)评估器,用于评估有偏离线测试集上的去偏效果。我们在两个真实世界的数据集上进行了大量实验,实验结果表明我们提出的方法取得了优越的性能。

图 整体框架图