学术交流

山大信息检索实验室师生论文获SIGIR2023录用

2023年4月6日

近日，山东大学计算机科学与技术学院信息检索实验室师生撰写的3篇论文被SIGIR 2023录用。2篇为full paper，1篇为resource paper。

第46届国际计算机学会信息检索大会（The 46th International ACM SIGIR Conference on Research and Development in Information Retrieval）将于2023年7月23日-7月27日在我国台湾省召开。SIGIR是信息检索领域的旗舰会议，也是中国计算机学会CCF推荐的A类会议。

Full Paper：

标题：Improving Implicit Feedback-Based Recommendation through Multi-Behavior Alignment
作者：辛鑫，刘祥源，王涵冰，任鹏杰，陈竹敏，雷家欢（美团），史鑫磊（美团），罗恒亮（美团），Joemon Jose（格拉斯哥大学），Maarten de Rijke( 阿姆斯特丹大学)，任昭春
简介：基于隐式反馈学习的推荐系统通常使用大量单一类型的隐式用户反馈（如点击）来增强对稀疏目标行为（如购买）的预测。如何将多种类型的隐式用户反馈用于此类目标行为预测中是当前所面临的一个研究问题。现有的利用多种用户行为类型进行学习的相关工作中往往无法：（1）从不同的行为数据分布中学习到普遍和准确的用户偏好；（2）克服观察到的隐式用户反馈中的噪声和偏差。为了解决上述问题，我们提出了一个基于多行为对齐的学习框架MBA，通过使用多种类型的行为数据来增强从隐式反馈中学习的推荐系统。我们推测来自同一用户的多种类型的行为（如点击和购买）应该反映该用户的相似偏好。为此，我们将潜在的普遍用户偏好视为隐变量。该隐变量通过最大化多个观察到的行为数据分布间的似然度的同时，最小化从辅助行为（如点击或查看）和目标行为（如购买）中分别学习到的用户模型之间的KL-散度来推断得到。MBA从多行为数据中推断出普遍的用户偏好，执行数据去噪的同时实现有效的知识迁移。我们在两个公开数据集和美团数据集上进行了实验，实验表明了我们提出方法的有效性。

图：MBA训练流程

标题：Contrastive State Augmentations for Reinforcement Learning-Based Recommender Systems
作者：任昭春，黄娜，王一丹，任鹏杰，马军，雷家欢（美团），史鑫磊（美团），罗恒亮（美团），Joemon Jose（格拉斯哥大学），辛鑫
简介：从user-item历史交互序列中训练基于强化学习的推荐系统对于生成高质量的推荐和提高长期累积收益至关重要。然而，现存的基于强化学习的方法对于估计离线训练数据中不包含的状态的值函数仍有困难。同时，由于缺乏对比信号，从用户的隐式反馈中也很难学习到有效的状态表示。在这篇工作中，我们提出了对比状态增强(CSA)的方法来训练基于强化学习的推荐系统。为了解决上述第一个问题，我们提出了4种状态增强的策略来扩大离线数据的状态空间。该方法通过使RL代理访问局部状态区域，确保学习到的值函数在原始状态和增广状态之间是相似的，从而提升推荐系统的泛化能力。对于第二个问题，我们建议在增广状态和随机采样于其他会话的状态之间引入对比信号，以进一步提高状态表示学习。为了证明我们提出的CSA方法的有效性，我们在两个公开的数据集和一个从真实世界电商平台中收集到的数据集上进行充分的实验。我们还在一个模拟环境上进行了实验，作为在线评估设置。实验结果证明了CSA能够有效提升推荐性能。

图：对比状态增强(CSA)方法

Resource Paper：

标题：Towards Explainable Conversational Recommender Systems
作者：郭书宇，张硕（Bloomberg），孙维纬，任鹏杰，陈竹敏，任昭春
简介：传统的推荐系统中的解释可以帮助用户理解推荐的合理性，提高系统的效率、透明度和可信度。在对话环境中，多个符合语境的解释需要被生成，这给解释带来了更多的挑战。为了更好地衡量对话推荐系统（CRS）的可解释性，我们基于传统推荐系统的概念和CRS的特点提出了十个评价视角。我们使用这些指标评估了五个现有的CRS基准数据集，并观察到了提高CRS解释质量的必要性。为了实现这一目标，我们采用了人工和自动两种方法来扩展这些对话，并构建了一个新的CRS数据集——可解释的推荐对话数据集（E-ReDial）。我们比较了两种基于E-ReDial进行解释生成的基线方法，实验结果表明，在E-ReDial上训练的模型可以显著提高可解释性，而在模型中引入知识可以进一步提高性能。GPT-3在上下文学习设置中可以生成更真实和多样化的电影描述，相比之下，T5在E-ReDial上训练可以更好地根据用户偏好生成清晰的推荐理由。

图: E-ReDial数据集的一个片段，对于每个系统的回复包含其对应的知识，对话与知识的不同部分由不同的颜色高亮。