学术交流

Simulating User Satisfaction for the Evaluation of Task-oriented Dialogue Systems

作者：孙维纬，张硕，Krisztian Balog，任昭春，任鹏杰，陈竹敏，Maarten de Rijke
来源：The 44th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2021
链接：

论文：
代码：
数据集：
数据集构建UI：

撰写：孙维纬
校稿：孙维纬

任务型对话系统，是为了解决用户的一个特定的需求，如果机票预订，电影推荐等。如何对系统可用性进行自动评价，是任务型对话研究的重要任务。用户模拟的方法，由于具有高效和大规模部署的优势，近年来得到关注。预测用户在与系统交互时的满意度变化，对于构建一个更加真实的用户模拟器是十分关键的。但由于缺少标注数据，现有的工作并没有考虑用户模拟中的满意度变化。为此，我们提出了“用户满意度模拟”任务。如上图左展示，该用户满意度模拟任务（图中c）结合了已有的用户模拟（图中a）和用户满意度估计（图中b）。上图右展示了一个JDDC中的例子。

我们发布了标注数据集，USS，包括6,800段多轮对话。上图左将USS和现有的数据进行对比，可以看到，USS在任务定义上不同于已有的数据，覆盖多个领域（JDDC，MultiWOZ，SGD，ReDial，CCPE），在规模上也超过了现有的数据（99569个5-level标注）。每个对话由三人重复标注，对于未达成共识的数据，由第四个人来核对。上图右展示了数据统计。

我们使用三类方法（机器学习方法，RNN-based，BERT-based），在两个子任务上进行测试，满意度预测结果如上图上所示，用户行为预测结果如上图下所示。我们同时也测试了方法的跨领域泛化性能。

总的来说，这篇工作做出了以下的贡献：
1，我们提出了用户满意度模拟这一任务；
2，我们发布了数据集，包括6800段包括多个领域的对话；
3，我们在用户满意度预测和行为预测上使用3种方法进行测试。