学术交流
Simulating User Satisfaction for the Evaluation of Task-oriented Dialogue Systems
作者:孙维纬,张硕,Krisztian Balog,任昭春,任鹏杰,陈竹敏,Maarten de Rijke 来源:The 44th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2021 链接:
- 论文:
- 代码:
- 数据集:
- 数据集构建UI:
撰写:孙维纬 校稿:孙维纬
任务型对话系统,是为了解决用户的一个特定的需求,如果机票预订,电影推荐等。如何对系统可用性进行自动评价,是任务型对话研究的重要任务。用户模拟的方法,由于具有高效和大规模部署的优势,近年来得到关注。预测用户在与系统交互时的满意度变化,对于构建一个更加真实的用户模拟器是十分关键的。但由于缺少标注数据,现有的工作并没有考虑用户模拟中的满意度变化。为此,我们提出了“用户满意度模拟”任务。如上图左展示,该用户满意度模拟任务(图中c)结合了已有的用户模拟(图中a)和用户满意度估计(图中b)。上图右展示了一个JDDC中的例子。
我们发布了标注数据集,USS,包括6,800段多轮对话。上图左将USS和现有的数据进行对比,可以看到,USS在任务定义上不同于已有的数据,覆盖多个领域(JDDC,MultiWOZ,SGD,ReDial,CCPE),在规模上也超过了现有的数据(99569个5-level标注)。每个对话由三人重复标注,对于未达成共识的数据,由第四个人来核对。上图右展示了数据统计。
我们使用三类方法(机器学习方法,RNN-based,BERT-based),在两个子任务上进行测试,满意度预测结果如上图上所示,用户行为预测结果如上图下所示。我们同时也测试了方法的跨领域泛化性能。
总的来说,这篇工作做出了以下的贡献: 1,我们提出了用户满意度模拟这一任务; 2,我们发布了数据集,包括6800段包括多个领域的对话; 3,我们在用户满意度预测和行为预测上使用3种方法进行测试。