信息检索

实验考核:周二(6月9日)18:30-20:30

实验报告:期末考试之前交一份实验报告,每人一份,电子版,文件命名:学号-姓名,请各个班的学习委员帮忙收一下,最后发邮件到:mengchuan@mail.sdu.edu.cn


答疑:周三(6月10日)16:00-18:00

考试:周一(6月22日)8:30-10:30

预祝每一位同学顺利通过考试!

  • 实验课
    • 安排:
    •     期末考试之前交一份实验报告,电子版,文件命名:学号-姓名。
           格式参考1  格式参考1
  • 实验
    • 数据集下载

    • 任务定义
      给定一个文档集D={d1,d2,d3...dn}和一个查询q,输出对文档集D的full ranking结果。

    • 数据集
      目前给定文档集D,训练集与验证集,训练集和验证集中包含query与对应的document label,注意一个query可能有多个对应的document。
      在期末最终测试之前请尽可能地提升模型检索的精度。期末测试的时候将会释放测试集对模型进行最终测试,期末之前测试集不可见。
      文档集文档数量 训练集查询数量 验证集查询数量 测试集查询数量
      50万 3万 0.3万 0.3万
      文档集D,训练集,验证集和测试集分别对应以下三个文件:documents.json,trainingset.json ,validationset.json和testset.json。
      以下为数据集文件的格式。
      文件名称 格式
      documents.json {d1_id: d1_text, d2_id: d2_text, ...}
      trainingset.json { queries: {q1_id: q1_text, q2_id: q2_text, ...},
      labels: {q1_id: [dx_id,...], q2_id2: [dx_id,...], ...} }
      validationset.json { queries: {q1_id: q1_text, q2_id: q2_text, ...},
      labels: {q1_id: [dx_id,...], q2_id2: [dx_id,...], ...} }
      testset.json { queries: {q1_id: q1_text, q2_id: q2_text, ...}, }

    • 基线模型
      我们使用BM25作为基线模型在数据集验证集用指标MRR@10,NDCG@10进行了测试,结果作为参考,请见下表。
        MRR@10 NDCG@10
      BM25 20.31 17.84

    • 验收提交格式
      最后一节课会公布测试集 testset.json,格式与 validationset.json 一致(只包含用于测试的 queries,去掉了 label)。
      当堂用公布的 queries 在 documents.json 文件中检索,得到检索结果文件后上交(具体文件内容和形式 baseline 代码中有标注)。后期我们会根据真实 label 计算检索结果的指标。

    • 实验评价
      实验评测分为自动指标评测和课堂讲解。
      • 自动指标评测。
        到期末,我们会选取一节课进行评测,当堂公布测试集 testset.json,其格式与 validationset.json 一致(只包含用于测试的 queries,去掉了 label )。请各位同学将得到的检索结果文件当堂上交(具体文件内容和形式 baseline 代码中有标注)。我们将对同学们提交的结果文件进行统一评测。为防止作弊行为,我们同时会对结果文件进行相似性检测。其他细节届时通知。
      • 课堂讲解。
        讲解的同学分为两部分:1)选取指标排名前10%的同学讲解模型,分享经验;2)另外随机抽取一部分同学进行讲解。随机抽取的人数和讲解时间、讲解形式届时通知。


  • 参考教材
    • 王斌(译). 信息检索导论 修订版,人民邮电出版社,2019.7.
    • 牛长流, 肖宇(译). Lucene实战(第2版). 人民邮电出版社.
    • Ricardo Baeza-Yates, Berthier Ribeiro-Neto. Modern Information Retrieval: The Concepts and Technology Behind Search (Second Edition). Addison-Wesley Professional, 2011. ISBN-10:0321416910, ISBN-13:978-0321416919. 注:国内有影印版(机械工业出版社,ISBN:9787111331742).
      黄萱菁,张奇,邱锡鹏(译). 现代信息检索(原书第2版). 机械工业出版社, 2012.10. ISBN:9787111385998.
    • W. Bruce Croft, Donald Metzler and Trevor Strohman. Search Engines: Information Retrieval in Practic. Pearson, 2009.2. ISBN-10:0136072240, ISBN-13:978-0136072249. 注:国内有影印版(机械工业出版社,ISBN:9787111282471). 有免费电子版http://ciir.cs.umass.edu/irbook/ 其他资源http://www.search-engines-book.com/
      刘挺,秦兵,张宇,车万翔(译). 信息检索实践. 机械工业出版社, 2010.6. ISBN:9787111288084.
    • Stefan Büttcher, Charles L. A. Clarke, Gordon V. Cormack. Information Retrieval: Implementing and Evaluating Search Engines. MIT Press, 2010. ISBN-10:0262026511, ISBN-13:978-0262026512.
      陈健,黄晋(译). 信息检索:实现和评价搜索引擎. 机械工业出版社, 2012.1. ISBN:9787111359906.