信息检索
实验考核:周二(6月9日)18:30-20:30
实验报告:期末考试之前交一份实验报告,每人一份,电子版,文件命名:学号-姓名,请各个班的学习委员帮忙收一下,最后发邮件到:mengchuan@mail.sdu.edu.cn
答疑:周三(6月10日)16:00-18:00
考试:周一(6月22日)8:30-10:30
预祝每一位同学顺利通过考试!
- 前言
- 布尔检索
- 词项词典和倒排记录表
- 索引构建与压缩
- Web搜索
- 向量模型及检索系统
- 检索评价
- 相关反馈与查询扩展
- 概率检索模型
- 基于语言建模的检索模型
- 文本分类及朴素贝叶斯分类器
- 基于向量空间的文本分类
- 支持向量机
- 文本聚类
- 隐性语义索引
- 实验课
- 实验
- 数据集下载
-
任务定义
给定一个文档集D={d1,d2,d3...dn}和一个查询q,输出对文档集D的full ranking结果。
-
数据集
目前给定文档集D,训练集与验证集,训练集和验证集中包含query与对应的document label,注意一个query可能有多个对应的document。
在期末最终测试之前请尽可能地提升模型检索的精度。期末测试的时候将会释放测试集对模型进行最终测试,期末之前测试集不可见。
文档集D,训练集,验证集和测试集分别对应以下三个文件:documents.json,trainingset.json ,validationset.json和testset.json。文档集文档数量 训练集查询数量 验证集查询数量 测试集查询数量 50万 3万 0.3万 0.3万
以下为数据集文件的格式。
文件名称 格式 documents.json {d1_id: d1_text, d2_id: d2_text, ...} trainingset.json { queries: {q1_id: q1_text, q2_id: q2_text, ...},
labels: {q1_id: [dx_id,...], q2_id2: [dx_id,...], ...} }validationset.json { queries: {q1_id: q1_text, q2_id: q2_text, ...},
labels: {q1_id: [dx_id,...], q2_id2: [dx_id,...], ...} }testset.json { queries: {q1_id: q1_text, q2_id: q2_text, ...}, }
-
基线模型
我们使用BM25作为基线模型在数据集验证集用指标MRR@10,NDCG@10进行了测试,结果作为参考,请见下表。MRR@10 NDCG@10 BM25 20.31 17.84
-
验收提交格式
最后一节课会公布测试集 testset.json,格式与 validationset.json 一致(只包含用于测试的 queries,去掉了 label)。
当堂用公布的 queries 在 documents.json 文件中检索,得到检索结果文件后上交(具体文件内容和形式 baseline 代码中有标注)。后期我们会根据真实 label 计算检索结果的指标。
-
实验评价
实验评测分为自动指标评测和课堂讲解。
- 自动指标评测。
到期末,我们会选取一节课进行评测,当堂公布测试集 testset.json,其格式与 validationset.json 一致(只包含用于测试的 queries,去掉了 label )。请各位同学将得到的检索结果文件当堂上交(具体文件内容和形式 baseline 代码中有标注)。我们将对同学们提交的结果文件进行统一评测。为防止作弊行为,我们同时会对结果文件进行相似性检测。其他细节届时通知。 - 课堂讲解。
讲解的同学分为两部分:1)选取指标排名前10%的同学讲解模型,分享经验;2)另外随机抽取一部分同学进行讲解。随机抽取的人数和讲解时间、讲解形式届时通知。
- 自动指标评测。
- 教材
- Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze. Introduction to Information Retrieval. Cambridge University Press, 2008. ISBN:0521865719.
- 参考教材
- 王斌(译). 信息检索导论 修订版,人民邮电出版社,2019.7.
- 牛长流, 肖宇(译). Lucene实战(第2版). 人民邮电出版社.
- Ricardo Baeza-Yates, Berthier Ribeiro-Neto. Modern Information Retrieval: The Concepts and Technology Behind Search (Second Edition). Addison-Wesley Professional, 2011. ISBN-10:0321416910, ISBN-13:978-0321416919. 注:国内有影印版(机械工业出版社,ISBN:9787111331742).
黄萱菁,张奇,邱锡鹏(译). 现代信息检索(原书第2版). 机械工业出版社, 2012.10. ISBN:9787111385998. - W. Bruce Croft, Donald Metzler and Trevor Strohman. Search Engines: Information Retrieval in Practic. Pearson, 2009.2. ISBN-10:0136072240, ISBN-13:978-0136072249. 注:国内有影印版(机械工业出版社,ISBN:9787111282471). 有免费电子版http://ciir.cs.umass.edu/irbook/ 其他资源http://www.search-engines-book.com/
刘挺,秦兵,张宇,车万翔(译). 信息检索实践. 机械工业出版社, 2010.6. ISBN:9787111288084. - Stefan Büttcher, Charles L. A. Clarke, Gordon V. Cormack. Information Retrieval: Implementing and Evaluating Search Engines. MIT Press, 2010. ISBN-10:0262026511, ISBN-13:978-0262026512.
陈健,黄晋(译). 信息检索:实现和评价搜索引擎. 机械工业出版社, 2012.1. ISBN:9787111359906.
- 参考课程网站
- 中国科技大学:信息检索与数据挖掘
- Stanford: Information Retrieval and Web Search
- Cornel: Information Retrieval
- Berkeley: Principles of Information Retrieval
- Information Retrieval (University of Munich, by Hinrich Schütze)
- Introduction to Information Retrieval (Universität Tuebingen, by Yannick Parmentier)
- Information Retrieval and Web Search (The University of Texas at Austin, by Raymond J. Mooney)
- Information Retrieval (University of California, Berkeley, by Ray Larson)
- Information Retrieval and Web Agents (Johns Hopkins University, by David Yarowsky)
- Intelligent Information Retrieval (DePaul University, by Bamshad Mobasher)
- 其它参考材料
- Opensource: Nutch
- Opensource: Lucene
- Opensource: Elasticsearch
- Opensource: Easy Crawler
- Opensource: Crawler: Heritrix
- Opensource: HTML Parser: NekoHTML
- Opensource: HTML Parser: HTML Parser