学术交流
实验室代表参加“信息检索战略研讨会”
2018-2-5
2018年2月1日-3日,实验室马军老师和陈竹敏老师参加了在北京召开的信息检索战略研讨会。
此次会议由中国中文信息学会信息检索专委会主办。特邀嘉宾中国中文信息学会理事长方滨兴院士、清华大学张钹院士、微软亚洲研究院周明副院长,专委会主任中科院计算所程学旗研究员,以及专委会副主任、常务委员、前沿工作组成员等22人出席会议。
与会委员们推荐了近年来信息检索领域内和领域外代表前沿发展方向或者重大创新成果的两篇论文。我们把这些论文分享出来,供本领域的科研人员参考。对于新进入信息检索相关科研领域的同学们,可以作为大家的一个阅读列表。
● 黄萱菁
Po-Sen Huang, Xiaodong He, Jianfeng Gao, Li Deng, AlexAcero, Larry Heck: Learning deep structured semantic models for web search using clickthrough data. CIKM 2013.
是深度学习用于信息检索的开创性论文之一。在实现上采用深度神经网络学习排序函数,采用click-through数据进行监督学习, 是排序学习的新发展。他们组沿着这个思路发了不少论文。
Kai Arulkumaran, Marc Peter Deisenroth, Miles Brundage, Anil Anthony Bharath: Deep Reinforcement Learning: A Brief Survey. IEEE IPM 2017.
增强学习在信息检索中有潜在应用价值, 例如可用于检索反馈,交互式检索等, 人机对话等. 这篇论文是深度强化学习的一篇综述, 有较好的参考价值。
● 林鸿飞
Jun Wang, Lantao Yu, Weinan Zhang, Yu Gong, Yinghui Xu,Benyou Wang, Peng Zhang, and Dell Zhang. IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models. SIGIR 2017.
作者提出一种基于对抗生成思想的IR架构,分别成功将其应用于网络搜索、物品推荐和问答系统任务,具有一定通用性,或许会成为未来信息检索发展的新方向。
Hamed Zamani, W.Bruce Croft. Relevance-based Word Embedding.SIGIR 2017.
该研究以信息检索中文档与查询的相关性为目标,有针对性地训练词向量,实现查询与文档的精确匹配,根据信息检索任务的特点改进现有embedding模型或许是未来的研究方向之一。
● 李茹
Jun Wang, Lantao Yu, Weinan Zhang, Yu Gong, Yinghui Xu,Benyou Wang, Peng Zhang, and Dell Zhang. IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models. SIGIR 2017.
信息检索领域的一项开创性工作,通过对抗训练开创性地将信息检索领域中的产生式检索与判别式检索两种流派统一起来,将对未来信息检索新范式的研究产生重要影响。
Pang Wei Koh, Percy Liang. Understanding black-boxpredictions via influence functions. ICML2017.
提供了一种追溯根源的新视角来解释黑箱模型的预测,该工作将会在机器学习模型及其应用的可解释性研究方面产生重要影响。
● 秦兵
Huasha Zhao, Luo Si, Xiaogang Li, and Qiong Zhang.Recommending Complementary Products in E-Commerce Push Notifications with a Mixture Model Approach. SIGIR2017.
该论文对电商领域营销推送场景进行点击率的优化,这项技术给行业带来的好处的是可以更精准和全面的刻画用户,进一步对用户进行商品、资讯等方面相关推荐,具有很好的价值。
Yiming Cui, Zhipeng Chen, Si Wei, Shijin Wang, Ting Liu, andGuoping Hu. Attention-over-Attention Neural Networks for Reading Comprehension ACL2017.
该论文提出一种基于Attention-over-Attention的阅读理解框架,阅读理解可以看作是一种特殊的检索任务,其目的是在输入问题后,直接给出答案而不是相关段落。本文与前人工作最大的不同就是不仅用问题在文章中寻找答案,并且通过阅读文章对问题中的每个单词的权重加以区分,找到问题的核心词,之后再用传统的阅读理解模型进行建模。
● 马军
Jun Wang, Lantao Yu, Weinan Zhang, Yu Gong, Yinghui Xu,Benyou Wang, Peng Zhang, and Dell Zhang . IRGAN: A Minimax Game for UnifyingGenerative and Discriminative Information Retrieval Models,SIGIR 2017.
The authors propose a minmax game theoretical approach for search engine design, where a minimax game is used to iteratively optimize the generative retrieval (finding the relevant documents) and the discriminative retrieval (ranking of these documents).
Paul Covington, Jay Adams, and Emre Sargin. Deep Neural Networks for YouTube Recommendations, ACM RecSys 2016.
This paper shows how to use deep neural network to develop recommendation systems for large scale datasets, e.g. the videos in YouTube.
● 王明文
Jun Wang, Lantao Yu, Weinan Zhang, Yu Gong, Yinghui Xu,Benyou Wang,Peng Zhang, and Dell Zhang. IRGAN: A Minimax Game for UnifyingGenerative and Discriminative Information Retrieval Models. SIGIR2017.
博弈论的思想和方法应用到信息检索建模是未来研究方向之一。
Flood Sung, Li Zhang, Tao Xiang, Timothy Hospedales, and Yongxin Yang. Learning to learn: Meta-critic networks for sample efficient learning. arXiv preprint arXiv:1706.09529. 2017.
元学习的研究会让我们重新审视机器学习算法,发现新的研究方向。
● 董守斌
Bob Goodwin, Michael Hopcroft, Dan Luu, Alex Clemmer,Mihaela Curmei, Sameh Elnikety, and Yuxiong He. Bit Funnel: Revisiting Signatures for Search. SIGIR 2017.
以全新设计的签名文件取代倒排索引,以迎合新的计算机体系结构,带来云计算时代全文索引的根本性变革,也预示目前相对稳定的传统检索系统体系结构可能面临巨大变革。
Hongyun Cai, Vincent W. Zheng, and Kevin Chen-Chuan Chang. A Comprehensive Survey of Graph Embedding: Problems, Techniques and Applications.arXiv:1709.07604
网络或图是最常见也是最重要的数据表示,如何高效解决图表示以及基于其的图运算具有重要价值。该论文深入综述图嵌入表示存在的问题,解决的方案以及应用情况后提出了潜在的研究方向,有较强的指导意义。
● 张奇
Ryen W. White. Beliefs and Biases in Web Search, SIGIR 2013.
信念与偏见的研究对搜索引擎的结果的改善提出了一些潜在的可能。
Yue Wang, Dawei Yin, Luo Jie, Pengyuan Wang, Makoto Yamada,Yi Chang, and Qiaozhu Mei. Beyond Ranking: Optimizing Whole-Page Presentation, WSDM 2016.
把整页的内容作为优化目标。
● 窦志成
Jiawei Han, "On the Power of Massive Text Data",(keynote speech), in Proc. of 2018 ACM Int. Conf. on Web Search and Data Mining. WSDM2018.
韩老师的一系列工作和我们上面的想法比较接近:如果从大规模的文本数据中挖掘知识进行多维分析,而不是简单搜索。
Jiquan Ngiam, Aditya Khosla, Mingyu Kim, Juhan Nam, HonglakLee, and Andrew Y. Ng. Multimodal Deep Learning. ICML 2011
多模态学习,尤其是跨文本、图像和视频的表示学习是下一步跨类型检索的基础。
● 徐君
Jun Wang, Lantao Yu, Weinan Zhang, Yu Gong, Yinghui Xu,Benyou Wang,Peng Zhang, and Dell Zhang. IRGAN: A Minimax Game for UnifyingGenerative and Discriminative
Information Retrieval Models. SIGIR 2017.
首次将GAN与排序学习相结合提升排序效果。
David Silver, Julian Schrittwieser, Karen Simonyan, Ioannis Antonoglou, Aja Huang, Arthur Guez, Thomas Hubert et al. Mastering the game of Go without human knowledge. Nature 2017.
深度强化学习应用于下棋的经典模型,其将马尔科夫决策过程与蒙特卡洛搜索树相结合的思路可广泛扩展到其它应用。
● 刘铁岩
ChengXiang Zhai. Towards a Game-Theoretic Framework for Information Retrieval,SIGIR2015.
用博弈的思想来看待信息检索,很有启发意义。虽然文中尚未对信息检索生态环境中所有的理性参与者进行建模,但是已经可以给我们很大的想象空间。因为毕竟信息检索生态中用户、搜索引擎、广告主都有各自的诉求,又需要相互配合,因此从博弈论出发去进行建模比简单的信息处理系统更本质。后续很多人把GAN引入信息检索,其实是这种思想的延续。而且未来沿着这条路还有很多可以研究的课题。
Karen Spark Jones, A look back and a look forward. SIGIR'88.
Don. R. Swanson. Historical Note: Information Retrieval and the Future of an Illusion. JASIS 1988.
这两篇都是1988年发表的,是关于IR领域的反思和对未来的展望。虽然是30年前的旧文,但仍然很有借鉴价值。有可能很多从事IR研究的人并没有读过,应该对于我们开展IR的战略讨论会有所启发。
● 刘奕群
Yue Wang, Dawei Yin, Luo Jie, Pengyuan Wang, Makoto Yamada,Yi Chang, and Qiaozhu Mei. 2016. Beyond Ranking: Optimizing Whole-Page Presentation. WSDM2016.
将检索任务的优化目标从序列转变为全页面,定义了全新的结果排序任务。
Bokun Wang, Yang Yang, Xing Xu, Alan Hanjalic, and Heng TaoShen. 2017. Adversarial Cross-Modal Retrieval. MM2017.
使用对抗方法提供了一条解决多模态表示问题的新思路。
● 郭嘉丰
Kezban Dilek Onal, Ye Zhang, Ismail Sengor Altingovde, MdMustafizur Rahman, Pinar Karagoz, Alex Braylan, Brandon Dang et al. Neural information retrieval: at the end of the early years. IRJ 2017.
对近年来兴起的NeuIR方向工作的较为完整的总结,讨论了成功之处,面临的关键挑战和未来潜在的发展方向。
Filip Radlinski, and Nick Craswell. A Theoretical Frameworkfor Conversational Search, CHIIR 2017.
提出了对话式搜索的基本属性、使用场景以及理论框架,对该方向的发展具有启示。