2020-2021年度山东大学软件学院信息检索考试
开学的时候上这门课时老师说很多同学都觉得这门课程难(范围广且多,不过这倒是符合信息检索的定义“融合了~~~的综合学科”,哈哈哈),最终期末考试是“贝多芬(背多分)”,纯记忆力考试。写这个回忆版也耗费了我巨大的记忆力,我如何记得住这么多题(无它,答完后还剩50分钟,背就完了),如果我考前不喝红牛或许还记不住这么多题。复习的时候获得了学长的回忆版,可惜没有填空题,传承“传统”也就有了这个回忆版,话不多说,开始我的回忆……
考试时间:2020年12月22日 14:00-16:00
保证所有题目顺序的正确性
去年题(2019-2020):https://download.csdn.net/download/qq_40422851/12054761
一、填空题(每空1分,共38分)
- 信息检索实质上融合了文本及多媒体检索、数据挖掘、_____ 和 ______ 的综合学科。
- 信息检索技术可以解决互联 上的 _____ 问题。
- 爬虫是一种 _____ 程序。
- 爬虫从一个或若干个 页的URL开始,抽取URL放入 _____ 中。
- 爬虫可以采用 _____ 判重。
- 爬虫的搜索策略有 _____ 和 _____ 。
- 爬虫礼貌性体现在 _____ 。
- 使用python语言中的Pandas模块里的 _____ 函数,可以直接提取 页中的表格。
- 搜索引擎的主要组成部分为:爬虫和爬取、_____ 、搜索词处理、排序。搜索引擎的核心数据结构为 _____ 。
- 消除停用词的方法: _____ 和 _____。
- _____ 在一般情况下,将多个派生词合并在一起。
- 基于词典的分词方法,也叫“ _____ ” 法,根据扫描方向,匹配策略有 _____ 和 _____ 。
- 布尔模型建立在 _____ 和 _____ 的基础上。
- 精确的Top K搜索的加速方法有(1)_____ ; (2) _____ ;(3)_____ 。
- L2R中的文档方法损失函数评估 _____ 。
- PageRank是基于 _____ 的回归关系来判定所有 页的重要性。
- HITS算法中,每个 页计算两个值:_____ 和 _____ 。
- SVD也就是 _____ ,可以用于 _____ 。
- BM25由三个部分组成: _____ 、_____ 和 _____ 。
- 词的向量表示有 _____ 和 _____ 。
- 用于大量文档查重的局部敏感哈希算法有 _____ 和 _____ 。
- 形状的描述符大体可以分为两大类,基于 _____ 的和基于 _____ 的。
二、名词解释(每个6分,共30分)
- 正则表达式
- 图像BoW
- 统计语言模型
- pLSA
- LBR
三、简答题(每个8分,共32分)
- 简述向量空间模型及其特点
- 什么是HMM述HMM用于中文分词的方法
- 简述信息检索评价的主要指标
- 站反爬虫的方法有哪些对策略是什么/li>
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!