2018年3月27日,继开学以来,开了软件工程和信息系统设计,想来想去也没什么好的题目,干脆就想弄一个实用点的,于是产生了做“学生服务系统”想法。相信各大高校应该都有本校APP或超级课程表之类的软件,在信息化的时代能快速收集/查询自己想要的咨询也是种很重要的能力,所以记下了这篇博客,用于总结我所学到的东西,以及用于记录我的第一个爬虫的初生。
文章目录
- 一、做爬虫所需要的基础
- 二、介绍几款优秀制作爬虫的辅助工具
- 三、最简单的爬虫试例
- 四、需要模拟登录后再爬取的爬虫所需要的信息
-
- 4.1.登录分析
- 4.2信息提取
- 五、开始编码爬虫
- 六、爬虫技术的拓展与提高
- 七、后记
一、做爬虫所需要的基础
要做一只爬虫,首先就得知道他会干些什么,是怎样工作的。所以得有一些关于HTML的前置知识,这一点做过 页的应该最清楚了。
HTML(超文本标记语言),是一种标记性语言,本身就是一长串字符串,利用各种类似 < a >,< /a>这样的标签来识别内容,然后通过浏览器的实现标准来翻译成精彩的页面。当然,一个好看的 页并不仅仅只有HTML,毕竟字符串是静态的,只能实现静态效果,要作出漂亮的 页还需要能美化样式的CSS和实现动态效果的JavaScipt,只要是浏览器都是支持这些玩意儿的。
嗯,我们做爬虫不需要了解太多,只需要了解HTML是基于文档对象模型(DOM)的,以树的结构,存储各种标记,就像这样:
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!