我的第一个Python爬虫——谈心得

2018年2月26日下午4:14 • 软件开发

2018年3月27日，继开学以来，开了软件工程和信息系统设计，想来想去也没什么好的题目，干脆就想弄一个实用点的，于是产生了做“学生服务系统”想法。相信各大高校应该都有本校APP或超级课程表之类的软件，在信息化的时代能快速收集/查询自己想要的咨询也是种很重要的能力，所以记下了这篇博客，用于总结我所学到的东西，以及用于记录我的第一个爬虫的初生。

文章目录

一、做爬虫所需要的基础
二、介绍几款优秀制作爬虫的辅助工具
三、最简单的爬虫试例
四、需要模拟登录后再爬取的爬虫所需要的信息
- 4.1.登录分析
- 4.2信息提取
五、开始编码爬虫
六、爬虫技术的拓展与提高
七、后记

一、做爬虫所需要的基础

要做一只爬虫，首先就得知道他会干些什么，是怎样工作的。所以得有一些关于HTML的前置知识，这一点做过页的应该最清楚了。
　　　HTML(超文本标记语言)，是一种标记性语言，本身就是一长串字符串，利用各种类似 < a >，< /a>这样的标签来识别内容，然后通过浏览器的实现标准来翻译成精彩的页面。当然，一个好看的页并不仅仅只有ＨTML，毕竟字符串是静态的，只能实现静态效果，要作出漂亮的页还需要能美化样式的CSS和实现动态效果的JavaScipt，只要是浏览器都是支持这些玩意儿的。
　　　嗯，我们做爬虫不需要了解太多，只需要了解HTML是基于文档对象模型（ＤＯＭ）的，以树的结构，存储各种标记，就像这样：
　　　

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

消费升级下的健身市场练遇24H智能健身房发力用户体验

上一篇 2018年2月26日

软件工程读书笔记（四）——软件工程师的成长

下一篇 2018年2月26日