前段时间又被人问了会不会爬虫，然后感觉现在爬取数据好像还是挺有用的，所以就在上找了课程学习了一下，利用Python对站进行爬取和解析等等。原来使用过八爪鱼这个软件，不太需要有什么编程基础，但是也已经忘得差不错了，所以就想着学习利用Python进行爬取。

一、对爬虫的理解：

爬虫听上去似乎很高大上，其实简单一句话就是：模仿浏览器对页进行访问并解析，进一步从中复制我们想要的信息，然后将其保存起来。

总共可以将其分为3个步骤：

这个时候我们就要想一想我们平时怎么使用浏览器浏览页的，首先我们需要一个址，然后回车后就会看到我们想看到的内容，然后利用鼠标点击进行点击相应的超链接进行进一步的访问。

接下来我们就要开启模拟浏览器访问数据了。

二、爬取页

当浏览器对址进行访问时，首先需要向服务器发送一个访问请求，并且将浏览器自身的一些信息发送给服务器，服务器接收到浏览器发送的信息之后开始检查，看这个“浏览器”是否有访问的权限，以及可以接受什么样的文件，然后服务器才能将信息发送到相应的浏览器上呈现给用户。

那么显而易见，我们现在要做的事情就是 模仿浏览器 给服务器发送信息：用户代理（User-Agent）！至于这个用户代理具体的含义以及用法还不是很清楚，但是可以简单的理解为我的浏览器的一个标志，表示我们是一个浏览器，而不是爬虫。

下面以豆瓣为例，爬取前250名的高分电影的信息。其中需要导入一些包，包括页解析、页访问的和一些数据库操作的包。先来进行获取页数据，对于解析和保存后面再慢慢学习。

上面代码中需要说明的就是用户代理的那个变量head，可以直接在我们现有的浏览器中复制粘贴，打开一个页，按F12键，然后点击Network，然后将页刷新一下，点击红点暂停，点击一个请求，然后下拉到最后就会看到 User-Agent，直接复制粘贴过来即可！下面为操作截图。
1、打开址

以上就是对页访问的的一个基本的操作和代码，只实现了页的简单访问，对于页的解析和数据的保存后续在慢慢学习！

文章已被收录至官方知识档案Python入门技能树络爬虫爬虫基础211379 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！