一、过程分析

1、先打开douban电影排行榜，点击喜剧部分

2、用鼠标滚轮向下翻页，同时按f12进行检查，点击Network中的Headers

3、我们可以发现Headers中有很多信息，比如Request URL以及Content-Type中的json格式（意思是最后的数据类型是json格式），代码中需要用到

4、最下面的参数是所有页面共有的参数，代码中也需要用到

5、上图中的User-Agent是UA伪装的必要部分，代码中也需要用

以上就是我们所需要的基本信息，下面给出代码

二、代码部分

1、import两个库

2、在main函数中写出url和param字典，其中将第一部分中复制的Requests URL中问后面的部分去掉，写在字典param里，这样方便我们设置参数，然后我们将start设置为1，limit设置为20，意思是从第二部电影开始，一直到100部电影后

3、进行UA伪装，伪装自己为浏览器，从而访问该页面

4、用response接收通过requests来get()的对象，同时创建一个list_data变量来接收requests.json()的数据

5、文件存储，将其存放在本目录下

6、运行以后点击我们创建的douban.json,将其在上的json在线识别库中解析后能发现我们的解析是成功的

爬取站的重要一点在于观察其站的加载方式，然后进行对requests库和json库的结合使用。

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！