B站路飞学城学习笔记-Python爬虫-爬取电影分类排名-

一、过程分析

1、先打开douban电影排行榜,点击喜剧部分

2、用鼠标滚轮向下翻页,同时按f12进行检查,点击Network中的Headers

 3、我们可以发现Headers中有很多信息,比如Request URL以及Content-Type中的json格式(意思是最后的数据类型是json格式),代码中需要用到

 4、最下面的参数是所有页面共有的参数,代码中也需要用到

5、 上图中的User-Agent是UA伪装的必要部分,代码中也需要用

以上就是我们所需要的基本信息,下面给出代码

二、代码部分

1、import两个库

2、在main函数中写出url和param字典,其中将第一部分中复制的Requests URL中问 后面的部分去掉,写在字典param里,这样方便我们设置参数,然后我们将start设置为1,limit设置为20,意思是从第二部电影开始,一直到100部电影后

3、进行UA伪装,伪装自己为浏览器,从而访问该页面

4、用response接收通过requests来get()的对象,同时创建一个list_data变量来接收requests.json()的数据

5、文件存储,将其存放在本目录下

6、运行以后点击我们创建的douban.json,将其在 上的json在线识别库中解析后能发现我们的解析是成功的

三、总结

爬取 站的重要一点在于观察其 站的加载方式,然后进行对requests库和json库的结合使用。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年6月13日
下一篇 2022年6月13日

相关推荐