一、项目背景
[蜜柑计划 – Mikan Project] :新一代的动漫下载站。是一个专门为喜欢动漫的小伙伴们打造的动漫视频在线播放 站,为大家第一时间分享最新动漫资源,每日精选最优质的动漫推荐。
二、项目目标
实现获取动漫种子链接,并下载保存在文档。
三、涉及的库和 站
1、 址如下:
2、涉及的库:requests、lxml、fake_useragent
3、软件:PyCharm
四、项目分析
首先需要解决如何对下一页的 址进行请求的问题。可以点击下一页的按钮,观察到 站的变化分别如下所示:
点击下一页时,每增加一页Classic/()自增加1,用{}代替变换的变量,再用for循环遍历这 址,实现多个 址请求。
五、反爬措施
1、获取正常的 http请求头,并在requests请求时设置这些常规的http请求头。
2、使用 fake_useragent ,产生随机的UserAgent进行访问。
六、项目实施
1、我们定义一个class类继承object,然后定义init方法继承self,再定义一个主函数main继承self。导入需要的库和 址。
2、主方法(main):for循环实现多个 页请求。
3、 随机产生UserAgent。
4、发送请求 获取响应, 页面回调,方便下次请求。
5、xpath解析一级页面数据,for循环遍历补全 址,获取二级页面 址。
6、二级页面请求 ,先找到页面父节点,for循环遍历,再用path获取到种子的下载地址。补全种子链接地址。
7、保存在word文档 。
8、调用方法,实现功能。
七、效果展示
1、运行程序,在控制台输入起始页,终止页,如下图所示。
2、将下载成功的图片信息显示在控制台,如下图所示。
3、保存.torrent文档。
4、如何打开种子文件上传到百度云盘,如下图所示。
最后总结:
1、不建议抓取太多数据,容易对服务器造成负载,浅尝辄止即可。
3、介绍了如何去拼接字符串,以及列表如何进行类型的转换。
4、欢迎大家积极尝试,有时候看到别人实现起来很简单,但是到自己动手实现的时候,总会有各种各样的问题,切勿眼高手低,勤动手,才可以理解的更加深刻。
5、Mikan Project还提供了星期的专栏。每一天都可以看到好看的动漫。专门为喜欢动漫的小伙伴们打造的动漫视频。
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫urllib210446 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!