IT宅男利用Python 络爬虫获取Mikan动漫资源（属于宅男的快乐）

一、项目背景

[蜜柑计划 – Mikan Project] ：新一代的动漫下载站。是一个专门为喜欢动漫的小伙伴们打造的动漫视频在线播放站，为大家第一时间分享最新动漫资源，每日精选最优质的动漫推荐。

二、项目目标

实现获取动漫种子链接，并下载保存在文档。

三、涉及的库和站

1、址如下：

2、涉及的库：requests、lxml、fake_useragent

3、软件：PyCharm

四、项目分析

首先需要解决如何对下一页的址进行请求的问题。可以点击下一页的按钮，观察到站的变化分别如下所示：

点击下一页时，每增加一页Classic/()自增加1，用{}代替变换的变量，再用for循环遍历这址，实现多个址请求。

五、反爬措施

1、获取正常的 http请求头，并在requests请求时设置这些常规的http请求头。

2、使用 fake_useragent ，产生随机的UserAgent进行访问。

六、项目实施

1、我们定义一个class类继承object，然后定义init方法继承self，再定义一个主函数main继承self。导入需要的库和址。

2、主方法（main）：for循环实现多个页请求。

3、随机产生UserAgent。

4、发送请求获取响应, 页面回调，方便下次请求。

5、xpath解析一级页面数据,for循环遍历补全址，获取二级页面址。

6、二级页面请求，先找到页面父节点，for循环遍历，再用path获取到种子的下载地址。补全种子链接地址。

7、保存在word文档。

8、调用方法，实现功能。

七、效果展示

1、运行程序，在控制台输入起始页，终止页，如下图所示。

2、将下载成功的图片信息显示在控制台，如下图所示。

3、保存.torrent文档。

4、如何打开种子文件上传到百度云盘，如下图所示。

最后总结：

1、不建议抓取太多数据，容易对服务器造成负载，浅尝辄止即可。

3、介绍了如何去拼接字符串，以及列表如何进行类型的转换。

4、欢迎大家积极尝试，有时候看到别人实现起来很简单，但是到自己动手实现的时候，总会有各种各样的问题，切勿眼高手低，勤动手，才可以理解的更加深刻。

5、Mikan Project还提供了星期的专栏。每一天都可以看到好看的动漫。专门为喜欢动漫的小伙伴们打造的动漫视频。

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树络爬虫urllib210446 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！