教你用Python爬美之图APP全站图片

爬取结果

程序只运行了2h,最后认为程序没有问题了就关了(我可不是去杀生去了……

运行环境

Python 3.5+
Windows 10
VSCode

如何使用

下载项目源码

安装依赖

运行

保存图片需要络,服务器等方面,所以不方便测试一般2h~3h能爬完整站

点击这个导航,然后点击,

打开之后

APP 下载链接, 嗯.APP打开之后大致就是这个样子

没有涉黄吧 ……………

只想要APP的同学到这里就可以离开了/滑稽

思路

最近学习了抓取,就想着来试试,结果还是非常顺利,好的,接下来开始

抓包工具 , 通过手机或者模拟器连接 8888 端口, 安装好证书就能通过电脑监控手机的络请求信息

提供下载地址:

软件打开就是这个样子,具体怎么安装证书,我这里就不讲解了, 络上教程还是挺多的

打开 ->

检查一下端口是否打开,接下来通过手机和模拟器连接本地,我这里就通过手机来演示了,我认为手机还是比模拟器方便的

首先打开 ,输入 ,找到以太 IPV4

找到别找到其他的了, 我这里的是 ,所以手机应该设置代理为 IP 端口为 , 对了 ,手机需要连接电脑同一络下的WIFI或者电脑的热点WIFI ,否则是不行的

Linux/Unix 用户应该就不用我说了吧,都是大佬打开, 输入

这里和其他的不要搞混淆了

我是魅族手机大概演示一下设置, 打开 -> 找到 -> 找到点击进去,把 , 设置好 ,结果如图

配置好后,打开 ,发现多了非常多数据,一闪一闪

OK 这一步完成,接下来就是点击一下左上角的 ,左边,清空一下列表,然后打开 APP,获取信息

打开之后一直往下拉,先加载一些数据出来看看, 这时候要仔细看看那一条信息一直在闪

这是打开之后得到的数据,大致可以看出来,因为我们是要抓 (美之图),所以数据肯定不是啥的

这时候拿着手机,使劲往下拉,看看那个在动, 这时候发现

这条数据一直在闪,我们打开看看

咦,这种数据好熟悉啊, 好像打开看一下

一目了然了

再来看看数据规律

就是页数, 是什么呢,复制他的URL到浏览器看看

好像摸到规律了有没有, 应该是每次加载得到的数据,我们把改一下试试

结果显然是的,这时候我们肯定都想知道那他最大能提取多少呢,我试过了最大是 /滑稽

OK结束了,写代码了……你确定不认真看看数据里面的信息吗p>

我们打开看看里面有些什么东西

这东西…需要打马赛克吗

我之前直接提取 ,抓取图片到最后发现图片没有多少,只有, 这就感觉很不对了,我打开发现每一个最少都有张图片,但是到了这里怎么就只有一张了呢p>

这时候发现了,这个数目应该就是图片的张数,但是还是无法解决(这里大佬看了别嫌我笨啊,我第一次遇到这种情况)

然后我发现最后位数,,,,,,,,,,,,,,,,试试,结果一试就成了

这时候大体的流程就完成了

代码

这里就上核心代码了,完整代码在项目里去看吧地址:github.com/cexll/Mzitu…

代码大概意思是通过打开得到数据返回,解析里面的和,再通过循环从到(我这里写的简单粗暴,有更方便的方法可以告诉我),图片URL后面通过切片来拼接图片的链接

然后通过将和保存到本地,图片下载到本地,通过两个函数实现,如果不下载图片

不需要多少时间,但下载图片时间需要久一点,这里使用异步下载图片应该非常快,但我认为做爬虫也要有爬虫的尊严,小站就别大批量的去访问了

运行结果(不保存图片)

这是在服务器下运行只保存信息到本地,全站图片数据有

最后

再最后,我把我保存到本地的图片打包放到百度盘了,有需要的去取…别问我那么大什么时候能下载完成,点这里

盘地址: 这里提取码:(57iu)

由于打包在一个压缩包太大了,而且也无法上传,就分了4份,每一份1G左右,每一张图片不重复

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树首页概览211392 人正在系统学习中相关资源：开源的爬虫软件Heritrix3.1.0_开源爬虫-Java工具类资源-CSDN文库

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

教你用Python爬取妹子图APP

教你用Python爬美之图APP全站图片

爬取结果

运行环境

如何使用

安装依赖

运行

思路

代码

相关推荐