教你用Python爬美之图APP全站图片
爬取结果
程序只运行了2h,最后认为程序没有问题了就关了(我可不是去杀生去了……
运行环境
-
Python 3.5+
-
Windows 10
-
VSCode
如何使用
下载项目源码
安装依赖
运行
保存图片需要 络,服务器等方面,所以不方便测试一般2h~3h能爬完整站
点击这个导航,然后点击,
打开之后
APP 下载链接, 嗯.APP打开之后大致就是这个样子
没有涉黄吧 ……………
只想要APP的同学到这里就可以离开了/滑稽
思路
最近学习了抓取,就想着来试试,结果还是非常顺利,好的,接下来开始
抓包工具 , 通过手机或者模拟器连接 8888 端口, 安装好证书就能通过电脑监控手机的 络请求信息
提供下载地址:
软件打开就是这个样子,具体怎么安装证书,我这里就不讲解了, 络上教程还是挺多的
打开 ->
检查一下端口是否打开,接下来通过手机和模拟器连接本地,我这里就通过手机来演示了,我认为手机还是比模拟器方便的
- 首先 打开 ,输入 ,找到以太 IPV4
找到 别找到其他的了, 我这里的 是 ,所以手机应该设置代理为 IP 端口为 , 对了 ,手机需要连接电脑同一 络下的WIFI或者电脑的热点WIFI ,否则是不行的
- Linux/Unix 用户应该就不用我说了吧,都是大佬 打开, 输入
这里 和其他的不要搞混淆了
- 我是魅族手机大概演示一下设置, 打开 -> 找到 -> 找到 点击进去,把 , 设置好 ,结果如图
配置好后,打开 ,发现多了非常多数据,一闪一闪
OK 这一步完成,接下来就是 点击一下左上角的 ,左边,清空一下列表,然后打开 APP,获取信息
打开之后一直往下拉,先加载一些数据出来看看, 这时候要仔细看看那一条信息一直在闪
这是打开之后得到的数据,大致可以看出来,因为我们是要抓 (美之图),所以数据肯定不是啥的
这时候拿着手机,使劲往下拉,看看那个在动, 这时候发现
这条数据一直在闪,我们打开看看
咦,这种数据好熟悉啊, 好像打开看一下
一目了然了
再来看看数据规律
就是页数, 是什么呢,复制他的URL到浏览器看看
好像摸到规律了有没有, 应该是每次加载得到的数据,我们把 改一下试试
结果显然是的,这时候我们肯定都想知道那他最大能提取多少呢,我试过了 最大是 /滑稽
OK结束了,写代码了……你确定不认真看看数据里面的信息吗p>
我们打开看看里面有些什么东西
这东西…需要打马赛克吗
我之前直接提取 ,抓取图片到最后发现图片没有多少,只有, 这就感觉很不对了,我打开 发现每一个最少都有张图片,但是到了这里怎么就只有一张了呢p>
这时候 发现了,这个数目应该就是图片的张数,但是还是无法解决(这里大佬看了别嫌我笨啊,我第一次遇到这种情况)
然后我发现 最后位数,,,,,,,,,,,,,,,,试试,结果一试就成了
这时候大体的流程就完成了
代码
这里就上核心代码了,完整代码在项目里去看吧 地址:github.com/cexll/Mzitu…
代码大概意思是通过打开得到数据返回,解析里面的和,再通过循环从到(我这里写的简单粗暴,有更方便的方法可以告诉我),图片URL后面通过切片来拼接图片的链接
然后通过将和保存到本地,图片下载到本地,通过两个函数实现,如果不下载图片
不需要多少时间,但下载图片时间需要久一点,这里使用异步下载图片应该非常快,但我认为做爬虫也要有爬虫的尊严,小站就别大批量的去访问了
运行结果(不保存图片)
这是在服务器下运行只保存信息到本地,全站图片数据有
最后
再最后,我把我保存到本地的图片打包放到百度 盘了,有需要的去取…别问我那么大什么时候能下载完成,点这里
盘地址: 这里 提取码:(57iu)
由于打包在一个压缩包太大了,而且也无法上传,就分了4份,每一份1G左右,每一张图片不重复
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览211392 人正在系统学习中 相关资源:开源的爬虫软件Heritrix3.1.0_开源爬虫-Java工具类资源-CSDN文库
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!