小甲鱼python视频xxoo爬虫代码改进–煎蛋

2020/7/31 今天学习得是关于小甲鱼得python课程,根据这个课程也确确实实得学到了不少东西,所以希望大家也可以一起去学习
下面是我在小甲鱼上课改造之后得代码
这个课程是在b站上看的, 码是 av27789609

这个是第五十节左右得爬虫 ooxx

他的教学视频是很早的时候录得,现在的 站进行了base64的加密等反爬措施,所以在原有的基础上需要进行修改
下面是我的代码,希望可以给大家一些启发,同时也希望大佬们给与指点。

上面的这一个urlopen简单的说是为了进入 站,然后阅读 站的代码,从而之后为了找到图片的地址等等提供帮助

这个是 站里面的有个页数,选择第几页的时候会用的到,写道这里的时候可以尝试先print(html[a:b]),看是否出来对应的页数在进行操作,那里的”+23″其实是’current-comment-page’的长度,这样做+23之后就直接到达了页数所在的地方。

这里是找图片的函数,在 站的源码中寻找src=,这样就可以找到 站里图片的地址,但是图片里的地址没有http:,所有就需要拼接一下使得 站里read()到的地址加上http:,从而获得一个完整的 络地址。

这个就是从 上下载的具体方法,这里注意的是原来的 站里面的代码经过了base64加密,就是这里面的s代表着每天的日期
这个其实放在最后好一些点。

这个是 站得到的图片进行保存,保存到指定的文件夹里面

这就是改完之后的了,亲测可以运行,希望大佬们给点指点

文章知识点与官方知识档案匹配,可进一步学习相关知识 络技能树首页概览22076 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年6月27日
下一篇 2020年6月27日

相关推荐