Python爬虫实战三 | 蓝奏 盘抓取 盘链接信息

今天在使用蓝奏 盘的时候发现有一个文件夹加密分享,然后我就尝试了加密文件夹,但是文件夹下的文件还是可以直接通过访问该文件链接得到,所以对于文件夹加密是否显得有点鸡肋了呐r>

如此,我们便简单的使用Python爬虫来实现一下:

1.抓取 盘链接+文件名

实现:

1.分析:

第一个链接:http://pan.lanzou.com/x/1671840

因此,我们开始尝试写获取 页的代码

代码运行如下:

那就先不管了。。。因为以前都是需要的,百度一下,在某个大神博客截图说明一下,

我们继续,等会儿通过判断返回的状态码来确定是否继续执行下一步。

既然HTTPS没问题了,那么问题现在就简单了:

如此成功顺利

原本是有文件的,只是被取消了,但是我们存储的数据利肯定不能有这些无效数据啊

所以必须得优化,补充一下,访问这种情况, 页的状态码也为200

下节课讲如何利用python模拟登陆保持会话。

关于这个爬取 盘项目还要继续下去,有惊喜哦~哈哈~

CSDN博客主页:http://blog.csdn.net/dyboy2017

Github开源项目:暂无开源

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫urllib211385 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2017年8月11日
下一篇 2017年8月11日

相关推荐