今天在使用蓝奏 盘的时候发现有一个文件夹加密分享,然后我就尝试了加密文件夹,但是文件夹下的文件还是可以直接通过访问该文件链接得到,所以对于文件夹加密是否显得有点鸡肋了呐r>
如此,我们便简单的使用Python爬虫来实现一下:
1.抓取 盘链接+文件名
实现:
1.分析:
第一个链接:http://pan.lanzou.com/x/1671840
因此,我们开始尝试写获取 页的代码
代码运行如下:
那就先不管了。。。因为以前都是需要的,百度一下,在某个大神博客截图说明一下,
我们继续,等会儿通过判断返回的状态码来确定是否继续执行下一步。
既然HTTPS没问题了,那么问题现在就简单了:
如此成功顺利
原本是有文件的,只是被取消了,但是我们存储的数据利肯定不能有这些无效数据啊
所以必须得优化,补充一下,访问这种情况, 页的状态码也为200
下节课讲如何利用python模拟登陆保持会话。
关于这个爬取 盘项目还要继续下去,有惊喜哦~哈哈~
CSDN博客主页:http://blog.csdn.net/dyboy2017
Github开源项目:暂无开源
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫urllib211385 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!