动态换ip软件:手把手教你搭建Cookies池

  很多时候,在抓取没有登陆的情况下,咱们也能够访问一部分 站页面或请求一类接口,因为毕竟 站本身须要做SEO,不会对所有 站页面都设置登陆限制。

  可是,不登陆直接抓取会有一类坏处,坏处主要有以下两点。

  设置了登陆限制的 站页面无法抓取。如某论坛设置了登陆才可查看资源,某博客设置了登陆才可查看全文等,这些 站页面都须要登陆账 才能够查看和抓取。

  一类 站页面和接口虽然能够直接请求,可是请求一旦频繁,访问就容易被限制或者IP直接被封,可是登陆之后就不会出现这样的问题,因此登陆之后被反爬的可能性更低。

  Cookies池中保存了许多新浪微博账 和登陆后的Cookies信息,并且Cookies池还须要定时检测每个Cookies的有效性,如果某Cookies无效,那就删除该Cookies并模拟登陆生成新的Cookies。同时Cookies池还须要一个非常重要的接口,即获取随机Cookies的接口,Cookies运行后,咱们只需请求该接口,即可随机获得一个Cookies并用其抓取。

  由此可见,Cookies池须要有自动生成Cookies、定时检测Cookies、提供随机Cookies等几大核心功能。

  准备工作

  搭建之前肯定须要一类微博的账 。须要安装好Redis数据库并使其正常运行。须要安装Python的RedisPy、requests、Selelnium、Flask库。另外,还须要安装Chrome浏览器并配置好ChromeDriver。

  Cookies池架构

  Cookies的架构和代理池类似,同样是4个核心模块,如下图所示。

  

动态换ip软件:手把手教你搭建Cookies池

  Cookies池架构的基本模块分为4块:存储模块、生成模块、检测模块、接口模块。每个模块的功能如下。

  存储模块负责存储每个账 的用户名密码以及每个账 对应的Cookies信息,同时还须要提供一类方法来实现方便的存取操作。

  生成模块负责生成新的Cookies。此模块会从存储模块逐个拿取账 的用户名和密码,然后模拟登陆目标 站页面,判断登陆成功,就将Cookies返回并交给存储模块存储。

  检测模块须要定时检测数据库中的Cookies。在这里咱们须要设置一个检测链接,不同的站点检测链接不同,检测模块会逐个拿取账 对应的Cookies去请求链接,如果返回的状态是有效的,那么此Cookies没有失效,否则Cookies失效并移除。接下来等待生成模块重新生成即可。

  接口模块须要用API来提供对外服务的接口。由于可用的Cookies可能有多个,咱们能够随机返回Cookies的接口,这样保证每个Cookies都有可能被取到。Cookies越多,每个Cookies被取到的概率就会越小,从而减少被封 的风险。

  以上设计Cookies池的的基本思路和前面讲的代理池有相似之处。接下来咱们设计整体的架构,然后用代码实现该Cookies池。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2019年1月16日
下一篇 2019年1月16日

相关推荐