免费的高匿名爬虫代理池不求人|高可用、高匿名、代理池详解及搭建推荐

文章目录

    • 关于代理的分类:
      • 透明代理(Transparent Proxy)
      • 匿名代理(Anonymous Proxy)
      • 混淆代理(Distorting Proxies)
      • 高匿代理(Elite proxy或High Anonymity Proxy)
    • 匿名程度检测方法(实践上面介绍知识点)
      • 1. 检测HTTP代理匿名度
      • 2. 检测SOCKS5代理匿名度
      • 3. Tor代理匿名度
      • 总结
    • 开源代理池推荐
      • 高可用高匿名的socks5代理池爬虫-spider_free_proxy
        • 使用方法介绍
    • 总结

有了自己的代理池才可以更加放心的采集数据了,否则总会遇到单个IP扫描频率过高而限制问题。接下来我们可以使用下面的代理池搭建属于自己的代理池(真正高速稳定的代理还是要花资金的,或购买VPS自建、或买代理服务).

搭建代理池的要求:使用Linux操作系统平台、haproxy做高可用、开源的spider_free_proxy项目做爬虫即socks服务维护。

构建代理池前必须对代理种类有个基本了解,透明、匿名代理啥意思何可以让服务器无法检测到你的真实的请求源主机地址着这些疑问,开始下面的内容吧。

关于代理的分类:

  • 按协议分类: HTTP、HTTPS、SOCKS4、SOCKS5、TOR(洋葱代理)
  • 按匿名程度: 透明、普通匿名、高匿名 , 匿名度检测方法可以通过获取请求头部信息判断。

通常协议代理属于高匿名代理,不会知道源主机地址, 而协议代理要根据代理软件的配置情况决定。

搭建好了检测环境后,可以进行代理匿名度检测了。

1. 检测HTTP代理匿名度

Nginx服务器端检测返回结果为:

结果可以看到,(为了隐私此地址是我随机写的)这个地址是源请求主机的真实公 IP地址,通过代理访问后依然可以在中获取到源请求的IP地址,因此这个代理是,这种代理很容易暴露个人真实IP地址,因此不建议使用的。

同理从HTTP代理匿名检测方法,检测到的高匿名代理才是更加可靠可用的,但是这样的免费代理还是很少的,而且稳定性也很差,如果使用还是自己搭建的好(购买ADSL拨 动态IP的VPS应运而生)。

我们再来看看使用命令的抓包显示HTTP头部信息:

这里可以看到字段携带了我们的真实IP地址,字段告诉服务器这条请求使用了HTTP代理。

2. 检测SOCKS5代理匿名度

SOCKS5代理实现的软件很多,这里不进行具体举例了。想了解的可以上 搜索。

Nginx服务器端检测返回结果为:

从返回结果可以看到,使用代理后,nginx检测到的IP请求是代理IP地址,没有携带真实的源请求IP地址。这就是高匿名代理,非常推荐使用的。
如果代理主机安全(不会有数据泄漏问题),那么服务端是无法得知真正的请求是谁发出的。

我们再来看看使用命令的抓包显示HTTP头部信息:

使用不会提供字段的,也没有字段告诉服务器这个请求使用了代理。服务器会认为这个请求就是真实用户发出的(除非这个IP因为使用人太多而被标记为可疑IP)。

3. Tor代理匿名度

这个其实就不用多说了,这种多级代理的构建的匿名度是非常高的,而且每次请求的代理路径可以是不同的,想要真正的找到源头难度非常高。这里不做测试了。

总结

通过以上的验证,我们可以更加深入的理解代理的匿名程度及检测方法了,这对于我们自己搭建代理服务或者构建代理池是很有帮助的。

接下来,我们来看看有哪些开源产品搭建免费代理池。

开源代理池推荐

高可用高匿名的socks5代理池爬虫-spider_free_proxy

高可用是使用了软负载均衡,高匿名是全部使用socks5代理,而且免费开源。

  1. 使用软负载均衡,默认配置150个后端服务(服务配置越多各资源占用越多)。
  2. 使用的SOCKS5代理均为加密代理,也就是数据传输过程安全。
  3. 代理池更新过程通过爬虫调度任务自动爬取,自动检测可用性。
  4. 默认配置爬取地址均。
  5. 爬虫只需要使用一个固定地址可以实现动态代理变更。

开源地址: spider_free_proxy ,该项目本人开发,喜欢的话可以。

使用方法介绍

自动安装Anaconda3环境、Redis、socks5客户端工具还会自动安装实现负载均衡功能。

安装过程简单(Linux建议选择Ubuntu或CentOS):

使用方法:

默认开放服务地址为,适合部署到本地Linux主机使用。
如果使用VPS(有公 IP)可以修改配置为,这样可以远程访问。

下面是使用示例:

具体使用哪一个IP地址交给了的均衡策略(默认:leastconn 最少连接策略)了,定制负载均衡策略可以阅读文档。

总结

开源产品可能还有很多,如果你有更好的方案或者产品,可以互相交流学习。

如果你对学习爬虫感兴趣可以阅读《虫师的江湖》这本书,这里有对Selenium、Appium、Scrapy以及Pyppeteer使用的教程,如果您没有看云帐 ,可以点击此推广链接即可注册看云帐 。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年1月13日
下一篇 2021年1月13日

相关推荐