AotucCrawler 快速爬取美女图片

今天介绍一款自动化爬取图片项目。

GitHub: https://github.com/YoongiKim/AutoCrawler

Google, Naver multiprocess image web crawler (Selenium)

关键字

  • 爬虫 站:Google、Naver (美、韩两大搜索引擎)

  • 运行方式:Multiprocess(多进程)

  • 爬取格式:image (图片)

  • 基于自动化工具:Selenium (不解释)

如何使用

  1. Git克隆项目到本地

  2. 自行安装  浏览器

  3. 安装依赖

  • : 包含了很多可信任知名公司的证书/公钥。

  • :提供自动检测字符编码的功能。

  • : 提供”对于RFC5891中定义的IDNA协议(Internationalised Domain Names in Applications)的支持”。

  • : 依赖于上面三个基础库,他主要用于根据图片链接下载图片。

  • : 用于启动浏览器,爬取图片链接。

  • : 用来管理selenium浏览器驱动的项目。

仔细分析别人项目,不管是源码还是依赖库都会有收获。 就是我发现的一个宝藏项目,它简化的浏览器驱动的管理。

  1. 打开文件,编写爬取的关键字。

  1. 运行 文件

参数说明:

:如果下载的关键字已经存在,是否跳过关键字,重新下载时需要设置。

:下载使用线程数量

:从 下载。

: 从 下载。

: 下载全分辨率图像而不是缩略图 (慢)。

: Face search mode。

: 使用 GUI 模式. (headless模式) 全分辨率模式可以加速, 但是缩略图模式不稳定。默认模式,如果 默认使用使用GUI,如果默认Headless模式。(可用于docker linux系统)。

: 设置最大图片下载范围。(0: 无限制)

: 逗 分隔的代理列表,如: ,每个线程从列表中随即选择一个。

例如:

  1. 爬取的图片保存于  目录。

小结

  1. 因为使用的是Google 站,没有梯子的同学有点郁闷。项目本身并不复杂,两个python文件加一起不到1000行代码,我们完全可以花点时间替换为国内可访问的搜索引擎。

  2. 下载图片只是为了欣赏猫猫狗狗吗然不是,我们可用下载的图片训练 AI,当然你也可以测试文件上传的时候用。

下面是配套资料,对于做【软件测试】的朋友来说应该是最全面最完整的备战仓库,这个仓库也陪伴我走过了最艰难的路程,希望也能帮助到你!

如果我的博客对你有帮助、如果你喜欢我的博客内容,请 “点赞” “评论” “收藏” 一键三连哦!喜欢软件测试的小伙伴们,可以加入我们的测试技术交流扣扣群:310357728里面有各种软件测试资源和技术讨论)

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年10月22日
下一篇 2021年10月22日

相关推荐