python多进程爬虫框架nspider

文章目录

  • 轻量级多进程爬虫框架nspider
    • 基础架构:
    • 安装 nspider 到你的 python 环境

轻量级多进程爬虫框架nspider

楼主之前对爬虫颇有兴趣,为了学习爬虫和多进程+多线程编程,用了假期的时间写了一个爬虫框架,肯定是比不上那些专业的,就供大家玩玩和入门者一起交流和学习吧。

参考、借鉴了 Scrapy 架构, 以及 PSpider 架构。

github上有写了一点点的文档。

https://github.com/Nymphxyz/nspider

NymphSpider(NSpider) 是面向个人电脑的超轻量级资源爬取框架。nspider 基于requests库,采用多进程 + 多线程的设计。主要针对普通论坛、资源 站的图片、视频资源进行爬取。

nspider 基于 SQLite 进行数据和进度存储工作,在 nspider 设计框架和 SQLite 自有的鲁棒性上来看,你可以随时随地暂停,杀死nspider,nspider将会在下一次启动时自动恢复上一次的工作进度。

基础架构:

brief

安装 nspider 到你的 python 环境

用法展示:

考虑到 络,解析速度等原因,nspider并没有对是否完成所有爬取做判断,因此当控制台长时间未出现新信息时,基本可以判断爬取已经结束,你需要手动关闭 spider

当添加 request dupe_filter 为 True 时(默认为True),你也可以尝试重新启动 nspdier 看看是否真的已经完成了所有请求。你应该只会看到 Refuse adding request 的信息。

现在你可以开始下载图片了。下载完毕后程序会自动退出。

如果中途退出,或者有些资源下载失败也不要紧,你可以多次运行该程序,默认配置会自动重新下载已经失败的,以及还没有下载的资源。

觉得有用的话,给个star吧,感谢。

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览211387 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年3月15日
下一篇 2021年3月15日

相关推荐