文章目录
- 轻量级多进程爬虫框架nspider
-
- 基础架构:
- 安装 nspider 到你的 python 环境
轻量级多进程爬虫框架nspider
楼主之前对爬虫颇有兴趣,为了学习爬虫和多进程+多线程编程,用了假期的时间写了一个爬虫框架,肯定是比不上那些专业的,就供大家玩玩和入门者一起交流和学习吧。
参考、借鉴了 Scrapy 架构, 以及 PSpider 架构。
github上有写了一点点的文档。
https://github.com/Nymphxyz/nspider
NymphSpider(NSpider) 是面向个人电脑的超轻量级资源爬取框架。nspider 基于requests库,采用多进程 + 多线程的设计。主要针对普通论坛、资源 站的图片、视频资源进行爬取。
nspider 基于 SQLite 进行数据和进度存储工作,在 nspider 设计框架和 SQLite 自有的鲁棒性上来看,你可以随时随地暂停,杀死nspider,nspider将会在下一次启动时自动恢复上一次的工作进度。
基础架构:

安装 nspider 到你的 python 环境
用法展示:
考虑到 络,解析速度等原因,nspider并没有对是否完成所有爬取做判断,因此当控制台长时间未出现新信息时,基本可以判断爬取已经结束,你需要手动关闭 spider
当添加 request dupe_filter 为 True 时(默认为True),你也可以尝试重新启动 nspdier 看看是否真的已经完成了所有请求。你应该只会看到 Refuse adding request 的信息。
现在你可以开始下载图片了。下载完毕后程序会自动退出。
如果中途退出,或者有些资源下载失败也不要紧,你可以多次运行该程序,默认配置会自动重新下载已经失败的,以及还没有下载的资源。
觉得有用的话,给个star吧,感谢。
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览211387 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!