通常开发好的Scrapy爬虫部署到服务器上,要不使用nohup命令,要不使用scrapyd。如果使用nohup命令的话,爬虫挂掉了,你可能还不知道,你还得上服务器上查或者做额外的邮件通知操作。如果使用scrapyd,就是部署爬虫的时候有点复杂,功能少了点,其他还好。
SpiderKeeper是一款管理爬虫的软件,和scrapinghub的部署功能差不多,能多台服务器部署爬虫,定时执行爬虫,查看爬虫日志,查看爬虫执行情况等功能。
项目地址:https://github.com/DormyMo/SpiderKeeper
一、运行环境
- Centos7
- Python2.7
- Python3.6
注意:supervisor依赖的是Python2.7,scrapyd依赖Python3,需要自行编译安装。Python3具体安装自行百度。
二、安装依赖
1、supervisor
2、scrapyd
3、SpiderKeeper
三、配置scrapyd
1、新建scrapyd的配置文件:
四、配置supervisor
1、创建文件夹和配置文件
改为
3、新建conf.d文件夹
4、添加scrapyd的配置文件
5、添加spiderkeeper的配置文件
6、启动supervisor,
7、
五、使用
1、登录http://localhost:5000
2、新建project
3、打包爬虫文件
4、上传打包好的爬虫egg文件
SpiderKeeper挺好用的,但是也是有一些bug,但不影响使用。SpiderKeeper可以识别多台服务器的scrapyd,具体多加–server就好。
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫Scrapy框架210415 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!