Scrapy可视化管理软件SpiderKeeper

通常开发好的Scrapy爬虫部署到服务器上,要不使用nohup命令,要不使用scrapyd。如果使用nohup命令的话,爬虫挂掉了,你可能还不知道,你还得上服务器上查或者做额外的邮件通知操作。如果使用scrapyd,就是部署爬虫的时候有点复杂,功能少了点,其他还好。

SpiderKeeper是一款管理爬虫的软件,和scrapinghub的部署功能差不多,能多台服务器部署爬虫,定时执行爬虫,查看爬虫日志,查看爬虫执行情况等功能。
项目地址:https://github.com/DormyMo/SpiderKeeper

一、运行环境

  • Centos7
  • Python2.7
  • Python3.6
    注意:supervisor依赖的是Python2.7,scrapyd依赖Python3,需要自行编译安装。Python3具体安装自行百度。

二、安装依赖

1、supervisor 
2、scrapyd 
3、SpiderKeeper

三、配置scrapyd

1、新建scrapyd的配置文件:

四、配置supervisor

1、创建文件夹和配置文件

改为

3、新建conf.d文件夹
4、添加scrapyd的配置文件

5、添加spiderkeeper的配置文件

6、启动supervisor,
7、

五、使用

1、登录http://localhost:5000
2、新建project
3、打包爬虫文件

4、上传打包好的爬虫egg文件

SpiderKeeper挺好用的,但是也是有一些bug,但不影响使用。SpiderKeeper可以识别多台服务器的scrapyd,具体多加–server就好。

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫Scrapy框架210415 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2018年3月8日
下一篇 2018年3月8日

相关推荐