隔壁老王都找我要的33款开源爬虫框架,《记得收藏哦!不然看着看着就不见了》
- 目录
-
- JAVA爬虫
-
- 1、 Arachnid
- 2、crawlzilla
- 3、Ex-Crawler
- 4、Heritrix
- 5、heyDr
- 6、ItSucks
- 7、jcrawl
- 8、JSpider
- 9、Leopdo
- 10、MetaSeeker
- 11、Playfish
- 12、Spiderman
- 13、webmagic
- 14、Web-Harvest
- 15、WebSPHINX
- 16、YaCy
- 17、Web Crawler
- Python爬虫
-
- 1、QuickRecon
- 2、PyRailgun
- 19、Scrapy
- C++爬虫
-
- 1、hispider
- 2、larbin
- 3、Methabot
- C#爬虫
-
- 1、NWebCrawler
- 2、Sinawler
- 3、spidernet
- 4、 络矿工
- PHP爬虫
-
- 1、OpenWebSpider
- 2、PhpDig
- 3、ThinkUp
- 4、微购
- ErLang爬虫
-
- 1、Ebot
- Ruby爬虫
-
- 1、Spidr
目录
很多人一提到爬虫,就会想到Python语言。其实不仅仅只有Python才能写爬虫,其他语言也有非常优秀的爬虫框架。今天苏州程序大白我推荐给大家这33款爬虫开源框架!看懂这些框架以后对你们来说 So easy
开讲啦!!!!

JAVA爬虫
1、 Arachnid
是一个基于Java的r框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现的子类就能够开发一个简单的并能够在Web站上的每个页面被解析之后增加几行代码调用。的下载包中包含两个应用程序例子用于演示如何使用该框架。
许可证:GPL
特点:微型爬虫框架,含有一个小型HTML解析器
项目主页:http://arachnid.sourceforge.net/
下载地址:https://sourceforge.net/projects/arachnid/
2、crawlzilla
是一个帮你轻松建立搜索引擎的自由软件,有了它,你就不用依靠商业公司的搜索引擎,也不用再烦恼公司內部 站资料索引的问题。
由 专案为核心,并整合更多相关套件,并卡发设计安装与管理UI,让使用者更方便上手。
除了爬取基本的 html 外,还能分析 页上的文件,如( doc、pdf、ppt、ooo、rss )等多种文件格式,让你的搜索引擎不只是 页搜索引擎,而是 站的完整资料索引库。
拥有中文分词能力,让你的搜索更精准。
的特色与目标,最主要就是提供使用者一个方便好用易安裝的搜索平台。
操作系统:Linux
授权协议:Apache License 2
开发语言:Java JavaScript SHELL
特点:安装简易,拥有中文分词功能
项目主页: https://github.com/shunfa/crawlzilla
下载地址: http://sourceforge.net/projects/crawlzilla/
3、Ex-Crawler
是一个 页爬虫,采用 Java 开发,该项目分成两部分,一个是守护进程,另外一个是灵活可配置的 Web 爬虫。使用数据库存储 页信息。
开发语言:Java
授权协议:GPLv3
操作系统:跨平台
特点:由守护进程执行,使用数据库存储 页信息
项目主页:http://ex-crawler.sourceforge.net/joomla/
下载地址:https://sourceforge.net/projects/ex-crawler/
4、Heritrix
是一个由 java 开发的、开源
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!