是一个基于Java的r框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现的子类就能够开发一个简单的并能够在Web站上的每个页面被解析之后增加几行代码调用。的下载包中包含两个应用程序例子用于演示如何使用该框架。

许可证：GPL

特点：微型爬虫框架，含有一个小型HTML解析器

项目主页：http://arachnid.sourceforge.net/

下载地址：https://sourceforge.net/projects/arachnid/

是一个帮你轻松建立搜索引擎的自由软件，有了它，你就不用依靠商业公司的搜索引擎，也不用再烦恼公司內部站资料索引的问题。

由专案为核心，并整合更多相关套件，并卡发设计安装与管理UI，让使用者更方便上手。

除了爬取基本的 html 外，还能分析页上的文件，如（ doc、pdf、ppt、ooo、rss ）等多种文件格式，让你的搜索引擎不只是页搜索引擎，而是站的完整资料索引库。

拥有中文分词能力，让你的搜索更精准。

的特色与目标，最主要就是提供使用者一个方便好用易安裝的搜索平台。

操作系统：Linux

授权协议：Apache License 2

开发语言：Java JavaScript SHELL

特点：安装简易，拥有中文分词功能

项目主页： https://github.com/shunfa/crawlzilla
下载地址： http://sourceforge.net/projects/crawlzilla/

是一个页爬虫，采用 Java 开发，该项目分成两部分，一个是守护进程，另外一个是灵活可配置的 Web 爬虫。使用数据库存储页信息。

开发语言：Java

授权协议：GPLv3

操作系统：跨平台

特点：由守护进程执行，使用数据库存储页信息

项目主页：http://ex-crawler.sourceforge.net/joomla/
下载地址：https://sourceforge.net/projects/ex-crawler/

是一个由 java 开发的、开源

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

隔壁老王都找我要的33款开源爬虫框架，《记得收藏哦！不然看着看着就不见了》

目录