开源的49款Java 络爬虫软件

参考地址

  • 搜索引擎 Nutch

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现…

  • 垂直爬虫 WebMagic

    webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。 以下是爬取oschina博客的一段代码: Spider.create(new SimplePageProcessor(“http://my.oschina.net/”, “http://my.oschina.net/*/blog/*”))….

    web爬虫 Heritrix

  • Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从 上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。 Heritrix是一个爬虫框架,其组织结…

  • 页抓取工具 PlayFish

    playfish是一个采用java技术,综合应用多个开源java组件实现的 页抓取工具,通过XML配置文件实现高度可定制性与可扩展性的 页抓取工具 应用开源jar包包括httpclient(内容读取),dom4j(配置文件解析),jericho(html解析),已经在 war包的lib下。 这个项…

  • Web爬虫程序 CrawlZilla

    crawlzilla 是一個幫你輕鬆建立搜尋引擎的自由軟體,有了它,你就不用依靠商業公司的收尋引擎,也不用再煩惱公司內部網站資料索引的問題 由 nutch 專案為核心,並整合更多相關套件,並開發設計安裝與管理UI,讓使用者更方便上手。 crawlzilla 除了爬取基本…

  • 页爬虫 YaCy

    YaCy基于p2p的分布式Web搜索引擎.同时也是一个Http缓存代理服务器.这个项目是构建基于p2p Web索引 络的一个新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的 页或启动分布式Crawling等

    基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件 nutch-htmlunit

  • Nutch Htmlunit Plugin 重要说明: 当前项目基于Nutch 1.X系列已停止更新维护,转向Nutch 2.x系列版本的新项目:http://www.oschina.net/p/nutch-ajax 项目简介 基于Apache Nutch 1.8和Htmlunit组件,实现对于AJAX加载类型页面的完整页面内容抓取解析。 Ac..

    页爬虫 Ex-Crawler

  • Ex-Crawler 是一个 页爬虫,采用 Java 开发,该项目分成两部分,一个是守护进程,另外一个是灵活可配置的 Web 爬虫。使用数据库存储 页信息。

  • 简易HTTP爬虫 HttpBot

    HttpBot 是对 java.net.HttpURLConnection类的简单封装,可以方便的获取 页内容,并且自动管理session,自动处理301重定向等。虽然不能像HttpClient那样强大,支持完整的Http协议,但却非常地灵活,可以满足我目前所有的相关需求。..

  • Web爬虫框架 Smart and Simple Web Crawler

    Smart and Simple Web Crawler是一个Web爬虫框架。集成Lucene支持。该爬虫可以从单个链接或一个链接数组开始,提供两种遍历模式:最大迭代和最大深度。可以设置 过滤器限制爬回来的链接,默认提供三个过滤器ServerFilter、BeginningPathFilter和 RegularE…

  • 招聘信息爬虫 JobHunter

    JobHunter旨在自动地从一些大型站点来获取招聘信息,如chinahr,51job,zhaopin等等。JobHunter 搜索每个工作项目的邮件地址,自动地向这一邮件地址发送申请文本。

  • web爬虫 jcrawl

    jcrawl是一款小巧性能优良的的web爬虫,它可以从 页抓取各种类型的文件,基于用户定义的符 ,比如email,qq.

  • 络爬虫 goodcrawler

    goodcrawler(GC) 络爬虫 GC是一个垂直领域的爬虫,同时也是一个拆箱即用的搜索引擎。 GC基于httpclient、htmlunit、jsoup、elasticsearch。 GC的特点: 1、具有DSL特性的模板。 2、分布式、可扩展。 3、辛亏有htmlunit,它能较好地支持javascript。 5、合…

  • ItSucks

    ItSucks是一个java web spider(web机器人,爬虫)开源项目。支持通过下载模板和正则表达式来定义下载规则。提供一个swing GUI操作界面。  

    ItSucks
  • web 搜索和爬虫 Leopdo

    用JAVA编写的web 搜索和爬虫,包括全文和分类垂直搜索,以及分词系统

文章知识点与官方知识档案匹配,可进一步学习相关知识Java技能树 络编程 络编程基础92454 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2016年5月3日
下一篇 2016年5月3日

相关推荐