爬虫_83款 络爬虫开源软件

 

1、http://www.oschina.net/project/tag/64/spiderng=0&os=0&sort=view&

 

  • 搜索引擎 Nutch

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web… 

    最近更新:【每日一博】Nutch 的 url 的正则过滤机制研究 发布于 20天前

  • 站爬虫 Grub Next Generation

    Grub Next Generation 是一个分布式的 页爬虫系统,包含客户端和服务器可以用来维护 页的索引。 

  • web爬虫 Heritrix

    Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从 上抓取想要的资源。Heritrix设计成严格按照robots.txt文件 的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。 Heritrix是一个爬虫框架,其组织结… 

  • Java多线程Web爬虫 Crawler4j

    Crawler4j是一个开源的Java类库提供一个用于抓取Web页面的简单接口。可以利用它来构建一个多线程的Web爬虫。 示例代码: import java.util.ArrayList; import java.util.regex.Pattern; import edu.uci.ics.crawler4j.crawler.Page; import edu.uci.ics.cr… 更多Crawler4j信息

  • 页抓取/信息提取软件 MetaSeeker

    页抓取/信息提取/数据抽取软件工具包MetaSeeker (GooSeeker) V4.11.2正式发布,在线版免费下载和使用,源代码可阅读。自推出以来,深受喜爱,主要应用领域: 垂直搜索(Vertical Search):也称为专业搜索,高速、海量和精确抓取是定题 络爬虫DataScrap… 更多MetaSeeker信息

  • Java 络蜘蛛/ 络爬虫 Spiderman

    Spiderman – 又一个Java 络蜘蛛/爬虫 Spiderman 是一个基于微内核+插件式架构的 络蜘蛛,它的目标是通过简单的方法就能将复杂的目标 页信息抓取并解析为自己所需要的业务数据。 主要特点 * 灵活、可扩展性强,微内核+插件式架构,Spiderman提供了多达 … 更多Spiderman信息

  • 页爬虫 Methanol

    Methanol 是一个模块化的可定制的 页爬虫软件,主要的优点是速度快。 更多Methanol信息

  • 络爬虫/ 络蜘蛛 larbin

  • 爬虫小新 Sinawler

    国内第一个针对微博数据的爬虫程序!原名“新浪微博爬虫”。 登录后,可以指定用户为起点,以该用户的关注人、粉丝为线索,延人脉关系搜集用户基本信息、微博数据、评论数据。 该应用获取的数据可作为科研、与新浪微博相关的研发等的数据支持,但请勿用于商… 更多Sinawler信息

  • 【免费】死链接检查软件 Xenu

    Xenu Link Sleuth 也许是你所见过的最小但功能最强大的检查 站死链接的软件了。你可以打开一个本地 页文件来检查它的链接,也可以输入任何 址来检查。它可以分别列出 站 的活链接以及死链接,连转向链接它都分析得一清二楚;支持多线程 ,可以把检查结… 

  • 页抓取工具 PlayFish

  • playfish 是一个采用java技术,综合应用多个开源java组件实现的 页抓取工具,通过XML配置文件实现高度可定制性与可扩展性的 页抓取工 具 应用开源jar包包括httpclient(内容读取),dom4j(配置文件解析),jericho(html解析),已经在 war包的lib下。 这个

  • 易得 络数据采集系统

  • 简易HTTP爬虫 HttpBot

    HttpBot 是对 java.net.HttpURLConnection类的简单封装,可以方便的获取 页内容,并且自动管理session,自动处理301重定向等。虽 然不能像HttpClient那样强大,支持完整的Http协议,但却非常地灵活,可以满足我目前所有的相关需求。… 更多HttpBot信息

  • 新闻采集器 NZBGet

    NZBGet是一个新闻采集器,其中从新闻组下载的资料格式为nzb文件。它可用于单机和服务器/客户端模式。在独立模式中通过nzb文件作为参数的命令 行来下载文件。服务器和客户端都只有一个可执行文件”nzbget”。 功能和特点 控制台界面,使用纯文本,彩色文字或… 更多NZBGet信息

  • 页爬虫 Ex-Crawler

    Ex-Crawler 是一个 页爬虫,采用 Java 开发,该项目分成两部分,一个是守护进程,另外一个是灵活可配置的 Web 爬虫。使用数据库存储 页信息。 更多Ex-Crawler信息

  • 招聘信息爬虫 JobHunter

    JobHunter旨在自动地从一些大型站点来获取招聘信息,如chinahr,51job,zhaopin等等。JobHunter 搜索每个工作项目的邮件地址,自动地向这一邮件地址发送申请文本。 更多JobHunter信息

  • 页爬虫框架 hispider

    HiSpider is a fast and high performance spider with high speed 严格说只能是一个spider系统的框架, 没有细化需求, 目前只是能提取URL, URL排重, 异步DNS解析, 队列化任务, 支持N机分布式下载, 支持 站定向下载(需要配置hispiderd.ini whitelist). 特征… 更多hispider信息

  • Perl爬虫程序 Combine

    Combine 是一个用Perl语言开发的开放的可扩展的互联 资源爬虫程序。 更多Combine信息

  • web爬虫 jcrawl

    jcrawl是一款小巧性能优良的的web爬虫,它可以从 页抓取各种类型的文件,基于用户定义的符 ,比如email,qq. 更多jcrawl信息

  • 分布式 页爬虫 Ebot

    Ebot 是一个用 ErLang 语言开发的可伸缩的分布式 页爬虫,URLs 被保存在数据库中可通过 RESTful 的 HTTP 请求来查询。 

  • ItSucks

    ItSucks是一个java web spider(web机器人,爬虫)开源项目。支持通过下载模板和正则表达式来定义下载规则。提供一个swing GUI操作界面。   

    ItSucks 更多ItSucks信息
  • 页搜索爬虫 BlueLeech

    BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。 更多BlueLeech信息

  • URL监控脚本 urlwatch

    最近更新: urlwatch 1.8 发布 发布于 4年前

  • Methabot

    Methabot 是一个经过速度优化的高可配置的 WEB、FTP、本地文件系统的爬虫软件。 更多Methabot信息

  • web 搜索和爬虫 Leopdo

    用JAVA编写的web 搜索和爬虫,包括全文和分类垂直搜索,以及分词系统 更多Leopdo信息

  • Web爬虫工具 NCrawler

  • Ajax爬虫和测试 Crawljax

    Crawljax: java编写,开放源代码。 Crawljax 是一个 Java 的工具用于自动化的爬取和测试现在的 Ajax Web 应用。

  • 收藏贴!!!

文章知识点与官方知识档案匹配,可进一步学习相关知识Java技能树使用JDBC操作数据库数据库操作92454 人正在系统学习中 相关资源:开源的爬虫软件Heritrix3.1.0_开源爬虫Java工具类资源-CSDN文库

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2016年2月1日
下一篇 2016年2月1日

相关推荐