原帖地址 http://www.oschina.net/project/lang/19g=64&sort=time
-
极简 络爬虫组件 WebFetch
WebFetch 是无依赖极简 页爬取组件,能在移动设备上运行的微型爬虫。 WebFetch 要达到的目标: 没有第三方依赖jar包 减少内存使用 提高CPU利用率 加快 络爬取速度 简洁明了的api接口 能在Android设备上稳定运行 小巧灵活可以方便集成的 页抓取组件 使用…更多WebFetch信息
-
开源爬虫框架 GuozhongCrawler
-
络爬虫 kamike.collect
Another Simple Crawler 又一个 络爬虫,可以支持代理服务器的FQ爬取。 1.数据存在mysql当中。 2.使用时,先修改web-inf/config.ini的数据链接相关信息,主要是数据库名和用户名和密码 3.然后访问http://127.0.0.1/fetch/install 链接,自动创建数据库表…更多kamike.collect信息
-
页版爬虫 spider-web
spider-web 是爬虫的 页版,使用xml配置,支持大部分页面的爬取,支持爬取内容的保存、下载等。 其中配置文件格式为:
http://www.oschina….更多spider-web信息 -
丑牛迷你采集器
-
络数据抓取框架 TinySpider
TinySpider是一个基于Tiny HtmlParser的 络数据抓取框架。 Maven引用坐标:
org.tinygroup org.tinygroup.spider 0.1.0-SNAPSHOT -
脚本编程语言 CrawlScript
JAVA平台上的 络爬虫脚本语言 CrawlScript 络爬虫即自动获取 页信息的一种程序,有很多JAVA、C++的 络爬虫类库,但是在这些类库的基础上开发十分繁琐,需要大量的代码才可以完成一个简单 的操作。鉴于这个问题,我们开发了CrawlScript这种脚本语言,程…更多CrawlScript信息
-
基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件 nutch-htmlunit
Nutch Htmlunit Plugin 项目简介 基于Apache Nutch 1.8和Htmlunit组件,实现对于AJAX加载类型页面的完整页面内容抓取解析。 According to the implementation of Apache Nutch 1.8, we can’t get dynamic HTML information from fetch pages including AJ…更多nutch-htmlunit信息
最近更新: Nutch-Htmlunit 1.8 发布:基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件 发布于 10个月前
-
络爬虫 goodcrawler
goodcrawler(GC) 络爬虫 GC是一个垂直领域的爬虫,同时也是一个拆箱即用的搜索引擎。 GC基于httpclient、htmlunit、jsoup、elasticsearch。 GC的特点: 1、具有DSL特性的模板。 2、分布式、可扩展。 3、辛亏有htmlunit,它能较好地支持javascript。 5、合…更多goodcrawler信息
-
垂直爬虫 WebMagic
webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。 以下是爬取oschina博客的一段代码: Spider.create(new SimplePageProcessor(“http://my.oschina.net/”, “http://my.oschina.net/*/blog/*”))….
最近更新: WebMagic 0.5.2发布,Java爬虫框架 发布于 1年前
-
检索爬虫框架 heyDr
heyDr是一款基于java的轻量级开源多线程垂直检索爬虫框架,遵循GNU GPL V3协议。 用户可以通过heyDr构建自己的垂直资源爬虫,用于搭建垂直搜索引擎前期的数据准备。
-
Common Crawl
commoncrawl 源码库是用于 Hadoop 的自定义 InputFormat 配送实现。 Common Crawl 提供一个示例程序 BasicArcFileReaderSample.java (位于 org.commoncrawl.samples) 用来配置 InputFormat。…更多Common Crawl信息
-
数据收集系统 Chukwa
什么是 Chukwa,简单的说它是一个数据收集系统,它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 Hadoop 进行各种 MapReduce 操作。Chukwa 本身也提供了很多内置的功能,帮助我们进行数据的收集和整理。 为了更加简单直观的展示 …
-
页爬虫 Ex-Crawler
Ex-Crawler 是一个 页爬虫,采用 Java 开发,该项目分成两部分,一个是守护进程,另外一个是灵活可配置的 Web 爬虫。使用数据库存储 页信息。更多Ex-Crawler信息
-
页抓取工具 PlayFish
playfish是一个采用java技术,综合应用多个开源java组件实现的 页抓取工具,通过XML配置文件实现高度可定制性与可扩展性的 页抓取工具 应用开源jar包包括httpclient(内容读取),dom4j(配置文件解析),jericho(html解析),已经在 war包的lib下。 这个项…更多PlayFish信息
-
web爬虫 jcrawl
jcrawl是一款小巧性能优良的的web爬虫,它可以从 页抓取各种类型的文件,基于用户定义的符 ,比如email,qq.更多jcrawl信息
-
Java多线程Web爬虫 Crawler4j
Crawler4j是一个开源的Java类库提供一个用于抓取Web页面的简单接口。可以利用它来构建一个多线程的Web爬虫。 示例代码: import java.util.ArrayList; import java.util.regex.Pattern; import edu.uci.ics.crawler4j.crawler.Page; import edu.uci.ics.cr…更多Crawler4j信息
-
Web爬虫框架 Smart and Simple Web Crawler
Smart and Simple Web Crawler是一个Web爬虫框架。集成Lucene支持。该爬虫可以从单个链接或一个链接数组开始,提供两种遍历模式:最大迭代和最大深度。可以设置 过滤器限制爬回来的链接,默认提供三个过滤器ServerFilter、BeginningPathFilter和 RegularE…更多Smart and Simple Web Crawler信息
-
根据URL生成PDF的工具 h2p
根据批量URL生成一个有书签的pdf文档的解决方案。h2p-file是一个xml文件,该xml文件主要描述url的信息和url的层次结构,h2p-tool根据h2p-file生成有书签的pdf文档。还可以通过xsl直接展示url的层次结构,而且合作 站对h2p的支持也将变得简单…
-
Web-Harvest
Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。Web-Harvest主要是运用了像XSLT,XQuery,正则表达式等这些技术来实现对text/xml的操作。
-
LARM
LARM能够为Jakarta Lucene搜索引擎框架的用户提供一个纯Java的搜索解决方案。它包含能够为文件,数据库表格建立索引的方法和为Web站点建索引的爬虫。更多LARM信息
-
Arachnid
Arachnid是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spider应用…更多Arachnid信息
-
Spindle Spider
spindle是一个构建在Lucene工具包之上的Web索引/搜索工具.它包括一个用于创建索引的HTTP spider和一个用于搜索这些索引的搜索类。spindle项目提供了一组JSP标签库使得那些基于JSP的站点不需要开发任何Java类就能够增加搜 索功能。…更多Spindle Spider信息
-
Arale Spider
Arale主要为个人使用而设计,而没有像其它爬虫一样是关注于页面索引。Arale能够下载整个web站点或来自web站点的某些资源。Arale还能够把动态页面映射成静态页面。更多Arale Spider信息
-
WebLech
WebLech是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。更多WebLech信息
-
WebSPHINX
WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。WebSPHINX由两部分组成:爬虫工作平台和WebSPHINX类包。
-
页爬虫 YaCy
YaCy基于p2p的分布式Web搜索引擎.同时也是一个Http缓存代理服务器.这个项目是构建基于p2p Web索引 络的一个新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的 页或启动分布式Crawling等.更多YaCy信息
最近更新: YaCy 1.4 发布,分布式Web搜索引擎 发布于 2年前
-
搜索引擎 Nutch
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现…
最近更新: Apache Nutch 1.10 发布,搜索引擎 发布于 1个月前
文章知识点与官方知识档案匹配,可进一步学习相关知识Java技能树 络编程 络编程基础92459 人正在系统学习中 相关资源:开源的爬虫软件Heritrix3.1.0_开源爬虫–Java工具类资源-CSDN文库
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!