给你一个换ip软件：分布式爬虫通过具体都能干点啥？

　　络爬虫使用分布式，重点是解决两个难题：

　　1)大批量URL管理

　　2) 速

　　现在比较流行的分布式络爬虫，是Apache的Nutch。但是对于大多数用户来说，Nutch是这几类络爬虫里，最不好的选择，理由如下：

　　1)Nutch是为SEO设计的络爬虫，大多数用户是需要一个做精准数据爬取(精抽取)的络爬虫。Nutch运行的一套流程里，有三分之二是为了SEO而设计的。对精抽取没有太大的意义。也就是说，用Nutch做数据抽取，会浪费很多的时间在不必要的计算上。而且如果你试图通过对Nutch进行二次开发，来使得它适用于精抽取的业务，基本上就要破坏Nutch的框架，把Nutch改的面目全非，有修改Nutch的能力，真的不如自己重新写一个分布式络爬虫框架了。

　　2)Nutch依赖hadoop运行，hadoop本身会消耗很多的时间。如果集群机器数量较少，爬取速度反而不如单机络爬虫快。

　　3)Nutch虽然有一套插件机制，而且作为亮点宣传。可以看到一些开源的Nutch插件，提供精抽取的功能。但是开发过Nutch插件的人都知道，Nutch的插件系统有多蹩脚。利用反射的机制来加载和调用插件，使得程序的编写和调试都变得异常困难，更别说在上面开发一套复杂的精抽取系统了。而且Nutch并没有为精抽取提供相应的插件挂载点。Nutch的插件有只有五六个挂载点，而这五六个挂载点都是为了SEO服务的，并没有为精抽取提供挂载点。大多数Nutch的精抽取插件，都是挂载在“页面解析”(parser)这个挂载点的，这个挂载点其实是为了解析链接(为后续爬取提供URL)，以及为SEO提供一些易抽取的页信息( 页的meta信息、text文本)。

　　4)用Nutch进行络爬虫的二次开发，络爬虫的编写和调试所需的时间，往往是单机络爬虫所需的十倍时间不止。了解Nutch源码的学习成本很高，何况是要让一个团队的人都读懂Nutch源码。调试过程中会出现除程序本身之外的各种难题(hadoop的难题、hbase的难题)。

　　5)很多人说Nutch2有gora，可以持久化数据到avro文件、hbase、mysql等。很多人其实理解错了，这里说的持久化数据，是指将URL信息(URL管理所需要的数据)存放到avro、hbase、mysql。并不是你要抽取的结构化数据。其实对大多数人来说，URL信息存在哪里无所谓。

　　6)Nutch2的版本目前并不适合开发。官方现在稳定的Nutch版本是nutch2.2.1，但是这个版本绑定了gora-0.3。如果想用hbase配合nutch(大多数人用nutch2就是为了用hbase)，只能使用0.90版本左右的hbase，相应的就要将hadoop版本降到hadoop 0.2左右。而且nutch2的官方教程比较有误导作用，Nutch2的教程有两个，分别是Nutch1.x和Nutch2.x，这个Nutch2.x官上写的是可以支持到hbase 0.94。但是实际上，这个Nutch2.x的意思是Nutch2.3之前、Nutch2.2.1之后的一个版本，这个版本在官方的SVN中不断更新。而且非常不稳定(一直在修改)。

　　所以，如果你不是要做SEO，尽量不要选择Nutch作为络爬虫。有些团队就喜欢跟风，非要选择Nutch来开发精抽取的络爬虫，其实是冲着Nutch的名气，当然最后的结果往往是项目延期完成。

　　如果你是要做SEO，Nutch1.x是一个非常好的选择。Nutch1.x和solr或者es配合，就可以构成一套非常强大的SEO了。如果非要用Nutch2的话，建议等到Nutch2.3发布再看。目前的Nutch2是一个非常不稳定的版本。

文章知识点与官方知识档案匹配，可进一步学习相关知识云原生入门技能树首页概览8747 人正在系统学习中相关资源：开源的爬虫软件Heritrix3.1.0_开源爬虫-Java工具类资源-CSDN文库

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

给你一个换ip软件：分布式爬虫通过具体都能干点啥？

相关推荐