配置软件:
1、 Java jdk-1.6 1.1 下载安装 from: http://www.sun.com 安装目录:C:Javajdk1.6.0_03
1.2 修改环境变量
JAVA_HOME=C:Javajdk1.6.0_03bin CLASSPATH=C:Javajdk1.6.0_03libdt.jar;C:Javajdk1.6.0_03libtools.jar
1.3 测试
java -version
2、tomcat-6.0 2.1 下载
from: http://tomcat.apache.org/
2.2 解压到C盘目录并改名 安装目录:C:tomcat6
2.3 修改配置
conf/server.xml
QUOTE: <!– Define a non-SSL HTTP/1.1 Connector on port 8080 –>
<Connector port=” 8080 ” maxHttpHeaderSize=”8192″
maxThreads=”150″ minSpareThreads=”25″ maxSpareThreads=”75″
enableLookups=”false” redirectPort=”8443″ acceptCount=”100″
c disableUploadTimeout=”true”
URIEncoding=”UTF-8″ useBodyEncodingForURI=”true” />
默认服务端口为8080,若有冲突(如Apache),则可通过此配置文件更改端口( 蓝色)如果配置后nutch出现中文乱码问题,则增加编码配置(红色)
2.4 启动服务
startup
测试:http://localhost:8080/ 3、安装Cygwin from: http://www.cygwin.cn/ 由于运行Nutch自带的脚本命令需要Linux的环境,所以必须首先安装Cygwin来模拟这种环境
4、 nutch-1.0
4.1 下载 http://www.apache.org/dyn/closer.cgi/lucene/nutch/
4.2 解压后到C盘根目录 C:nutch-1.0 建 url.txt文件,指定爬取列表
在文件中写入如下内容:
例如: http://cqllang.iteye.com/blog
4.3 指定爬虫规则
修改 conf/crawl-urlfilter.txt
QUOTE: # accept hosts in MY.DOMAIN.NAME
#+^http://([a-z0-9]*.)*MY.DOMAIN.NAME/
把这里改成你要的域名
如 +^ http://cqllang.iteye.com/blog
4.4 修改 conf/nutch-site.xml
QUOTE: <configuration>
<property>
<name>http.agent.name</name>
<value>my nutch agent</value>
</property>
<property>
<name>http.agent.version</name>
<value>1.0</value>
</property>
</configuration> 如果没有配置此agent,爬取时会出现 Agent name not configured! 的错误。 4.5 开始爬取 打开Cygwin, 在命令行窗口中输入:
cd /cygdrive/c/nutch-1.0
执行命令: bin/nutch crawl url.txt -dir crawled -depth 3 -threads 4 >& crawl.log 在这里 dir指定抓取内容所存放的目录,depth表示以要抓取 站顶级 址为起点的爬行深度,threads指定并发的线程数。
4.6 部署web前端
将 nutch-1.0.war 拷贝到webapps目录下
通过浏览器访问 http://localhost:8080/nutch-1.0/ 后,war包自解压。
4.7 修改nutch的web配置
c:tomcat6webappsnutch-1.0WEB-INFclassesnutch-site.xml
将内容更改为索引生成的目录。
QUOTE: <nutch-conf>
<property>
<name>searcher.dir</name>
<value>c:/nutch-1.0/crawled</value>
</property>
</nutch-conf> 文章知识点与官方知识档案匹配,可进一步学习相关知识C技能树首页概览113487 人正在系统学习中 相关资源:Umi-OCR 批量图片转文字工具离线批量文字识别(图片转文字)软件.rar
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!