hadoop伪分布式环境搭建、测试与配置详解

刚入门hadoop 上有好多搭建hadoop伪分布式的资料，而且相互之间都有区别，弄得小编有点糊涂，终于搞定了，做个记录方便以后查看，也希望其他新手少走弯路，若有表述不准确大虾还望见谅！
小编以wordcount为例，在yarn上以伪分布式模式运行mapreduce任务：

一、相关软件路径和测试文本内容

   1、JDK安装路径：/home/lyy/modules/jdk1.8.0_131
   2、hadoop安装路径：/home/lyy/modules/hadoop-2.6.0
   Java与hadoop的环境变量自己配置，小编不在此赘述
   3、测试文本名字：mr.input
   4、测试文本内容：（如下所示）

二、相关文件配置

配置文件位置如下图所示：

2、core-site.xml: 这个属性作用是告诉操作系统当前任务使用分布式文件系统，而不是本地文件系统。有人也许会问，什么是本地文件系统，什么是分布式文件系统(HDFS)文件系统就是我们平时在Ubuntu的终端里操作的cd、ls 、mkdir等等进去一个目录，找个文件、创建啊删除什么的，这就是本地文件系统。HDFS是一个与本地文件系统独立的文件系统，哪里也可以存放文件，它也有进入、创建、查看、删除，上传、下载等命令，先这么记着，具体操作下面再说，配置如下图所示：

第一次启动hdfs需要先格式化一下,namenode，以后就不需要了，命令如下：

启动namenode:

启动datanode:

启动yarn:

输入jps查看启动是否成功:

还记得在core-site.xml这个文件中配置了属性，让mapreduce任务使用分布式文件系统么，但是我们的测试文本mr.input放在本地文件系统的home目录下面，所以我们得把mr.input上传到hdfs中，在上传之前，还得先在hdfs中建立一个目录用来存放mr.input。
创建目录，命令如下：

上传mr.input，命令如下：

hadoop提供了以web的方式来查询hdfs，在浏览器中输入：

其中，192.168.174.128是虚拟机的IP，50070是分布式文件系统的端口，会出现如下界面：

就能看到刚才创建的目录和上穿的文件。

计算结果存放在output中：

第一次觉得写博客好费时间，上述操作小编亲测成功，若表述有误，大虾见谅！

文章知识点与官方知识档案匹配，可进一步学习相关知识云原生入门技能树首页概览8806 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

hadoop伪分布式环境搭建、测试与配置详解

一、相关软件路径和测试文本内容

二、相关文件配置

第一次觉得写博客好费时间，上述操作小编亲测成功，若表述有误，大虾见谅！

相关推荐