一脸懵逼学习基于CentOs的Hadoop集群安装与配置

1:Hadoop分布式计算平台是由Apache软件基金会开发的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。

     Hadoop 中的分布式文件系统 HDFS 由一个管理结点 ( NameNode )和N个数据结点 ( DataNode )组成,每个结点均是一台普通的计算机。在使用上同我们熟悉的单机上的文件系统非常类似,一样可以建目录,创建,复制,删除文件,查看文件内容等。但其底层实现上是把文件切割成 Block,然后这些 Block 分散地存储于不同的 DataNode 上,每个 Block 还可以复制数份存储于不同的 DataNode 上,达到容错容灾之目的。NameNode 则是整个 HDFS 的核心,它通过维护一些数据结构,记录了每一个文件被切割成了多少个 Block,这些 Block 可以从哪些 DataNode 中获得,各个 DataNode 的状态等重要信息。

    MapReduce 是 Google 公司的核心计算模型,它将复杂的运行于大规模集群上的并行计算过程高度的抽象到了两个函数,Map 和 Reduce, 这是一个令人惊讶的简单却又威力巨大的模型。适合用 MapReduce 来处理的数据集(或任务)有一个基本要求: 待处理的数据集可以分解成许多小的数据集,而且每一个小数据集都可以完全并行地进行处理。基于它写出来的程序能够运行在由上千台商用机器组成的大型集群上,并以一种可靠容错的方式并行处理T级别的数据集,实现了Haddoop在集群上的数据和任务的并行计算与处理。

HDFS:Hadoop分布式文件系统(Hadoop Distributed File System)。

Pig:大数据分析平台,为用户提供多种接口。

Hive:数据仓库工具,由Facebook贡献。

Hbase:类似Google BigTable的分布式NoSQL列数据库。(HBase和Avro已经于2010年5月成为顶级Apache项目)。

ZooKeeper:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。

Sqoop:Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 :MySQL, Oracle, Postgres等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。

Oozie:负责MapReduce作业调度。

IP

主机名

功能角色

192.168.3.129

 

然后选择DHCP设置,自己可以选择的ip地址范围:

然后开始设置虚拟机的静态ip地址,如下所示,三个虚拟机按照如下进行设置,下面只写一个虚拟机,其他两个类比即可:

 鼠标右击找到Edit Connections:

注意下面红色圈起来的地方(Address分别设置成自己容易识别的,我的是192.168.3.129,192.168.3.130,192.168.3.131):

需要注意的是这里的 络设置必须是Net8模式的:

6:在三台主机上分别设置/etc/hosts及

然后修改主机名称和ip的对应关系:

三台主机配置相同:

7:三台机器上安装jdk(将linux版本的jdk上传到虚拟机,上传操作之前说过,此处省略,注意jdk的是linux版本的):

配置一下jdk的环境变量(必须用root权限进行修改配置文件):

[root@master hadoop]# vim /etc/profile

 生成密钥对,并把公钥文件写入授权文件中,cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys会自动创建authorized_keys文件,然后将id_dsa.pub的内容写到authorized_keys文件里面,这个时候去查看authorized_keys已经存在id_dsa.pub里面的内容(生成密钥对及授权文件,公钥在/root/.ssh/下)

可以看到slaver1已经存在授权文件:

 将公钥写入授权文件中

 

配置文件6: 10:启动验证

在master节点上进行格式化start-all.sh或者启动(start-dfs.sh和start-yarn.sh)

使用jps命令查看MapReduce:http://master:8088

 

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2017年9月6日
下一篇 2017年9月6日

相关推荐