至今为止我们做好的准备:
1)准备 3 台客户机(关闭防火墙、静态 IP、主机名称)√
2)安装 JDK √ (Hadoop101)
3)配置系统环境变量 √ (Hadoop101)
4)安装 Hadoop √ (Hadoop101)
5)配置 ssh 和分发脚本
6)配置Hadoop环境变量
7)配置集群
8)启动并测试集群
SSH无密钥登陆的配置
? 首先,为什么需要配置虚拟机之间的无密钥登录,这是因为我们对设置文件的配置,要在各个节点之间统一,所以要频繁进行通信,ssh无密钥登录为配置文件分发脚本服务。
? 无密钥的原理是加密中的非对称加密,node1连接node2,需要node1生成公钥和密钥对,然后node1将公钥传输给node2,这样在node1用ssh连接node2时,node2将一段验证文用公钥加密,然后传输给node1,而node1用私钥对其进行解密,传输给node2,node2收到解密后的验证后和自己发送的验证进行对比,如果一样这样就唯一确定了node1的身份,就可以直接连接。
- 生成公钥和私钥
进入
生成两个文件 id_rsa(私钥)、id_rsa.pub(公钥)
编写集群分发脚本 xsync
SCP
-
scp(secure copy)安全拷贝可以实现服务器与服务器之间的数据拷贝。
-
基本语法
自己编写xsync 集群分发脚本(尚硅谷)
脚本内容不做解释
修改权限
测试脚本
默认配置文件的内容也可以在官 的文档中获取。
自定义配置文件 :
core-site.xml、 hdfs-site.xml、 yarn-site.xml、 mapred-site.xml 四个配置文件存放在$HADOOP_HOME/etc/hadoop 这个路径上, 用户可以根据项目需求重新进行修改配置。
配置集群
-
配置 core-site.xml
- 配置 hdfs-site.xml
- 配置 yarn-site.xml
configuration> property>name>yarn.nodemanager.aux-servicesname>value>mapreduce_shufflevalue>description>指定 MR 走 shuffledescription> property> property>name>yarn.resourcemanager.hostnamename>value>hadoop102value>description>指定 ResourceManager 的地址description> property> property>name>yarn.nodemanager.env-whitelistname>value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOMEvalue>description>环境变量的继承description> property> property>name>yarn.scheduler.minimum-allocation-mbname>value>512value>description>为每个容器请求分配的最小内存限制资源管理器(512M)description> property> property>name>yarn.scheduler.maximum-allocation-mbname>value>4096value>description>为每个容器请求分配的最大内存限制资源管理器(4G)description> property> property>name>yarn.nodemanager.vmem-pmem-rationame> 声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!