文章目录
-
-
-
- 一、搭建方法
- 二、准备
- 三、系统环境配置
- 四、软件安装与配置
-
- 1. 软件下载安装
- 2.Hadoop配置
- 3.Spark配置
- 五、虚拟机克隆
- 六、启动集群
- 七、踩坑经历分享
-
-
一、搭建方法
二、准备
物理机是win10操作系统,首先需要VMware软件,拟搭建具有三个节点的Spark集群,三台主机名名别是master, slave1, slave2
所需要使用的软件及版本
- Ubuntu 14.04
- jdk-8u221 (强烈建议不要使用最新版jdk, 使用jdk8)
- Scala 2.13.1
- Hadoop 3.2.1
- spark-2.4.4-bin-hadoop2.7.tgz
三、系统环境配置
这部分也是准备工作,包括
1.新建名为hadoop的用户,并创建密码,添加管理员权限
2.密钥授权,可以让集群的所有节点相互免密访问
3.修改主机名
4.主机名映射为IP,因为在软件的配置过程当中,通常会使用主机名,而不是直接使用IP,所以采用主机名和IP绑定的方式能够更方便的进行修改以适应各种环境。
操作步骤
1.新建用户,命令如下:
完成之后,需要注销当前用户,使用hadoop用户登录
2.密钥授权,首先要安装,然后生成公钥,将公钥添加进授权认证文件
3.修改主机名
我添加的内容如下
四、软件安装与配置
1. 软件下载安装
Java下载安装
在 https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 中下载JDK8,下载完解压到目录下并重命名,这个目录就作为整个Spark集群的工作空间
命令如下:
然后配置环境变量,命令为,添加内容如下
Scala, Hadoop, Spark下载安装的方式相同,完成之后结果如下
的内容如下
配置完之后可以通过命令和 命令验证是否配置正确。
2.Hadoop配置
详细配置如下
1.hadoop-env.sh
2.yatn-env.sh
3.workers
4.core-site.xml
5.hdfs-site.xml
首先要新建name和data目录,命令为
然后配置xml文件
6.maprd-site.xml
7.yarn-site.xml
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!