Spark入门(一): VMware虚拟机搭建Spark集群

文章目录

- - - 一、搭建方法
    - 二、准备
    - 三、系统环境配置
    - 四、软件安装与配置
    - - 1. 软件下载安装
      - 2.Hadoop配置
      - 3.Spark配置
    - 五、虚拟机克隆
    - 六、启动集群
    - 七、踩坑经历分享

一、搭建方法

二、准备

物理机是win10操作系统，首先需要VMware软件，拟搭建具有三个节点的Spark集群，三台主机名名别是master, slave1, slave2
所需要使用的软件及版本

Ubuntu 14.04
jdk-8u221 (强烈建议不要使用最新版jdk, 使用jdk8)
Scala 2.13.1
Hadoop 3.2.1
spark-2.4.4-bin-hadoop2.7.tgz

三、系统环境配置

这部分也是准备工作，包括
1.新建名为hadoop的用户，并创建密码，添加管理员权限
2.密钥授权，可以让集群的所有节点相互免密访问
3.修改主机名
4.主机名映射为IP，因为在软件的配置过程当中，通常会使用主机名，而不是直接使用IP，所以采用主机名和IP绑定的方式能够更方便的进行修改以适应各种环境。

操作步骤
1.新建用户，命令如下：

完成之后，需要注销当前用户，使用hadoop用户登录
2.密钥授权，首先要安装，然后生成公钥，将公钥添加进授权认证文件

3.修改主机名

我添加的内容如下

四、软件安装与配置

1. 软件下载安装

Java下载安装
在 https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 中下载JDK8，下载完解压到目录下并重命名，这个目录就作为整个Spark集群的工作空间
命令如下：

然后配置环境变量，命令为，添加内容如下

Scala, Hadoop, Spark下载安装的方式相同，完成之后结果如下

的内容如下

配置完之后可以通过命令和命令验证是否配置正确。

2.Hadoop配置

详细配置如下
1.hadoop-env.sh

2.yatn-env.sh

3.workers

4.core-site.xml

5.hdfs-site.xml
首先要新建name和data目录，命令为

然后配置xml文件

6.maprd-site.xml

7.yarn-site.xml

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！