Spark入门(一): VMware虚拟机搭建Spark集群

文章目录

        • 一、搭建方法
        • 二、准备
        • 三、系统环境配置
        • 四、软件安装与配置
          • 1. 软件下载安装
          • 2.Hadoop配置
          • 3.Spark配置
        • 五、虚拟机克隆
        • 六、启动集群
        • 七、踩坑经历分享

一、搭建方法

二、准备

物理机是win10操作系统,首先需要VMware软件,拟搭建具有三个节点的Spark集群,三台主机名名别是master, slave1, slave2
所需要使用的软件及版本

  • Ubuntu 14.04
  • jdk-8u221 (强烈建议不要使用最新版jdk, 使用jdk8)
  • Scala 2.13.1
  • Hadoop 3.2.1
  • spark-2.4.4-bin-hadoop2.7.tgz

三、系统环境配置

这部分也是准备工作,包括
1.新建名为hadoop的用户,并创建密码,添加管理员权限
2.密钥授权,可以让集群的所有节点相互免密访问
3.修改主机名
4.主机名映射为IP,因为在软件的配置过程当中,通常会使用主机名,而不是直接使用IP,所以采用主机名和IP绑定的方式能够更方便的进行修改以适应各种环境。

操作步骤
1.新建用户,命令如下:

完成之后,需要注销当前用户,使用hadoop用户登录
2.密钥授权,首先要安装,然后生成公钥,将公钥添加进授权认证文件

3.修改主机名

我添加的内容如下

四、软件安装与配置

1. 软件下载安装

Java下载安装
在 https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 中下载JDK8,下载完解压到目录下并重命名,这个目录就作为整个Spark集群的工作空间
命令如下:

然后配置环境变量,命令为,添加内容如下

Scala, Hadoop, Spark下载安装的方式相同,完成之后结果如下

的内容如下

配置完之后可以通过命令和 命令验证是否配置正确。

2.Hadoop配置

详细配置如下
1.hadoop-env.sh

2.yatn-env.sh

3.workers

4.core-site.xml

5.hdfs-site.xml
首先要新建name和data目录,命令为

然后配置xml文件

6.maprd-site.xml

7.yarn-site.xml

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2019年8月25日
下一篇 2019年8月25日

相关推荐