2019独角兽企业重金招聘Python工程师标准>>>

Hadoop运行模式：三种模式下运行：单一节点（Standalone）、伪分布式(Pseudo-Distributed)、真分布式(Fully-Distributed)。

前两者都是在单一节点上可以运行的，是不对外开放主机的各个服务、存储、管理端口（TCP Port），最后一个必须在多个节点上同时搭建，即是真正的分布式计算、存储系统。单一节点又叫Hadoop CLI MiniCluster。

优点

Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。

高可靠性。因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。

高效性，因为它以并行的方式工作，通过并行处理加快处理速度。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。

高扩展性。，能够处理 PB 级数据。在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。

高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。

低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比，hadoop是开源的，项目的软件成本因此会大大降低。

此外，Hadoop 依赖于区服务，因此它的成本比较低，任何人都可以使用。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：

高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。
高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。
低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比，hadoop是开源的，项目的软件成本因此会大大降低。

Hadoop核心架构

Hadoop 由许多元素构成。其最底部是HDFS，它存储 Hadoop 集群中所有存储节点上的文件。HDFS的上一层是MapReduce 引擎，该引擎由 JobTrackers 和 TaskTrackers 组成。通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程，以及数据仓库工具Hive和分布式数据库Hbase的介绍，基本涵盖了Hadoop分布式平台的所有技术核心。

hadoop安装和配置

一、安装java jdk

1、下载java jdk1.7版本，放在/home/software目录下，

2解压：tar -zxvf java-jdk*****.jar

3、vim /etc/profile

4、检测是否成功安装：java -version

二、安装hadoop

1、在linux根路径创建目录cloud：sudo mkdir cloud

2、解压hadoop到cloud目录中：tar -zxvf hadoop-2.2.0.tar.gz -C /cloud/

3、进入目录：/cloud/hadoop/etc/hadoop

三、修改配置文件

1、修改hadoop-env.sh，配置java jdk路径，大概在27行配置，如下：

2、修改core-site.xml，配置内容如下

3、修改hdfs-site.xml，修改配置如下

4、修改mapred-site.xml 由于在配置文件目录下没有，需要修改名称：mv mapred-site.xml.template mapred-site.xml

5、修改yarn-site.xml，修改内容如下

6、讲hadoop添加到环境变量，然后更新一下环境变量：source /etc/profile

四、启动hadoop

1、格式化hadoop，进入目录：/cloud/hadoop/etc/hadoo，执行下列之一命令即可

2、启动hdfs和yarn

3、验证是否成功，使用命令：jps，输出如下即表示配置成功。

4、可以在浏览器中查看hdfs和mr的状态.hdfs管理界面：http://localhost:50070 MR的管理界面：http://localhost:8088

五、hdfs基本操作和wordcount程序

1、进入hadoop安装目录中的share：/cloud/hadoop/share/hadoop/mapreduce

2、ls列出当前路径下的文件，内容如下，其中带有example字样的为样例程序

3、新建words文件，内容输入如下，然后使用命令上传到hdfs目录下：hadoop fs -put words hdfs://localhost:9000/words

4、在命令行中敲入：hadoop jar hadoop-mapreduce-examples-2.2.0.jar wordcounthdfs://localhost:9000/wordshdfs://localhost:9000/out

5、打开页面：http://localhost:50070/dfshealth.jsp

6、点击上图中的Browse the filesystem，跳转到文件系统界面，如下所示：

7、继续点击上图的out/part-r-00000,wordcount程序最终运行的结果如图所示：

常见问题 ：

1、hadoop主要是用来存储的，怎么做数据分析，它在数据处理上的优势是什么选hadoop的理由是什么有和其他的系统做一个比较么选择这个p>

2、hadoop的mapreduce是怎样一个过程历上写着了解一些hadoop技术。。。）map是怎么切分数据的p>

答：回答了下整个处理过程，最后我说数据处理好后返回给用户（返回个毛啊，直接存HDFS里），结果面试官非常惊讶，然后我又说每个结点处理好后还要经过排序、分组等再返回结果（真是悲剧，又说了次返回）。

3、master单点失效问题，yarn是什么，最新版是怎么解决单点失效问题的p>

答：《hadoop技术内幕：深入解析YARN架构设计与实现原理》

4、链表和数组的区别p>

5、

参考链接：

https://blog.csdn.net/u012842205/article/details/52267291

链接：

大数据系列零基础由入门到实战 : https://blog.csdn.net/Sky786905664/article/details/51819759

hadoop常用服务管理命令 : http://blog.51cto.com/caiguangguang/1579849

Hadoop集群配置（最全面总结）：https://blog.csdn.net/hguisu/article/details/7237395

Hadoop教程： https://www.w3cschool.cn/hadoop/index.html

Hadoop : http://www.voidcn.com/course/project/owcegi

史上最详细的Hadoop环境搭建：http://gitbook.cn/books/5954c9600326c7705af8a92a/index.html

Cloudera Manager 5.13.1 Hadoop群集离线安装 : https://www.azurew.com/7019.html

Hadoop 指南： https://wdxtub.com/2016/03/20/hadoop-guide/

Hadoop的讲解专栏 : https://blog.csdn.net/column/details/18130.html

大数据系列： http://club.topsage.com/forum-743-1.html

浅析Hadoop分布式文件系统 : https://mp.weixin.qq.com/sc=3&timestamp=1535268492&ver=1&signature=IzeGJ7px3Y0KdbFXBDhwEsWrPHqHStK8FY-VE2NWOz*U4WaESnCAKMJYr2dIyNGxn6yq285KAe8KPnyc-iAR7E9UqPYMKO2pX4hLAOSPyE6NeReb1IJiMoQAy7QqGkjknGrwILvUFXhjEZ71Nd3Sn24Mc-l1qJFwOG-L69DB8xY=

Hadoop分布式文件系统HDFS的工作原理详述 : https://mp.weixin.qq.com/sc=3×tamp=1535268492&ver=1&signature=9f4rYV9MBZ2kbADkjAGQaHVrpS8WOUrpbzC12pflTBGTjaZ57*FRl06bgr8MrbCUCtGOwc3An13Udc0zKmrjvM9iCiOj3jUrfZqetf1h*3Wc7GlaU4Nz64koANv6*ABI1HsWpA3N7xljH4Cn2k1Z4Q==

Hadoop分布式文件系统HDFS的工作原理：http://www.jizhuomi.com/software/455.html

Hadoop分布式文件系统：架构和设计要点 ： https://mp.weixin.qq.com/sc=3×tamp=1535268492&ver=1&signature=cOaIC8LeZ7x1h-8*nR35Gib7vU*ibCzA8SSURam4gu3T7p2I-P3Ue5GPsQ5gvK*je3AONpFoToNoG-3fGw*H2RPeuTYFTFeZkCrqswkuJ6Vfbpa0sfZnrTvwStnAtPWej750SsmLgDR1dUY1ZcFbsA==

Hadoop分布式文件系统3-HDFS应用 ：https://mp.weixin.qq.com/sc=11×tamp=1535268492&ver=1083&signature=vh2TIbN4laRGYmFjm0YjUC*V3p7jJNn*y5jRorgB4DojePHD4qdf7yW2D-9b2ujOndcLIJTpVUJGUWpmbKe0DrX7EiL14eqFvl24dDer-I-XR7IZLovBw7Io-S31P-E*&new=1

Hadoop分布式文件系统-从RAID说起： https://mp.weixin.qq.com/sc=11×tamp=1535268492&ver=1083&signature=0WeQe5IIK7M40bOO4tFi*eX3lgMVGP4GiOa6bVM7Yrro4UwaTYLY0QpYBtv9LF4yGdqlrqsZQKfiOmWLnnVRepd8*69LhXuhHI6MCAn5vjNdFkzXACh0H94iccqOYIkZ&new=1

Hadoop分布式文件系统1-从RAID说起： https://mp.weixin.qq.com/sc=11×tamp=1535268492&ver=1083&signature=vh2TIbN4laRGYmFjm0YjUC*V3p7jJNn*y5jRorgB4DouDr5U9eiErTFgKVC2Nx-BphbKFtatgSHasxXiNGwBhpBAUmLoAheJxpUBE7LfAet9aDUYvsPNM9eFxTnYIao1&new=1

Hadoop RPC 源码解析 : https://blog.csdn.net/paul_wei2008/article/details/19556053

Hadoop SafeModeException: xxxxxxx. Name node is in safe mode解决办法： https://blog.csdn.net/SMCwwh/article/details/7490685

用 Hadoop 统计词频并存入 HBase 中 : https://ericfu.me/hadoop-word-count-save-to-hbase/

hadoop (5篇) ： https://blog.csdn.net/qq_28893679/article/category/7712341

脚本之家 hadoop 系列： https://www.jb51.net/list/list_267_1.htm#

原 SSH免密码登陆 : https://blog.csdn.net/Sky786905664/article/details/52067398

转 Linux下开启Hadoop的9000端口方法 : https://blog.csdn.net/Sky786905664/article/details/52062899

转 Hadoop启动时提示的：$HADOOP_HOME is deprecated. : https://blog.csdn.net/Sky786905664/article/details/52061662

转《Hadoop基础教程》之初识Hadoop : https://blog.csdn.net/Sky786905664/article/details/51819599

原 hadoop入门(hadoop安装-hdfs简单介绍) : https://blog.csdn.net/ioy84737634/article/details/46761983

Hadoop学习—Zookeeper+Hbase配置学习 : https://www.cnblogs.com/ftl1012/p/9350554.html

Hadoop学习—Hadoop的HBase的学习 : https://www.cnblogs.com/ftl1012/p/9350518.html

Hadoop学习—Hadoop的MapReduce的原理 : https://www.cnblogs.com/ftl1012/p/9350459.html

Hadoop学习—Hadoop的深入学习 : https://www.cnblogs.com/ftl1012/p/9350261.html

Hadoop学习—Eclipse中hadoop环境的搭建 : https://www.cnblogs.com/ftl1012/p/9350238.html

Hadoop学习—CentOS中hadoop伪分布式集群安装 : https://www.cnblogs.com/ftl1012/p/9350180.html

Hadoop学习—Ubuntu中hadoop完全分布式安装教程 : https://www.cnblogs.com/ftl1012/p/9350035.html

Windows下搭建hadoop 搭建本地hadoop开发环境 : https://www.jianshu.com/p/ea9682377090

Hadoop、Storm、Samza、Spark和Flink大数据框架对比　　：　https://www.ixdba.net/archives/2017/03/585.htm

集群环境下Hadoop2.5.2+Zookeeper3.4.6+Hbase0.98+Hive1.0.0安装目录总汇 : http://blog.51cto.com/vekergu/p5

hadoop分布式集群搭建 ; https://www.cnblogs.com/ityouknow/p/7343995.html

史上最详细、最全面的Hadoop环境搭建 : https://mp.weixin.qq.com/s/cJ8BeApMW1KGAsZgHBCgog

Hadoop运维必须知道的10个运维技能 : https://www.ixdba.net/archives/2017/03/580.htm

Hadoop/Yarn/MapReduce内存分配（配置）方案 : https://www.ixdba.net/archives/2017/03/536.htm

Hadoop YARN配置参数剖析—Fair Scheduler相关参数 : https://www.ixdba.net/archives/2017/03/528.htm

Hadoop入门扫盲：hadoop发行版介绍与选择 : https://www.ixdba.net/archives/2016/11/437.htm

Hadoop HA 安装、布署 : https://mp.weixin.qq.com/s/47esMUkKqzVPzbTfL1PCuw

Hadoop ： https://www.cnblogs.com/atomicbomb/tag/Hadoophadoop

Hadoop （34）： https://blog.csdn.net/qq_20545159/article/category/5784915

Hadoop集群搭建总结及Hadoop2.5集群伪分布、完全分布搭建总结：https://mp.weixin.qq.com/s/llSziXPnNgwO6sn6EoX1WA

Hadoop3.0: YARN Resource配置说明 : https://mp.weixin.qq.com/s/zG1C4c5Hz4UVoME0tfRpqQ

hadoop3.0 Yarn支持络资源：network原理设计文档说明【中文】: https://mp.weixin.qq.com/s/Lfy7eovk-3mbBWaOkvLp8Q

Hadoop3.0集群安装知识 : https://mp.weixin.qq.com/s/UGuQcQJR1fnw5mp8dbB9Ow

Hadoop3.0通用版集群安装高可靠详细教程【包括零基础】 : https://mp.weixin.qq.com/s/vtNvIQzRtfbEzpjinZlGGA

扩展Yarn资源模型详解1 : https://mp.weixin.qq.com/s/_p1Pa5PzajJPsMdbkpAvNA

Hadoop3.0扩展Yarn资源模型详解2：资源Profiles说明 : https://mp.weixin.qq.com/s/BEsAFw4sbRzwS6shcqAYbg

Hadoop3.0Yarn添加络、磁盘IO等资源资料汇总及实战配置遇到的问题和解决办法 : https://mp.weixin.qq.com/s/U0pAPMWgow9mJ0rzjs-p-Q

【性能优化的秘密】Hadoop如何将TB级大文件的上传性能优化上百倍杉的架构笔记】 : https://mp.weixin.qq.com/s/2HM9NMRHizKTJoYjg8lZ1Q

hadoop (22篇) ： https://www.cnblogs.com/duanxz/category/691548.html

Hadoop进阶之路 : https://www.cnblogs.com/yinzhengjie/tag/Hadoop%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/

文章知识点与官方知识档案匹配，可进一步学习相关知识Java技能树使用JDBC操作数据库数据库操作92435 人正在系统学习中相关资源：MinionProfitsTracker:随着市场价格波动,轻松识别最赚钱的奴才[在…

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

Hadoop简介 (资源)

Hadoop运行模式 ： 三种模式下运行：单一节点（Standalone）、伪分布式(Pseudo-Distributed)、真分布式(Fully-Distributed)。