Hadoop简介 (资源)

2019独角兽企业重金招聘Python工程师标准>>>

Hadoop运行模式   : 三种模式下运行:单一节点(Standalone)、伪分布式(Pseudo-Distributed)、真分布式(Fully-Distributed)。

前两者都是在单一节点上可以运行的,是不对外开放主机的各个服务、存储、管理端口(TCP Port),最后一个必须在多个节点上同时搭建,即是真正的分布式计算、存储系统。单一节点又叫Hadoop CLI MiniCluster。

 

优点

Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。

高可靠性。因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。

高效性,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

高扩展性。,能够处理 PB 级数据。在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

此外,Hadoop 依赖于 区服务,因此它的成本比较低,任何人都可以使用。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:

  1. 高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

  2. 高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

  3. 高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

  4. 高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

  5. 低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

                                  Hadoop核心架构

 

Hadoop 由许多元素构成。其最底部是HDFS,它存储 Hadoop 集群中所有存储节点上的文件。HDFS的上一层是MapReduce 引擎,该引擎由 JobTrackers 和 TaskTrackers 组成。通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。

hadoop安装和配置

一、安装java jdk

   1、下载java jdk1.7版本,放在/home/software目录下,

   2解压:tar -zxvf java-jdk*****.jar

   3、vim /etc/profile

1

2

3

4

5

  4、检测是否成功安装:java -version

二、安装hadoop

1、在linux根路径创建目录cloud:sudo mkdir cloud

2、解压hadoop到cloud目录中:tar -zxvf hadoop-2.2.0.tar.gz -C /cloud/

3、进入目录:/cloud/hadoop/etc/hadoop

三、修改配置文件

1、修改hadoop-env.sh,配置java jdk路径,大概在27行配置,如下:

2、修改core-site.xml,配置内容如下

1

2

3

4

5

6

7

8

9

10

11

12

3、修改hdfs-site.xml,修改配置如下

1

2

3

4

5

4、修改mapred-site.xml 由于在配置文件目录下没有,需要修改名称:mv mapred-site.xml.template mapred-site.xml

5、修改yarn-site.xml,修改内容如下

1

2

3

4

5

6

7

8

9

10

11

6、讲hadoop添加到环境变量,然后更新一下环境变量:source /etc/profile

四、启动hadoop

1、格式化hadoop,进入目录:/cloud/hadoop/etc/hadoo,执行下列之一命令即可

2、启动hdfs和yarn

3、验证是否成功,使用命令:jps,输出如下即表示配置成功。

1

2

3

4

5

6

7

4、可以在浏览器中查看hdfs和mr的状态.hdfs管理界面:http://localhost:50070  MR的管理界面:http://localhost:8088 

五、hdfs基本操作和wordcount程序

 1、进入hadoop安装目录中的share:/cloud/hadoop/share/hadoop/mapreduce

2、ls列出当前路径下的文件,内容如下,其中带有example字样的为样例程序

1

2

3

4

5

6

7

8

9

10

11

12

 3、新建words文件,内容输入如下,然后使用命令上传到hdfs目录下:hadoop fs -put words hdfs://localhost:9000/words

1

2

3

4

4、在命令行中敲入:hadoop jar hadoop-mapreduce-examples-2.2.0.jar wordcounthdfs://localhost:9000/wordshdfs://localhost:9000/out

5、打开页面:http://localhost:50070/dfshealth.jsp

 

6、点击上图中的Browse the filesystem,跳转到文件系统界面,如下所示:

7、继续点击上图的out/part-r-00000,wordcount程序最终运行的结果如图所示:

 

常见问题     :  

1、hadoop主要是用来存储的,怎么做数据分析,它在数据处理上的优势是什么选hadoop的理由是什么有和其他的系统做一个比较么选择这个p>

 

2、hadoop的mapreduce是怎样一个过程历上写着了解一些hadoop技术。。。)map是怎么切分数据的p>

答:回答了下整个处理过程,最后我说数据处理好后返回给用户(返回个毛啊,直接存HDFS里),结果面试官非常惊讶,然后我又说每个结点处理好后还要经过排序、分组等再返回结果(真是悲剧,又说了次返回)。

 

3、master单点失效问题,yarn是什么,最新版是怎么解决单点失效问题的p>

答:《hadoop技术内幕:深入解析YARN架构设计与实现原理》

 

4、链表和数组的区别p>

 

5、

 

 

 

参考链接  :

https://blog.csdn.net/u012842205/article/details/52267291

 

 

链接:

大数据系列零基础由入门到实战 :   https://blog.csdn.net/Sky786905664/article/details/51819759

hadoop常用服务管理命令 :  http://blog.51cto.com/caiguangguang/1579849

Hadoop集群配置(最全面总结):https://blog.csdn.net/hguisu/article/details/7237395

Hadoop教程 : https://www.w3cschool.cn/hadoop/index.html

Hadoop   :  http://www.voidcn.com/course/project/owcegi

史上最详细的Hadoop环境搭建:http://gitbook.cn/books/5954c9600326c7705af8a92a/index.html

Cloudera Manager 5.13.1 Hadoop群集离线安装 : https://www.azurew.com/7019.html

Hadoop 指南 : https://wdxtub.com/2016/03/20/hadoop-guide/

Hadoop的讲解专栏 : https://blog.csdn.net/column/details/18130.html

大数据 系列: http://club.topsage.com/forum-743-1.html

浅析Hadoop分布式文件系统 :  https://mp.weixin.qq.com/sc=3&timestamp=1535268492&ver=1&signature=IzeGJ7px3Y0KdbFXBDhwEsWrPHqHStK8FY-VE2NWOz*U4WaESnCAKMJYr2dIyNGxn6yq285KAe8KPnyc-iAR7E9UqPYMKO2pX4hLAOSPyE6NeReb1IJiMoQAy7QqGkjknGrwILvUFXhjEZ71Nd3Sn24Mc-l1qJFwOG-L69DB8xY=

Hadoop分布式文件系统HDFS的工作原理详述 : https://mp.weixin.qq.com/sc=3×tamp=1535268492&ver=1&signature=9f4rYV9MBZ2kbADkjAGQaHVrpS8WOUrpbzC12pflTBGTjaZ57*FRl06bgr8MrbCUCtGOwc3An13Udc0zKmrjvM9iCiOj3jUrfZqetf1h*3Wc7GlaU4Nz64koANv6*ABI1HsWpA3N7xljH4Cn2k1Z4Q==

Hadoop分布式文件系统HDFS的工作原理 :http://www.jizhuomi.com/software/455.html

Hadoop分布式文件系统:架构和设计要点 : https://mp.weixin.qq.com/sc=3×tamp=1535268492&ver=1&signature=cOaIC8LeZ7x1h-8*nR35Gib7vU*ibCzA8SSURam4gu3T7p2I-P3Ue5GPsQ5gvK*je3AONpFoToNoG-3fGw*H2RPeuTYFTFeZkCrqswkuJ6Vfbpa0sfZnrTvwStnAtPWej750SsmLgDR1dUY1ZcFbsA==

Hadoop分布式文件系统3-HDFS应用 :https://mp.weixin.qq.com/sc=11×tamp=1535268492&ver=1083&signature=vh2TIbN4laRGYmFjm0YjUC*V3p7jJNn*y5jRorgB4DojePHD4qdf7yW2D-9b2ujOndcLIJTpVUJGUWpmbKe0DrX7EiL14eqFvl24dDer-I-XR7IZLovBw7Io-S31P-E*&new=1

Hadoop分布式文件系统-从RAID说起 : https://mp.weixin.qq.com/sc=11×tamp=1535268492&ver=1083&signature=0WeQe5IIK7M40bOO4tFi*eX3lgMVGP4GiOa6bVM7Yrro4UwaTYLY0QpYBtv9LF4yGdqlrqsZQKfiOmWLnnVRepd8*69LhXuhHI6MCAn5vjNdFkzXACh0H94iccqOYIkZ&new=1

Hadoop分布式文件系统1-从RAID说起 : https://mp.weixin.qq.com/sc=11×tamp=1535268492&ver=1083&signature=vh2TIbN4laRGYmFjm0YjUC*V3p7jJNn*y5jRorgB4DouDr5U9eiErTFgKVC2Nx-BphbKFtatgSHasxXiNGwBhpBAUmLoAheJxpUBE7LfAet9aDUYvsPNM9eFxTnYIao1&new=1

Hadoop RPC 源码解析 : https://blog.csdn.net/paul_wei2008/article/details/19556053

Hadoop SafeModeException: xxxxxxx. Name node is in safe mode解决办法 : https://blog.csdn.net/SMCwwh/article/details/7490685

用 Hadoop 统计词频并存入 HBase 中 : https://ericfu.me/hadoop-word-count-save-to-hbase/

 

hadoop (5篇) : https://blog.csdn.net/qq_28893679/article/category/7712341

 

脚本之家 hadoop 系列 : https://www.jb51.net/list/list_267_1.htm#

原  SSH免密码登陆    :  https://blog.csdn.net/Sky786905664/article/details/52067398

转  Linux下开启Hadoop的9000端口方法  :  https://blog.csdn.net/Sky786905664/article/details/52062899

转  Hadoop启动时提示的:$HADOOP_HOME is deprecated.  :  https://blog.csdn.net/Sky786905664/article/details/52061662

转  《Hadoop基础教程》之初识Hadoop   :  https://blog.csdn.net/Sky786905664/article/details/51819599

 

原  hadoop入门(hadoop安装-hdfs简单介绍)             :       https://blog.csdn.net/ioy84737634/article/details/46761983

Hadoop学习—Zookeeper+Hbase配置学习                 : https://www.cnblogs.com/ftl1012/p/9350554.html

Hadoop学习—Hadoop的HBase的学习   :  https://www.cnblogs.com/ftl1012/p/9350518.html

Hadoop学习—Hadoop的MapReduce的原理          : https://www.cnblogs.com/ftl1012/p/9350459.html

Hadoop学习—Hadoop的深入学习   :  https://www.cnblogs.com/ftl1012/p/9350261.html

Hadoop学习—Eclipse中hadoop环境的搭建     :     https://www.cnblogs.com/ftl1012/p/9350238.html

Hadoop学习—CentOS中hadoop伪分布式集群安装     : https://www.cnblogs.com/ftl1012/p/9350180.html

Hadoop学习—Ubuntu中hadoop完全分布式安装教程     :  https://www.cnblogs.com/ftl1012/p/9350035.html

 

Windows下搭建hadoop 搭建本地hadoop开发环境         :    https://www.jianshu.com/p/ea9682377090

Hadoop、Storm、Samza、Spark和Flink大数据框架对比  : https://www.ixdba.net/archives/2017/03/585.htm

 

集群环境下Hadoop2.5.2+Zookeeper3.4.6+Hbase0.98+Hive1.0.0安装目录总汇     :   http://blog.51cto.com/vekergu/p5

hadoop分布式集群搭建              ;        https://www.cnblogs.com/ityouknow/p/7343995.html

史上最详细、最全面的Hadoop环境搭建    : https://mp.weixin.qq.com/s/cJ8BeApMW1KGAsZgHBCgog

Hadoop运维必须知道的10个运维技能        :      https://www.ixdba.net/archives/2017/03/580.htm

Hadoop/Yarn/MapReduce内存分配(配置)方案  : https://www.ixdba.net/archives/2017/03/536.htm

Hadoop YARN配置参数剖析—Fair Scheduler相关参数  : https://www.ixdba.net/archives/2017/03/528.htm

Hadoop入门扫盲:hadoop发行版介绍与选择    :  https://www.ixdba.net/archives/2016/11/437.htm

 

Hadoop HA 安装、布署 :  https://mp.weixin.qq.com/s/47esMUkKqzVPzbTfL1PCuw

 

Hadoop  : https://www.cnblogs.com/atomicbomb/tag/Hadoophadoop

Hadoop   (34) :  https://blog.csdn.net/qq_20545159/article/category/5784915

Hadoop集群搭建总结及Hadoop2.5集群伪分布、完全分布搭建总结  :https://mp.weixin.qq.com/s/llSziXPnNgwO6sn6EoX1WA

 

Hadoop3.0: YARN Resource配置说明 : https://mp.weixin.qq.com/s/zG1C4c5Hz4UVoME0tfRpqQ

hadoop3.0 Yarn支持 络资源:network原理设计文档说明【中文】: https://mp.weixin.qq.com/s/Lfy7eovk-3mbBWaOkvLp8Q

Hadoop3.0集群安装知识  :  https://mp.weixin.qq.com/s/UGuQcQJR1fnw5mp8dbB9Ow

Hadoop3.0通用版集群安装高可靠详细教程【包括零基础】  : https://mp.weixin.qq.com/s/vtNvIQzRtfbEzpjinZlGGA

扩展Yarn资源模型详解1  :  https://mp.weixin.qq.com/s/_p1Pa5PzajJPsMdbkpAvNA

Hadoop3.0扩展Yarn资源模型详解2:资源Profiles说明  : https://mp.weixin.qq.com/s/BEsAFw4sbRzwS6shcqAYbg

Hadoop3.0Yarn添加 络、磁盘IO等资源资料汇总及实战配置遇到的问题和解决办法   :  https://mp.weixin.qq.com/s/U0pAPMWgow9mJ0rzjs-p-Q

【性能优化的秘密】Hadoop如何将TB级大文件的上传性能优化上百倍杉的架构笔记】 : https://mp.weixin.qq.com/s/2HM9NMRHizKTJoYjg8lZ1Q

 hadoop (22篇) : https://www.cnblogs.com/duanxz/category/691548.html

 

Hadoop进阶之路 : https://www.cnblogs.com/yinzhengjie/tag/Hadoop%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

文章知识点与官方知识档案匹配,可进一步学习相关知识Java技能树使用JDBC操作数据库数据库操作92435 人正在系统学习中 相关资源:MinionProfitsTracker:随着市场价格波动,轻松识别最赚钱的奴才[在…

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2018年4月27日
下一篇 2018年4月27日

相关推荐