Hadoop入门

什么是大数据
大数据能做什么
Hadoop起源
Hadoop组件
Hadoop搭建

一、什么是大数据
大数据（big data），IT行业术语，是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 —-百度百科

二、大数据能做什么

洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。
Google流感趋势（Google Flu Trends）利用搜索关键词预测禽流感的散布。
梅西百货的实时定价机制。根据需求和库存的情况，该公司基于SAS的系统对多达7300万种货品进行实时调价。
医疗行业早就遇到了海量数据和非结构化数据的挑战，而近年来很多国家都在积极推进医疗信息化发展，这使得很多医疗机构有资金来做大数据分析。
新的处理模式包括但不限于：大规模并行处理数据库，数据挖掘，分布式文件系统，分布式数据库，云计算平台，可扩展存储系统等。
—-百度百科

三、Hadoop起源
3.1 Hadoop是什么
是一种分析和处理海量数据的开源软件平台，提供一个分布式基础框架，由java开发。

3.2 Hadoop特点
高可靠性、高扩展性、高效性、高容错性、低成本。

3.3 Hadoop由来
2003年google发表了几篇论文：GFS、MapReduce、BigTable。
是一个可扩展的分布式文件系统，用于大型的、分布式的、对大量数据进行访问的应用。运行在硬件上，提供容错功能。
是针对分布式并行计算的一套编程模型。由Map和Reduce组成，Map是映射，把指令分发到多个worker上去；reduce是规约，把Map的worker计算的结果合并。
存储结构化数据。建立在GFS，Scheduler， Lock Service和MapReduce之上的。每个table都是一个多维的稀疏图

Yahoo根据论文用java将其实现，并命名为Hadoop。(HDFS+MapReduce+Hbase)

四 Hadoop生态系统

JobTracker：Master节点(只有一个)，管理所有作业；作业/任务的监控、错误处理；将作业分解成一系列任务，并分派给TaskTracker。
TaskTracker：Slave节点(可多个)，运行Map Task和Reduce Task；并与JobTracker交互，汇任务状态
Map Task：解析每条数据记录，传递给用户编写的map()并执行，将输出结果写入本地磁盘(若为map-only作业，直接写入HDFS)。
Reduce Task：从Map Task的执行结果中，远程读取输入数据，对数据进行排序，将数据安装分组传递给用户编写的reduce函数执行。

5.3 Yarn集群资源管理系统
Yarn的核心思想：将JobTracker和TaskTacker进行分离，由以下组件构成：

组件	描述
ResourceManager	一个全局资源管理器
NodeManager	每个节点(RM)代理
ApplicationMaster	代表每个应用，每个有多个Container在NodeManager上运行

5.3.1 结构图

5.3.2 角色和概念

ResourceManager：处理客户端请求；启动/监控ApplicationMaster；监控NodeManager；资源分配和调度。
NodeManager：单节点上的资源管理；处理来自ResourceManager的命令；处理来自ApplicationMaster的命令
ApplicationMaster：数据切分；为应用程序申请资源、并分配给内部任务；任务监控与容错。
Container：对任务运行环境的抽象，封装了CPU、内存等；多维资源以及环境变量、启动命令等任务运行相关的信息资源分配与调度
Client: 用户于Yarn交互的客户端程序；提交应用程序、监控应用程序状态，杀死应用程序等。

六、Hadoop搭建
6.1 单节点

6.2 伪分布式

6.3 完全分布式

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

Hadoop入门

相关推荐