Hadoop
是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统HDFS(Hadoop Distributed File System)和支持MapReduce分布式计算的软件架构
Hadoop的基本框架
- 一个HDFS文件系统包括一个主控节点NameNode和一组DataNode从节点。
- NameNode是一个主服务器,用来管理整个文件系统的命名空间和元数据,以及处理来自外界的文件访问请求
- NameNode保存了文件系统的三种元数据:1)命名空间,即整个分布式文件系统的目录结构;2)数据块与文件名的映射表;3)每个数据块副本的位置信息,每个数据块默认有3个副本。
- NameNode程序单独运行于一台服务器节点上,其余服务器的节点,每一台运行一个DataNode程序。
- HDFS数据块的默认大小是64MB。
MapReduce
目标:实现自动并行化计算
HDFS
六大特征:
– 大规模数据分布存储能力
– 高并发访问能力
– 强大的容错能力
– 顺序式文件访问数据块存储能力
– 简单的一致性模型(一次写多次读,不支持已写入数据更新操作,但允许在文件尾部添加新数据)
– 数据块存储模式
HBase
是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群
Hive
基于Hadoop的一个数据仓库工具
Pig
基于Hadoop的大规模数据分析工具
Zookeeper
是一个为分布式应用所设计的分布的、开源的协调服务,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度,提供高性能的分布式服务
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!