Hadoop学习

是Apache开源组织的一个分布式计算开源框架，提供了一个分布式文件系统HDFS（Hadoop Distributed File System）和支持MapReduce分布式计算的软件架构

一个HDFS文件系统包括一个主控节点NameNode和一组DataNode从节点。
NameNode是一个主服务器，用来管理整个文件系统的命名空间和元数据，以及处理来自外界的文件访问请求
NameNode保存了文件系统的三种元数据：1）命名空间，即整个分布式文件系统的目录结构；2）数据块与文件名的映射表；3）每个数据块副本的位置信息，每个数据块默认有3个副本。
NameNode程序单独运行于一台服务器节点上，其余服务器的节点，每一台运行一个DataNode程序。
HDFS数据块的默认大小是64MB。

目标：实现自动并行化计算

六大特征：
– 大规模数据分布存储能力
– 高并发访问能力
– 强大的容错能力
– 顺序式文件访问数据块存储能力
– 简单的一致性模型（一次写多次读，不支持已写入数据更新操作，但允许在文件尾部添加新数据）
– 数据块存储模式

是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群

基于Hadoop的一个数据仓库工具

基于Hadoop的大规模数据分析工具

是一个为分布式应用所设计的分布的、开源的协调服务，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，简化分布式应用协调及其管理的难度，提供高性能的分布式服务

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！