学习笔记 – Hadoop-Hive 介绍

当前用户数据都是以“亿”为单位进行考量，传统数据库无法满足快速增长的海量数据存储需求，其计算和处理能力也大大不足。数据仓库有分布式存储与处理能力，将各种数据源整合集成到统一的数据中心，防止数据在传递过程中格式参差不齐，解决数据壁垒。常见的数据仓库产品如下：

简单举例说明MapReduce的计算原理，如：

Input （内容）→ spliting （拆分运算）→ Mapping（分开后，各自计算，Shulffing，得到分布式结果）→ Reducing（合，汇总）→Final Result

分布式计算：如129M的文件，存在不同的集群上面，和同时进行计算，然后进行整合；

向数据靠拢：MapReduce，将计算代码分发到DataNode之后，数据会执行代码，不用把数据都整合在一起再执行代码；

JobTracker监控：通过心跳机制进行监控，做负载均衡；

Hive 工具原理：

示例语句： select uid,gender from user where gender = ‘1’;

HDFS客户端拿到代码后，NameNode 识别出user表，分布计算程序代码，得到结果后进行一次where的筛选，然后进行reducing汇总，输出结果。

分层示例参考文章：

https://blog.csdn.net/lightupworld/article/details/108716552

Hue是一个开源的Apache Hadoop UI系统，由Cloudera Desktop演化而来，最后Cloudera公司将其贡献给Apache基金会的Hadoop 区，它是基于Python Web框架Django实现的。

通过使用Hue，可以在浏览器端的Web控制台上与Hadoop集群进行交互，来分析处理数据，例如操作 HDFS上的数据，运行MapReduce Job，执行Hive的HQL语句，浏览HBase数据库等等(相当于Navicat，优点是不用安装，相当于单机版Navicat)

访问站： http://106.75.255.77:8000/

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！