学习笔记 – Hadoop-Hive 介绍
1 背景
当前用户数据都是以“亿”为单位进行考量,传统数据库无法满足快速增长的海量数据存储需求,其计算和处理能力也大大不足。数据仓库有分布式存储与处理能力,将各种数据源整合集成到统一的数据中心,防止数据在传递过程中格式参差不齐,解决数据壁垒。常见的数据仓库产品如下:
2.2 分布式计算MapReduce
简单举例说明MapReduce的计算原理,如:
Input (内容)→ spliting (拆分运算)→ Mapping(分开后,各自计算,Shulffing,得到分布式结果)→ Reducing(合,汇总)→Final Result
分布式计算:如129M的文件,存在不同的集群上面,和同时进行计算,然后进行整合;
向数据靠拢:MapReduce,将计算代码分发到DataNode之后,数据会执行代码,不用把数据都整合在一起再执行代码;
JobTracker监控:通过心跳机制进行监控,做负载均衡;
Hive 工具原理:
示例语句: select uid,gender from user where gender = ‘1’;
HDFS客户端拿到代码后,NameNode 识别出user表,分布计算程序代码,得到结果后进行一次where的筛选,然后进行reducing汇总,输出结果。
分层示例参考文章:
https://blog.csdn.net/lightupworld/article/details/108716552
3. Hue 环境使用
Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡 献给Apache基金会的Hadoop 区,它是基于Python Web框架Django实现的。
通过使用Hue,可以在浏览器端的Web控制台上与Hadoop集群进行交互,来分析处理数据,例如操作 HDFS上的数据,运行MapReduce Job,执行Hive的HQL语句,浏览HBase数据库等等(相当于Navicat,优点是不用安装,相当于单机版Navicat)
访问 站: http://106.75.255.77:8000/
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!