Hadoop概要
到底是业务推动了技术的发展,还是技术推动了业务的发展,这个话题放在什么时候都会惹来一些争议。
随着互联 以及物联 的蓬勃发展,我们进入了大数据时代。IDC预测,到2020年,全球会有44ZB的数据量。传统存储和技术架构无法满足需求。在2013年出版的《大数据时代》一书中,定义了大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
当我们把时间往回看10年,来到了2003年,这一年Google发表《Google File System》,其中提出一个GFS集群中由多个节点组成,其中主要分为两类:一个Master node,很多Chunkservers。之后于2004年Google发表论文并引入MapReduce。2006年2月,Doug Cutting等人在Nutch项目上应用GFS和 MapReduce思想,并演化为Hadoop项目。
Doug Cutting曾经说过他非常喜欢自己的程序被千万人使用的感觉,很明显,他做到了;下图就是本尊照片,帅气的一塌糊涂
从上述几种可以看出来,假设一个MapReduce过程中存在大量的数据移动对于执行效率来说是灾难性。
MapReduce数据流
从数据流来看MapReduce的关系大体可以分为以下几类:
- 单Reduce
上述这个过程其实也MapReduce中赫赫有名的Shuffle过程。
MapReduce实际案例
-
Raw Data
-
Shuffle
该过程中获取所要的记录组成键值对{年份,温度}。
-
Reduce
Reduce端对list进行处理,获取最大值,然后输出到HDFS中。
-
http://static.zybuluo.com/Fvanni/5au2nndmozu1kf8a9jh1vvoh/image_1bim6ie781kgb15nl58fjvq1fpm13.png
-
http://static.zybuluo.com/Fvanni/zjbrg5lthhs4nw53xgg4o325/image.png
-
http://static.zybuluo.com/Fvanni/9l1matroj29e9bf2wkdzf6iq/image.png
-
http://static.zybuluo.com/Fvanni/ccax9nr7zegd93i2cqw3xw1s/image.png
-
http://static.zybuluo.com/Fvanni/xzlmpcudzq5uylbs6tqvp4co/image.png
-
http://static.zybuluo.com/Fvanni/hc4ofg0o6ktwmvu6x448qusu/image.png
-
http://static.zybuluo.com/Fvanni/vltoc0gw1pvym5gjs8yidz3p/image.png
-
http://static.zybuluo.com/Fvanni/s82vpzxjkqbwytuq49lwkhoe/image.png
-
http://static.zybuluo.com/Fvanni/yrgmg3cfw0m08ruziefk0wzg/image.png
-
http://static.zybuluo.com/Fvanni/u35n0t8wkhnp7ggnbl5twqhq/image.png
-
http://static.zybuluo.com/Fvanni/vqhuw7b4g6fpj3s3a6lsd5uh/image.png
-
http://static.zybuluo.com/Fvanni/l90ucgzi21jhf1wulxkoxd22/image.png

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!