GitChat · 大数据 | 一步一步学习大数据:Hadoop 生态系统与场景

Hadoop概要

到底是业务推动了技术的发展,还是技术推动了业务的发展,这个话题放在什么时候都会惹来一些争议。

随着互联 以及物联 的蓬勃发展,我们进入了大数据时代。IDC预测,到2020年,全球会有44ZB的数据量。传统存储和技术架构无法满足需求。在2013年出版的《大数据时代》一书中,定义了大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

当我们把时间往回看10年,来到了2003年,这一年Google发表《Google File System》,其中提出一个GFS集群中由多个节点组成,其中主要分为两类:一个Master node,很多Chunkservers。之后于2004年Google发表论文并引入MapReduce。2006年2月,Doug Cutting等人在Nutch项目上应用GFS和 MapReduce思想,并演化为Hadoop项目。

Doug Cutting曾经说过他非常喜欢自己的程序被千万人使用的感觉,很明显,他做到了;下图就是本尊照片,帅气的一塌糊涂

从上述几种可以看出来,假设一个MapReduce过程中存在大量的数据移动对于执行效率来说是灾难性。

MapReduce数据流

从数据流来看MapReduce的关系大体可以分为以下几类:

  • 单Reduce

上述这个过程其实也MapReduce中赫赫有名的Shuffle过程。

MapReduce实际案例

  • Raw Data

  • Shuffle

    该过程中获取所要的记录组成键值对{年份,温度}。

  • Reduce

    Reduce端对list进行处理,获取最大值,然后输出到HDFS中。


  1. http://static.zybuluo.com/Fvanni/5au2nndmozu1kf8a9jh1vvoh/image_1bim6ie781kgb15nl58fjvq1fpm13.png

  2. http://static.zybuluo.com/Fvanni/zjbrg5lthhs4nw53xgg4o325/image.png

  3. http://static.zybuluo.com/Fvanni/9l1matroj29e9bf2wkdzf6iq/image.png

  4. http://static.zybuluo.com/Fvanni/ccax9nr7zegd93i2cqw3xw1s/image.png

  5. http://static.zybuluo.com/Fvanni/xzlmpcudzq5uylbs6tqvp4co/image.png

  6. http://static.zybuluo.com/Fvanni/hc4ofg0o6ktwmvu6x448qusu/image.png

  7. http://static.zybuluo.com/Fvanni/vltoc0gw1pvym5gjs8yidz3p/image.png

  8. http://static.zybuluo.com/Fvanni/s82vpzxjkqbwytuq49lwkhoe/image.png

  9. http://static.zybuluo.com/Fvanni/yrgmg3cfw0m08ruziefk0wzg/image.png

  10. http://static.zybuluo.com/Fvanni/u35n0t8wkhnp7ggnbl5twqhq/image.png

  11. http://static.zybuluo.com/Fvanni/vqhuw7b4g6fpj3s3a6lsd5uh/image.png

  12. http://static.zybuluo.com/Fvanni/l90ucgzi21jhf1wulxkoxd22/image.png

这里写图片描述

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2017年8月7日
下一篇 2017年8月7日

相关推荐