Hadoop

一、大数据的定义

大数据，指的是无法在一定时间范围内常规软件工具进行捕捉、管理和处理数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量，高增长率和多样化的信息资产。

二、能处理大数据的技术

1）Hadoop离线计算
2）spark实时计算
3）storm流式计算

三、Hadoop背景介绍

Apache是一个可靠的，扩展的分布式计算开发软件
Apache Hadoop可以理解为一个框架，它允许使用简单的编程模型来计算分布式的大型数据集合(海量数据)
https://hadoop.apache.org官方址

四、Hadoop包括模块

1）Hadoop Common：Hadoop的一些模块工具
2）Hadoop分布式系统(HDFS):一种分布式文件系统，它可以提供应用程序数据的高吞吐量的访问
3）Hadoop YARN：作业调度和集群资源管理框架4）Hadoop MapReduce：一种用于能处理大型数据集的基于YARN的系统(分布式计算框架)
上述的每个模块都有自己独立的功能，而模块和模块之间又有一定联系。

五、Hadoop的生产背景

1）雏形开始于2002年的Apache的Nutch,Nutch是有java开发的一个搜索引擎,它包含了所有搜索引擎所需要的全部工具。

2）包括:全文搜索,Web爬虫.Nutch的目的是设计一个发型的全络的搜索引擎,包括:抓取,索引,查询等功能

3）随着络的发展碰到了一个瓶颈 –>“如何解决十亿页的存储和索引问题”
2003年Google发表了一遍技术学术论文谷歌文件系统(GFS),google公司为了存储海量搜索数据设计的专用文件系
统

4）2004年Nutch的创始人, Doug Cutting基于GFS的论文实现了分布式文件存储系统HDFS

ps: 2003-2004年 Google公开了部分GFS和MapReduce的思想细节,以此为基础Doug Cutting等人用了2年的(业余)

5）时间,实现了 DFS和MapReduce机制的一个,微缩版的Nutch
2004年Google又发表了一个计算学术论文MapReduce,MapReduce是一种编程模型用于大规模数据集(大于1TB)的处理和并行计算
6）2005年Doug Cutting又基于MapReduce在Nutch搜索引擎开发了该功能

重要组件：
1.HDFS:分布式文件系统
**2.MapReduce：**分布式计算框架
3.HIVE：基于大数据技术的SQL数据仓库工具(文件系统+运算框架)
4.HBASE：基于Hadoop的分布式海量数据库（NoSQL非关系型数据库，列式存储)
5.Zookeeper：分布式协调服务基础组件
6.Oozie：工作流程调度框架
7.Sqoop：数据导入导出工具
8.Flume：日志数据采集框架
9.Mahout：基于MapReduce/spark/filnk等分布式计算框的机器学习

九、什么是分布式系统/h2>

1.分布式软件系统
分布式软件系统是由一组通过络进行通信，为了完成共同的任务而协调工作的计算机节点所组成的系统
分布式系统的出现为了廉价，普通的机器完成单个计算机无法完成计算，存储等任务，其目的就是充分利用计算机来处理更多的任务。

常用的分布式软件系统的案例：

web服务器集群，单台服务器的性能和资源有限，支持的连接并发数也是有上限的，因此必须采用多态服务器集群的方式才能提供并发数据和及三级计算速度

每台web服务器分配一个域名，肯定是同一个域名进入的是同一个入口

十、离线数据的分析流程

web日志数据挖掘

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！