大数据全套视频教程B站直达免费在线看:https://space.bilibili.com/302417610/channel/seriesdetailid=457614
免费视频及资料下载地址:https://pan.baidu.com/s/18Feqa_63640xPB0fYJ8Ttg,提取码:9bnr
学习路线及下载导航:http://www.atguigu.com/bigdata_video.shtml#bigdata
第1章 大数据概论
1.1 大数据概念
- 大数据(BigData) :指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
按顺序给出数据存储单位:bit、byte、kb、MB、GB、TB、PB、ZB、YB、BB、NB、DB 1byte=8bit、1kb=1024byte、1MB=1024kb、1G=1024MB、1T=1024G、1P=1024T
- 主要解决,海量数据的采集、存储和海量数据的分析计算问题。
1.2大数据特点(4V)
- 大量(volume)
- 截至目前,人类生产的所有印刷材料的数据量是200PB, 而历史上全人类总共说过的话的数据量大约是5EB。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
- 高速(velocity)
- 这是大数据区分于传统数据挖掘的最显著特征。根据IDC的”数字宇宙”的 告,预计到2020年,全球数据使用量将达到163ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
- 天猫双十一: 2017年3分01秒,天猫交易额超过100亿
- 多样(variety)
- 这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以数据库/文本为主的结构化数据,非结构化数据越来越多,包括 络日志音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
- 低密度价值(value)
- 价值密度的高低与数据总量的大小成反比。比如,在- -天监控视频中,我们只关心宋老师晚上在床上健身那一分钟,如何快速对有价值数据“提纯”成为目前大数据背景下待解决的难题。更高要求。
1.3 大数据应用场景
- 1、物流仓储:大数据分析系统助力商家精细化运营、提升销量、节约成本。
- 2、零售:分析用户消费习惯,为用户购买商品提供方便,从而提升商品销量。
- 3、旅游:深度结合大数据能力与旅游行业需求,共建旅游产业智慧管理、智慧服务和智慧营销的未来。
- 4、商品广告推荐:给用户推荐可能喜欢的商品
- 5、保险:海量数据挖掘及风险预测,助力保险行业精准营销,提升精细化定价能力。
- 6、金融:多维度体现用户特征,帮助金融机构推荐优质客户,防范欺诈风险。
- 7、房产:大数据全面助力房地产行业,打造精准投策与营销,选出更合适的地,建造更合适的楼,卖给更合适的人。
- 8、人工智能
1.4 大数据发展前景
- 2020年5G元年
1.5 大数据部门业务流程分析
2.1 Hadoop是什么
- 1 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
- 2主要解决,海量数据的存储和海量数据的分析计算问题。
- 3广义上来说,Hadoop通常是指一 个更广泛的概念一一 Hadoop生态圈。
2.2 Hadoop发展历史
- Hadoop创始人Doug Cutting
- (1) Lucene框架是Doug Cutting开创的开源软件,用Java书写代码,实现与Google类似的全文搜索功能,它是供了全文检索引擎的架构,包括完整的查询弓|擎和索引引擎。
- (2) 200 I年年底Lucene成为Apache基金会的一个子项目。
- (3)对于海量数据的场景,Lucene 面对与Google同样的困难,存储数据困难,检索速度慢。
- (4)学习和模仿Google解决这些问题的办法:微型版Nutch。
- (5)可以说Google是Hadoop的思想之 源(Google在大数据方面的三篇论文)
- GFS –>HDFS
- Map- Reduce–>MR .
- BigTable –>HBase
- (6) 2003-2004年, Google公开了部分GFS和MapReduce思想的细节,以此为基础Doug Cutting等人用了2年业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。
- (7) 2005 年Hadoop作为Lncene的子项目Nutch的一部分正式引|入Apache基金会。
- (8) 2006 年3月份,Map-Reduce和Nutch Distributed File System (NDFS )分别被纳入到Hadoop项目中,Hadoop就此正式诞生,标志着大数据时代来临。
2.3 Hadoop三大发行版本
- Hadoop三大发行版本:Apache、Cloudera、Hortonworks。
- Apache版本最原始(最基础)的版本,对于入门学习最好。
- Cloudera在大型互联 企业中用的较多。
- Hortonworks文档较好。
- Apache Hadoop
官 地址:http://hadoop.apache.org/releases.html
下载地址:https://archive.apache.org/dist/hadoop/common/ - Cloudera Hadoop
官 地址:https://www.cloudera.com/downloads/cdh/5-10-0.html
下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/ - Hortonworks Hadoop
官 地址:https://hortonworks.com/products/data-center/hdp/
下载地址:https://hortonworks.com/downloads/#data-platform
2.4 Hadoop的优势(4高)
- (1)高可靠性: Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
- (2)高扩展性:在集群间分配任务数据,可方便的扩展数以干计的节点。
- (3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
- (4)高容错性:能够自动将失败的任务重新分配。
2.5 Hadoop组成(重点)
- yet another resource negotiator 简称YARN,另一个资源协调者,是Hadoop的资源管理器
- YARN架构概述
- ResourceManager(RM):整个集群资源(内存、CPU)的老大
- NodeManager(NM):单个节点服务器资源老大
- ApplicationMaaster(AM):单个任务运行的老大
- Container:容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、 络等
- 说明
- 客户端可以有多个
- 集群上可以运行多个ApplicationMaster
- 每个NodeManager上可以有多个Container
2.5.3 MapReduce架构概述
- MapReduce将计算过程分为两个阶段:Map和Reduce,如图2-25所示
- (1)Map阶段并行处理输入数据
2.6 大数据技术生态体系
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!