云计算大纲

第一阶段linux+搜索+hadoop体系

Linux基础 shell编程 高并发架构 hadoop体系 HDFS mapreduce hbase zookeeper hive lucene搜索 solr/solrcloud elasticsearch分布式搜索 CM+CDH集群管理 impala oozie flume sqoop 项目实战一

第二阶段机器学习

R语言 mahout 项目实战二

第三阶段storm流式计算

kafka storm redis 项目实战三

第四阶段spark内存计算

scala编程 spark core spark sql spark streaming spark mllib spark graphx 项目实战四 python机器学习 spark python编程 项目实战五 项目实战六

第五阶段云计算平台

docker kvm openstack云计算 就业指导

第一阶段:linux+搜索+hadoop体系
Linux大纲 这章是基础课程,帮大家进入大数据领域打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,kvm,openstack等众多课程。因为企业中无一例外的是使用Linux来搭建或部署项目。
大型 站
高并发处理
通过本章的学习大家将会了解大数据的源头,数据从何而来,继而更好的了解大数据。并且通过学习何果处理大型 站高并发问题反向更深入的学习了Linux,同时站在了更高的角度去触探了架构。
1) 第四层负载均衡
    a) Lvs负载均衡
        i. 负载算法,NAT模式,直接路由模式(DR),隧道模式(TUN)
    b) F5负载均衡器介绍
2) 第七层负载均衡
    a) Nginx     b) Apache
3) Tomcat、jvm优化提高并发量
4) 缓存优化
    a) Java缓存框架
        i. Oscache,ehcache
    b) 缓存数据库
        i. Redis,Memcached
5) Lvs+nginx+tomcat+redis|memcache构建二层负载均衡千万并发处理
6) Haproxy
7) Fastdfs小文件独立存储管理
8) Redis缓存系统
    a) Redis基本使用     b) Redis sentinel高可用     c) Redis好友推荐算法
Lucene课程 在大数据里面文本数据的搜索是很重要的一块,特别是里面的分词技术,是后面机器学习里面文本挖掘的基石,我们需要深入学习java领域里面的搜索核心技术lucene,同时也可以了解到百度 google这样的搜索系统是怎么架构实现的。
1) Lucene介绍 2) Lucene 倒排索引原理 >  3) 建索引 IndexWriter 4) 搜索 IndexSearcher 5) Query 6) Sort和 过滤 (filter) 7) 索引优化和高亮
Solr课程 接着前面lucene技术搜索,如果把lucene技术比如为发动机,那solr就是一两成型的汽车了。学习完solr可以帮助你在企业里面快速的架构搜索系统。首先Solr是基于Lucene做的,Lucene是一套信息检索工具包,但并不包含搜索引擎系统,它包含了索引结构、读写索引工具、相关性工具、排序等功能,因此在使用Lucene时你仍需要关注搜索引擎系统,例如数据获取、解析、分词等方面的东西。而Solr的目标是打造一款企业级的搜索引擎系统,因此它更接近于我们认识到的搜索引擎系统,它是一个搜索引擎服务,通过各种API可以让你的应用使用搜索服务,而不需要将搜索逻辑耦合在应用中。而且Solr可以根据配置文件定义数据解析的方式,更像是一个搜索框架,它也支持主从、热换库等操作。还添加了飘红、facet等搜索引擎常见功能的支持。
1) 什么是solr 2) 为什么工程中要使用solr 3) Solr的原理 4) 如何在tomcat中运行solr 5) 如何利用solr进行索引与搜索 6) solr的各种查询 7) solr的Filter 8) solr的排序 9) solr的高亮 10) solr的某个域统计 11) solr的范围统计 12) solrcloud集群搭建
Hadoop
离线计算大纲
一、初识hadoop听过大数据,必听过hadoop,此部分带领大家了解hadoop的用途,在大数据中的用途,以及快速搭建一个hadoop的实验环境,在本过程中不仅将用到前面的Linux知识,而且会对hadoop的架构有深入的理解,并为你以后架构大数据项目打下坚实基础。

1) Hadoop生态环境介绍 2) Hadoop云计算中的位置和关系 3) 国内外Hadoop应用案例介绍 4) Hadoop 概念、版本、历史 5) Hadoop 核心组成介绍及hdfs、mapreduce 体系结构 6) Hadoop 的集群结构 7) Hadoop 伪分布的详细安装步骤 8) 通过命令行和浏览器观察hadoop
二、 HDFS体系结构和shell以及java操作详细剖析HDFS,从知晓原理到开发 盘的项目让大家打好学习大数据的基础,大数据之于分布式,分布式学习从学习分布式文件系统(HDFS)开始。
1) HDFS底层工作原理 2) HDFS datanode,namenode详解 3) Hdfs shell 4) Hdfs java api
三、 详细讲解MapreduceMapreduce可以说是任何一家大数据公司都会用到的计算框架,也是每个大数据工程师应该熟练掌握的,此处的学习除了老师详细的讲解理论外,会通过大量的案例让大家彻底掌握。
1) Mapreduce四个阶段介绍 2) Writable 3) InputSplit和OutputSplit 4) Maptask 5) Shuffle:Sort,Partitioner,Group,Combiner 6) Reducer
四、 Mapreduce案例案例
1) 二次排序 2) 倒排序索引 3) 最优路径 4) 电信数据挖掘之—–移动轨迹预测分析(中国棱镜计划) 5) 交好友推荐算法 6) 互联 精准广告推送 算法 7) 阿里巴巴天池大数据竞赛 《天猫推荐算法》案例

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2017年1月15日
下一篇 2017年1月16日

相关推荐