第一阶段linux+搜索+hadoop体系
Linux基础 → shell编程 → 高并发架构 → hadoop体系 → HDFS → mapreduce → hbase → zookeeper → hive → lucene搜索 → solr/solrcloud → elasticsearch分布式搜索 → CM+CDH集群管理 → impala → oozie → flume → sqoop → 项目实战一
第二阶段机器学习
R语言 → mahout → 项目实战二
第三阶段storm流式计算
kafka → storm → redis → 项目实战三
第四阶段spark内存计算
scala编程 → spark core → spark sql → spark streaming → spark mllib → spark graphx → 项目实战四 → python机器学习 → spark python编程 → 项目实战五 → 项目实战六
第五阶段云计算平台
docker → kvm → openstack云计算 → 就业指导
第一阶段:linux+搜索+hadoop体系 | |
Linux大纲 | 这章是基础课程,帮大家进入大数据领域打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,kvm,openstack等众多课程。因为企业中无一例外的是使用Linux来搭建或部署项目。 |
大型 站 高并发处理 |
通过本章的学习大家将会了解大数据的源头,数据从何而来,继而更好的了解大数据。并且通过学习何果处理大型 站高并发问题反向更深入的学习了Linux,同时站在了更高的角度去触探了架构。 |
1) 第四层负载均衡 a) Lvs负载均衡 i. 负载算法,NAT模式,直接路由模式(DR),隧道模式(TUN) b) F5负载均衡器介绍 2) 第七层负载均衡 a) Nginx b) Apache 3) Tomcat、jvm优化提高并发量 4) 缓存优化 a) Java缓存框架 i. Oscache,ehcache b) 缓存数据库 i. Redis,Memcached 5) Lvs+nginx+tomcat+redis|memcache构建二层负载均衡千万并发处理 6) Haproxy 7) Fastdfs小文件独立存储管理 8) Redis缓存系统 a) Redis基本使用 b) Redis sentinel高可用 c) Redis好友推荐算法 |
|
Lucene课程 | 在大数据里面文本数据的搜索是很重要的一块,特别是里面的分词技术,是后面机器学习里面文本挖掘的基石,我们需要深入学习java领域里面的搜索核心技术lucene,同时也可以了解到百度 google这样的搜索系统是怎么架构实现的。 |
1) Lucene介绍 2) Lucene 倒排索引原理 > 3) 建索引 IndexWriter 4) 搜索 IndexSearcher 5) Query 6) Sort和 过滤 (filter) 7) 索引优化和高亮 | |
Solr课程 | 接着前面lucene技术搜索,如果把lucene技术比如为发动机,那solr就是一两成型的汽车了。学习完solr可以帮助你在企业里面快速的架构搜索系统。首先Solr是基于Lucene做的,Lucene是一套信息检索工具包,但并不包含搜索引擎系统,它包含了索引结构、读写索引工具、相关性工具、排序等功能,因此在使用Lucene时你仍需要关注搜索引擎系统,例如数据获取、解析、分词等方面的东西。而Solr的目标是打造一款企业级的搜索引擎系统,因此它更接近于我们认识到的搜索引擎系统,它是一个搜索引擎服务,通过各种API可以让你的应用使用搜索服务,而不需要将搜索逻辑耦合在应用中。而且Solr可以根据配置文件定义数据解析的方式,更像是一个搜索框架,它也支持主从、热换库等操作。还添加了飘红、facet等搜索引擎常见功能的支持。 |
1) 什么是solr 2) 为什么工程中要使用solr 3) Solr的原理 4) 如何在tomcat中运行solr 5) 如何利用solr进行索引与搜索 6) solr的各种查询 7) solr的Filter 8) solr的排序 9) solr的高亮 10) solr的某个域统计 11) solr的范围统计 12) solrcloud集群搭建 | |
Hadoop 离线计算大纲 |
一、初识hadoop听过大数据,必听过hadoop,此部分带领大家了解hadoop的用途,在大数据中的用途,以及快速搭建一个hadoop的实验环境,在本过程中不仅将用到前面的Linux知识,而且会对hadoop的架构有深入的理解,并为你以后架构大数据项目打下坚实基础。 |
1) Hadoop生态环境介绍 2) Hadoop云计算中的位置和关系 3) 国内外Hadoop应用案例介绍 4) Hadoop 概念、版本、历史 5) Hadoop 核心组成介绍及hdfs、mapreduce 体系结构 6) Hadoop 的集群结构 7) Hadoop 伪分布的详细安装步骤 8) 通过命令行和浏览器观察hadoop | |
二、 HDFS体系结构和shell以及java操作详细剖析HDFS,从知晓原理到开发 盘的项目让大家打好学习大数据的基础,大数据之于分布式,分布式学习从学习分布式文件系统(HDFS)开始。 | |
1) HDFS底层工作原理 2) HDFS datanode,namenode详解 3) Hdfs shell 4) Hdfs java api | |
三、 详细讲解MapreduceMapreduce可以说是任何一家大数据公司都会用到的计算框架,也是每个大数据工程师应该熟练掌握的,此处的学习除了老师详细的讲解理论外,会通过大量的案例让大家彻底掌握。 | |
1) Mapreduce四个阶段介绍 2) Writable 3) InputSplit和OutputSplit 4) Maptask 5) Shuffle:Sort,Partitioner,Group,Combiner 6) Reducer | |
四、 Mapreduce案例案例 | |
1) 二次排序 2) 倒排序索引 3) 最优路径 4) 电信数据挖掘之—–移动轨迹预测分析(中国棱镜计划) 5) 交好友推荐算法 6) 互联 精准广告推送 算法 7) 阿里巴巴天池大数据竞赛 《天猫推荐算法》案例
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!
Android实现60s倒计时
上一篇
2017年1月15日
外卖订餐APP开发和解决方案
下一篇
2017年1月16日
相关推荐
|