大数据框架用到的软件小结

2020年8月8日下午5:42 • 软件开发

yarn 集群计算资源的管理。

MR
map：并行运算将大的任务拆分成小的。
reduce：汇总

sqoop：负责把关系型数据库采集到hadoop
sql to hadoop

flume：采集日志数据到hadoop

hbase：nosql数据库，对百亿数据库进行秒级查询（非关系型数据库）

kafka：消息队列
既可以可以存储数据，也可以传输数据

mapreduce space stome 内存计算

用yarn申请资源调度

mr是离线计算：计算不会变化，计算的时候已经封闭了。
spark：内存计算，是mr的100倍

hive：用sql转mr 数据查询框架
mahout：数据挖掘框架
spark mlib：数据挖掘框架
spark r：数据分析
spark sql：数据查询，对标hive
spark stareaming：实时计算，确切叫准实时计算，因为它定义的窗口来计算的。比如每十秒算一批。
flink：实时计算。

把上面的进行任务流：
Azkaban 任务调度
Oozie 任务调度

zookeeper：数据平台配置和调度框架

业务模型、数据可视化、业务应用

文章知识点与官方知识档案匹配，可进一步学习相关知识MySQL入门技能树数据库组成表31716 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

大数据框架用到的软件小结

相关推荐