impala交互式查询工具

1 概述

        impala是基于hive的大数据分析查询引擎,直接使用hive的元数据库metadata,意味着impala元数据都存储在hive的metastore当中,并且impala兼容hive的绝大多数sql语法。

1.1 优点

        速度快

        摈弃了MR的计算,改用C++来实现

        具有数据仓库的特性,对hive的原有数据做数据分析

        支持ODBC,jdbc远程访问

1.2 缺点

        内存消耗大,官方推荐每台机器最少128G的内存

        基于hive,与hive共存亡,紧耦合

        改用C++编写,意味着维护难度增大

        基于hive,与hive共存亡,紧耦合

2 架构与查询计划

2.1 架构       

        impala-server:从节点,计算节点,主要负责执行查询任务的计算,官方建议:impala-server与每一个datanode安装在一起

        impala-catalog:主节点,主要存储量元数据信息在两个地方,一个在内存中,一个在磁盘中。impala当中的元数据管理的服务

        impala-statestore:主节点,状态存储区,主要存储了一些SQL执行的进度信息,状态信息等

2.2 查询计划   

        fronted:使用Java来实现,负责生成我们的查询计划

        backend:使用C++来实现,主要负责执行查询

3 使用

3.1 impala-shell外部命令参数语法

        不需要进入到impala-shell交互命令行当中即可执行的命令参数

3.2 impala-shell的内部命令行参数语法

文章知识点与官方知识档案匹配,可进一步学习相关知识MySQL入门技能树SQL高级技巧CTE和递归查询31716 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年2月4日
下一篇 2022年2月4日

相关推荐