impala交互式查询工具

2022年2月4日下午2:54 • 软件开发

1 概述

impala是基于hive的大数据分析查询引擎，直接使用hive的元数据库metadata，意味着impala元数据都存储在hive的metastore当中，并且impala兼容hive的绝大多数sql语法。

1.1 优点

速度快

摈弃了MR的计算，改用C++来实现

具有数据仓库的特性，对hive的原有数据做数据分析

支持ODBC，jdbc远程访问

1.2 缺点

内存消耗大，官方推荐每台机器最少128G的内存

基于hive，与hive共存亡，紧耦合

改用C++编写，意味着维护难度增大

基于hive，与hive共存亡，紧耦合

2 架构与查询计划

2.1 架构

impala-server:从节点，计算节点，主要负责执行查询任务的计算，官方建议：impala-server与每一个datanode安装在一起

impala-catalog：主节点，主要存储量元数据信息在两个地方，一个在内存中，一个在磁盘中。impala当中的元数据管理的服务

impala-statestore：主节点，状态存储区，主要存储了一些SQL执行的进度信息，状态信息等

2.2 查询计划

fronted：使用Java来实现，负责生成我们的查询计划

backend：使用C++来实现，主要负责执行查询

3 使用

3.1 impala-shell外部命令参数语法

不需要进入到impala-shell交互命令行当中即可执行的命令参数

3.2 impala-shell的内部命令行参数语法

文章知识点与官方知识档案匹配，可进一步学习相关知识MySQL入门技能树SQL高级技巧CTE和递归查询31716 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！