从NoSQL到NewSQL,新技术的发展极大拓展了数据查询的应用场景:支持半结构化数据(JOSON)、非结构化数据的高效率读写和查询等。而在此过程中经典的SQL技术仍旧在发挥着无可替代的作用,在Hadoop的世界中也必将占据一席之地。
从NoSQL说起
从NoSQL到NewSQL,新技术的发展极大拓展了数据查询的应用场景:支持半结构化数据(JOSON)、非结构化数据的高效率读写和查询等。而在此过程中经典的SQL技术仍旧在发挥着无可替代的作用,在Hadoop的世界中也必将占据一席之地。
作为传统的RMDBS核心厂商之一,IBM也一直努力将SQL带入Hadoop的世界,这就是BigSQL。最初版本中BigSQL是做为SQL到MR的转换引擎出现的,可以把复杂的SQL语句转换成MR作业运行。这种方式还只是适合对大量数据进行批量处理,并不能满足对数据的随需查询和秒级的查询响应时间要求。
从BigSQL3.0 开始, IBM结合自己在数据库领域长期的技术积累,把MPP相关技术带入Hadoop的世界,从而为SQL on Hadoop带来真正的提升:BigSQL根据数据在HDFS中的分布,将查询任务下压至不同的Worker节点;在此过程中,引入众多成熟的SQL优化技术,包括SQL语句重写、查询谓词下压、基于统计信息和成本估计的优化策略等,解决执行路径优化等难题,确保数据查询的性能。仅在执行路径优化方面应用到的技术就包括:
数据处理顺序的优化技术:
– 根据统计信息决定查询谓词的执行顺序
– 根据数据分布情况优化关联查询次序
– 优化数据聚合策略(如每个节点先部分聚合后再汇总等)
数据表关联的优化技术:
– 表嵌套关联
– 排序合并关联
– 哈希关联
数据位置相关的优化技术:
– 并行运算
– 广播关联数据表
– 联邦查询中操作下推和函数转换等
BigSQL执行引擎根据实际情况综合考虑最终的执行路径。下图可以感受下BigSQL执行过程中应用到的多种SQL优化技术:

除了引入MPP架构来优化Hadoop上的SQL引擎外,BigSQL还有众多闪光的亮点:
全面支持SQL语法和开放的数据源支持:
BigSQL全面支持SQL 2011标准,提供如表关联、嵌套语句、函数、表操作表达式、group by, union等SQL操作,还提供对存储过程、自定义函数的支持,可以无缝衔接传统的SQL查询应用,如BI系统等。下图展示了BigSQL的部分SQL能力:


BigSQL可以支持多种数据源,包括HDFS、HBASE、HIVE、外部数据源等,对数据源和数据格式的支持是完全开放的。
完善的SQL管理

数据联邦查询
除了可以支持查询Hadoop内部的各种数据源外,BigSQL 还支持与其他企业数据源进行联邦,包括:DB2/Oracle/IBM PDA/IBM PDOA/TeraData/JDBC等,联邦让跨系统的数据访问在一个SQL中完成,而不需要复杂的ETL过程和数据传输等待。
联邦的含义不仅仅是指打通了数据访问通道,还包括查询路径优化方面的考虑。比如,根据数据的分布和数据源的支持情况:将语句下压至联邦数据源执行;部分在联邦数据源部分在BigSQL执行;或者全部由BigSQL执行。
数据量、联邦数据源处理能力、联邦数据源的处理速度、返回数据比例、 络带宽等这些都在考虑之列。比如,如果数据源仅支持正切函数TAN(x),而不支持余切函数COT(X),BigSQL将会SQL中的COT(x)转换成等价的正切函数表达式1/TAN(x)。
通过联邦,BigSQL可以让本来不具备SQL数据访问能力的数据源变成兼容SQL数据访问标准的数据源。下图显示了BigSQL联邦支持的数据源:

内置函数丰富,包含机器学习算法
BigSQL除了可以提供常规的SQL函数外,还提供了众多机器学习算法的实现,包括:K-means聚类算法、朴素贝叶斯算法、关联规则算法、序列模式挖掘算法、线性回归算法等。这让熟悉SQL语法和数据的DBA,马上提升数据分析技能!!
如下图显示通过简单的一条SQL语句就可以完成对人口收入调查数据集(CensusIncome)的聚类建模分析:

再通过一条SQL即可显示聚类分析结果:

安全特性
安全性是企业级产品必须要考虑的,BigSQL中的用户鉴权通过外部框架完成,如LDAP,而用户连接之后的内部鉴权则由BigSQL完成。BigSQL可以根据用户的授权、属主和角色判定用户的权限。如同数据库一样,BigSQL可以通过GRANT语句给用户授权,可以做到行、列级别的权限控制。
另外,BigSQL还实现数据访问的审计功能,对什么人从什么时间什么地点访问了什么数据进行了完整的审计。
最后,除了文章中列出的这些特点,BigSQL具备更多企业级产品的特性,有待您来一起探索。
更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>
详情请咨询在线客服!
客服热线:
标签:大数据BI数据分析Hadoop
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!