【高级开发必掌握SQL】SQL优化篇

??技术活,该赏

??点赞 ?? 收藏 ?再看,养成习惯

PC端左侧加我微信,进 群,有送书等更多活动!

前言

虚竹哥最近在写数据库方面的技术专栏,想输出好的技术知识时,也需要不断地输入,给人一瓢水,底下是一桶水。
今天来聊一聊SQL的性能优化,然后分享一个关于SQL的开源项目。
在分享之前,来个福利预告:认真看完文章,文末送本数据库好书。

SQL

SQL作为目前最常用的数据处理语言,广泛应用于查询、跑批等场景。当数据量较大时,使用SQL(以及存储过程)经常会发生跑得很慢的情况,这就要去优化SQL。优化SQL有一些特定的套路,通常先要查看执行计划来定位SQL慢的原因,然后针对性改写来优化SQL,比如对于连续数值判断可以用between来替代in,select语句指明字段名称,用union all替代union,把exists改写成join等。当然还有一些工程上的优化手段,如建立索引,使用临时表/汇总表等,优化的方法有很多,相信各位DBA都不会陌生。

但遗憾的是,仍然有相当多情况无论怎样优化都不可能跑得更快。这里做 SQL 性能优化真是让人干瞪眼 介绍了一些,并做了相应的技术分析。由于其理论基础关系代数的局限,SQL缺乏离散性和有序集合等特性的支持使得SQL在表达某些高性能算法时异常困难,甚至完全写不出来,只能采用比较笨的低性能算法,眼睁睁地看着硬件资源被白白浪费。在 写着简单跑得又快的数据库语言 SPL 中有对SQL理论基础缺陷的通俗解释。也就是说,SQL的慢是理论性的,这种问题仅仅由数据库在工程层面优化只能局部改善(确实有不少商业数据库能够自动识别某些SQL并转换成高性能算法),而不能根本地解决问题(情况复杂时数据库优化引擎都会“晕”掉,只能按SQL的书写逻辑执行成低性能算法)。理论性的缺陷当然也不能寄希望于更换数据库而得到解决,只要还是用SQL,即使采用分布式数据库、内存数据库也还是这种情况,在消耗更大成本的资源后当然也能有一定的性能提升,但和硬件本应能够达到的性能仍然有巨大的差距。

那还能怎么办p>

那就不能再用SQL!也就不能再用关系数据库了。

那用什么p>

SQL描述不了这些高性能算法,用Java,C++行吗p>

没问题!从理论上讲,Java、C++什么算法都能实现,而且因为可以控制计算机底层的动作,这类代码通常可以跑出很好的速度(只要程序员能力不是太差)。

不过,不要高兴得太早,虽然都写得出来,但由于这些开发语言过于原生,本身没有提供什么面向数据处理的高性能计算类库,想实现这些算法就必须从头实现,而这恐怕要累死。以哈希关联为例,Java实现至少要写几百行代码,不仅要设计合适的哈希函数,还要解决可能出现的哈希冲突,这一套下来的工程量可不小;还有在Java中进行多线程编程也并非易事,但并行计算又是提升计算性能的有效手段。类似的,涉及结构化数据计算的算法还有很多,这些都自己来做的复杂度可想而知。如果一个计算的实现过于复杂,其开发代价已经远远超过性能优化本身,那也就没有优化的意义了。

Python也面临类似的问题,虽然在结构化数据计算类库方面要比Java丰富得多,但并没有提供必要的高性能算法库和存储方案,比如没有提供为大数据服务的游标类型及相关运算,也没提供有效的并行机制。想要实施那些高性能算法也只能自己开发,但Python作为解释执行语言,本身运行效率不高,在此基础上再开发的算法也往往达不到高性能要求。同样,Scala也缺乏足够的高性能计算类库,自己编写的算法同样复杂度相当高,对于不熟悉这些算法的程序员来讲,从头实现的代码的运行效率往往还不如努力优化后商用数据库SQL的速度。

那就只能忍受SQL的慢了吗p>

还可以用SPL!

SPL和高性能

开源SPL(Structured Process Language),一个专门面向结构化数据处理的程序语言。使用SPL可以让原本SQL跑得慢的计算变快。

为什么SPL能跑得快有了什么改变硬件性能的黑科技吗p>

那倒没有。软件改变不了硬件的计算性能,SPL也一样。简单来说,SPL快就是上面说的,要使用更高性能的算法。SPL中提供了大量基础的高性能算法类库,基于这些算法库实现的代码可以有效减少计算量,而我们做计算就是组合运用这些算法,每种计算都快一些,那整体上就会快很多,从而达到提升计算性能的目的。

SPL设计的这些高性能算法,像遍历复用、有序归并、外键预关联、标签位维度、并行计算等,都已经封装好。这其中有很多算法都是SPL独创的,在业内也是首次出现。

如何开始

从前面的分析可以知道,完成性能优化任务必须熟悉高性能算法和存储机制,但从上面的课程图书也可以看出来,这些内容并不少,都要融会贯通也不是很容易的事。特别是很多程序员都习惯了SQL的思维方式,很难跳出这个窠臼。面对一个性能优化任务,即使有了开源SPL这样的有利武器,也常常有点无从下手。打个比方,一个赶马车的高手想跑得更快时,会习惯于寻找缰绳和鞭子,而对于初次见到的汽车上的方向盘和油门却会感到一头雾水。

为此,SPL团队也提供相应的咨询服务:你可以把遇到的性能问题拿过来与我们一起讨论和设计优化方案,必要的时候还可以进行POC。

我们通常关心这样一些必要的问题信息:业务场景、面临痛点、当前计算的数据量和并发量以及响应时间,如果还能提供SQL脚本、表结构和测试数据就更好了。留个邮箱方便交流:spl@scudata.com。

相信我们,从不失手!

经历过一两个案子,程序员们就会熟悉SPL的思维方式(理解了方向盘和油门),以后再自己做性能优化就不是问题了。

天下武功,唯快不破,但只有掌握了快的本质和方法才能所向无敌。你说是不是p>

相关资料

  • SPL下载
  • SPL源代码

粉丝福利

送一本这个月刚出版的《MySQL数据库进阶实战》《MySQL数据库进阶实战》读后感
如何免费获得该书呢p>

  • 参与评论送书:随机抽取一位幸运读者,送一本《MySQL数据库进阶实战》!
  • 统计截止时间:2022/08/18 21:59:59

文章知识点与官方知识档案匹配,可进一步学习相关知识Java技能树使用JDBC操作数据库数据库操作92731 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年7月13日
下一篇 2022年7月13日

相关推荐