DTCC 2020 | 阿里云吉剑南:在线分析进入Fast Data时代的关键技术解读

简介:如今,对于在线分析技术而言,正在从“Big Data”时代向着“Fast Data”时代迈进,所面对的技术和市场环境发生了巨大变化,与此同时也需要面对全新的挑战。在第十一届中国数据库技术大会(DTCC2020)上,阿里云数据库高级技术专家吉剑南为大家带来了在线分析进入Fast Data时代的个关键技术解读。

摘要:如今,对于在线分析技术而言,正在从“Big Data”时代向着“Fast Data”时代迈进,所面对的技术和市场环境发生了巨大变化,与此同时也需要面对全新的挑战。在第十一届中国数据库技术大会(DTCC2020)上,阿里云数据库高级技术专家吉剑南为大家带来了在线分析进入Fast Data时代的个关键技术解读。

市场分析

市场趋势:数据规模爆炸性增长

接下来为大家介绍一些机构结合调研对于未来市场的判断。以下的数据来自于今年早些时候IDC和Gartner的一些调研数据。IDC预测2020年全球数据规模会达到40ZB左右,并且预测在2025年,数据规模将会相较于现在再增长430%,也就是每年都会有三位数的比例增长。结合现有存量数据来看,这样的增长速度还是非常恐怖的。

市场趋势:数据业务实时化占比大幅提高

不仅在数据规模层面,业务对分析新增实时数据的占比,将达到30%。使用实时数据的分析结果进行商业决策、 表制作等的新业务,也将在2022年提高到50%。

AnalyticDB作为一个面向Fast Data时代的一个在线数据分析标杆型产品,在做自研的过程中也面临着很多技术挑战。

“Fast Data”关键技术

结合典型的Fast Data架构来介绍涉及到的关键技术:

  • 首先是计算存储分离技术。通过解耦计算和存储,业务方可以自由选择资源配比,并按需扩缩容。
  • 其次是弹性的资源组,针对有阶段性波峰波谷的负载特征,业务侧可以灵活调整资源配额,以不同的时间维度制定不同的资源组扩缩容计划,并且基于对查询负载资源需求的估计,按需进行资源组的选择。
  • 第三是自适应优化,数据的实时性和体量巨大的历史数据会让传统依赖统计信息的优化手段失效,自适应优化在传统优化方式的基础之上会动态的根据执行信息中反馈的数据特征调整执行计划,使得整个执行计划达到高效状态。
  • 第四是冷热分层和开放存储。一方面存储成本决定了数据规模和集群规模,将数据的维护成本降低在可控的范围内,业务才有机会通过数据分析寻找数据价值。另一方面对业界开源生态格式的兼容,让系统具备了一定的开放能力,不同的系统间可以通过开源的格式进行交互,降低业务ETL的复杂性。

冷热混合存储

数据冷热分层存储并没有简单地通过缓存机制来实现,而是将冷热这个概念下放到了表级别,同时在表级别也支持冷热混合的方式。比如将数据表分为3类,即用户信息表、操作日志表、订单表,他们分别具备的特征是:用户信息在业务端是非常频繁使用的表,将其存储策略定义为hot;操作日志,较少用来做查询,更侧重于低成本的归档,定义为cold,存储在远端的OSS;订单表侧重于3天内数据会被频繁查询、3天前的主要进行数据归档,将其存储策略定义为mixed。与此同时,定义hot_partition_count为3。数据在最初写入时会作为热数据存放在SSD中。通过异步的合并机制,将其按分区的维度重新组织,当新的分区创建出来后,会有异步的线程根据hot_partition_count中定义的数量,将过期的数据迁移到远端存储OSS上,那么远端的数据查询将直接通过SSD的cache获取。通过这样的机制,实现了冷热分层、冷热策略的的轻松定义,冷热分区的自动迁移,以及冷热数据的一体化访问接口。

弹性模式-资源组(池)多租户

在离线一体化——同时支持低延迟与高吞吐

自适应查询优化器

除了运行时优化之外,另外一个优化方向就是基于历史的自学习,主要是对于业务工作负载的分析。对于业务工作负载中的重复性查询,可能每天都需要运行,并且基本不变,对于这种重复性负载而言可以进行一些计划的重优化,可以根据系统对于执行后的信息汇总对于执行计划进行调整。还可以构建分布式的CostModel,由于事前的CostModel可能并不准确,因此可以基于历史查询数据来进行校正。此外,也可以对重复的工作负载做进一步的优化,并向用户提供智能化的诊断手段,最终使得优化器更加聪明,进一步实现自适应、自学习的优化器。

最佳实践

AnalyticDB:快数据时代下的PB级实时数据仓库

21.png
AnalyticDB是阿里云完全自研的系统,因此具备完全的知识产权。AnalyticDB目前获得TPC官方认可的TPC-DS性能世界第一。其次,AnalyticDB获得了中国信息通信研究院的官方认证,是参与评测的最大规模的集群。此外,还拥有国内专利46篇以及国际顶会论文9篇。

原文链接:https://developer.aliyun.com/article/780747/p>

文章知识点与官方知识档案匹配,可进一步学习相关知识云原生入门技能树首页概览8587 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年1月3日
下一篇 2021年1月3日

相关推荐