企业级系统希望得到更好的数据治理和管理能力,同时又希望有更好的灵活性,特别是随着 AI 的兴起,完全纯数据仓库的二维关系表已经无法承接半 / 非结构化数据的处理,AI 引擎不可能只跑在纯数据仓库模型上。所以“湖仓一体”一定是未来的发展趋势。
“湖仓一体”是一种新型开放式架构,将数据湖和数据仓库的优势充分结合,它构建在数据湖低成本的数据存储架构之上,又继承了数据仓库的数据处理和管理功能。湖仓一体的英文名叫“Lakehouse”,有人把“湖仓一体”做了形象的比喻,就好像湖边搭建了很多小房子,有的可以负责数据分析,有的来运转机器学习,有的来检索音视频等等,而这些数据源流,都可以从数据湖里轻松取得。
上一篇文章【湖仓一体(一):由来】我们介绍了湖仓一体的特性,那我们看一下基于特性湖仓一体解决了什么问题?
湖仓一体解决了什么问题
在许多的企业里,数据仓库和数据湖一直并存且各自发展着,也没有遇到过太过严重的问题。但是仍有一些领域有值得进步的空间,比如:
?数据重复性:如果一个组织同时维护了一个数据湖和多个数据仓库,这无疑会带来数据冗余。在最好的情况下,这仅仅只会带来数据处理的不高效,但是在最差的情况下,它会导致数据不一致的情况出现。湖仓一体的结合,能够去除数据的重复性,真正做到了唯一。
?高存储成本:数据仓库和数据湖都是为了降低数据存储的成本。数据仓库往往是通过降低冗余,以及整合异构的数据源来做到降低成本。而数据湖则往往使用大数据文件系统和Spark在廉价的硬件上存储计算数据。湖仓一体架构的目标就是结合这些技术来最大力度降低成本。
? 表和分析应用之间的差异:数据科学倾向于与数据湖打交道,使用各种分析技术来处理未经加工的数据。而 表分析师们则倾向于使用整合后的数据,比如数据仓库或是数据集市。而在一个组织内,往往这两个团队之间没有太多的交集,但实际上他们之间的工作又有一定的重复和矛盾。而当使用湖仓一体架构后,两个团队可以在同一数据架构上进行工作,避免不必要的重复。
?数据停滞:在数据湖中,数据停滞是一个最为严重的问题,如果数据一直无人治理,那将很快变为数据沼泽。我们往往轻易的将数据丢入湖中,但缺乏有效的治理,长此以往,数据的时效性变得越来越难追溯。湖仓一体的引入,对于海量数据进行治理+,能够更有效地帮助提升分析数据的时效性。
?潜在不兼容性带来的风险:数据分析仍是一门兴起的技术,新的工具和技术每年仍在不停地出现中。一些技术可能只和数据湖兼容,而另一些则又可能只和数据仓库兼容。湖仓一体的架构意味着为两方面做准备。
湖仓一体的五个架构原则
湖仓一体可定义为基于低成本,可直接访问存储的数据管理系统,该系统还提供传统的分析型DBMS管理和性能功能,例如ACID事务,数据版本,审计,索引,缓存和查询优化。因此湖仓一体结合了数据湖和数据仓库的主要优势:开放格式的低成本存储可通过前者的各种系统访问,而后者则具有强大的管理和优化功能。
计算和存储的解耦:首要原则是加入解耦和存储。存储便宜且持久,计算昂贵且短暂。计算和存储的解耦,可使系统灵活地按需升级并扩展计算服务。
目标驱动的存储层:数据以多种形态和形式呈现,因此数据的存储方式应具灵活性,以适应数据的不同形态和用途。灵活性包括根据数据的种类及提供方式不同,提供关系层、图数据层、文档层以及Blob 等多模态存储层。
模块化的体系架构:该原则源自于 SOA,确保数据处于核心地位,以围绕数据开展所需服务为关键。基于数据开展数据抽取、处理、编目和分析等不同类型的服务,而不是借助流水线将数据提供给服务。
聚焦于功能,而非技术:该原则体现了灵活性。功能的变化缓慢,但技术的变革日新月异。因此一定要聚焦于组件所完成的功能,进而可轻易追随技术的发展而替换旧技术。
活动编目:该项基本原则是避免数据湖沦为数据沼泽的关键。编目上需具有明确的治理原则,有助于确保数据充分记录到数据湖中。编目内容可遵循如下经验法则:对所有需抽取到数据湖中的数据做编目;对所有存储在数据湖和服务层的数据做编目;对源数据转化到服务层的数据世系做编目。
麦聪数据统一服务平台的落地应用将在下一章节展现,它轻松的实现湖仓一体解决方案,依托云原生特性、计算存储分离架构、强ACID特性、强SQL标准支持、高性能并行执行能力等一系列底层技术的变革,实现强扩展性、强安全性、强共享性、强兼容性、强复杂查询能力等上层技术能力的变革,最终帮助企业有效应对大规模、高时效、智能化等愈发明显的数字化趋势
不要只观看不点赞啦!悄悄给自家产品打个广子:麦聪软件,以自研软件产品开放型数据中台为核心,聚焦于数据中台领域。「麦聪软件官 」,无门槛搭建数据统一服务平台,有需求的友友们,欢迎试用
数据统一服务平台
参考链接:
https://databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html
https://databricks.com/blog/2021/08/30/frequently-asked-questions-about-the-data-lakehouse.html
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!