数据中台前世今生二:从数据湖到大数据平台看数据应用需求发展

2005年Hadoop出现的时候,大数据技术开始普及。

从Hadoop到数据湖:

Hadoop相比经典数仓主要有两个主要优势:

  • 完全分布式,可以使用价格低廉的机器堆出一个计算、存储能力很强的集群,满足海量数据的处理要求;
  • 易于扩展,弱化数据格式。当数据被集成到Hadoop之后,可以不保留任何数据格式,数据模型与数据存储分离。当数据被使用的时候,可以根据不同的模型读取,满足异构数据灵活分析的需求。
  • 数据仓库和数据湖对比

    随着互联 产业的发展和采集技术的成熟,大量(半)非结构化数据涌现,诸如半结构化的日志,非结构化语音和视频,携带时序和空间信息的IoT设备等。

    与此同时,伴随着Hadoop技术日趋成熟,2010 Pentaho创始人兼CTO James Dixon在纽约 Hadoop World大会上提出了数据湖的概念:数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统,仿佛各个数据源就像溪流一样,直接流入成湖。

    数据湖理解图

    数据湖概念的提出,是Hadoop从开源技术走向商业化成熟的标志。企业基于 Hadoop构建数据湖,真正将数据作为一项企业核心资产,拉开了Hadoop 商用化的大幕。

    但是,一个商用的Hadoop包含20多种计算引擎,数据研发涉及诸多流程,其技术门槛限制了Hadoop的商用化进程。

    那么数据开发能否像工厂生产一样,直接在流水线上完成呢?

    大数据(开发)平台的兴起——数据工厂时代

    大数据平台具有很广阔的范围,在此提到的大数据平台,指的是面向开发使用的大数据开发平台。

    对于一项数据开发任务,在完成一个需求时,常见的流程是:

  • 要把数据导入到大数据平台中,然后按照需求进行数据开发;
  • 待开发完成以后要进行数据验证比对,确认是否符合预期。
  • 接下来,数据发布上线,提交调度;
  • 最后,日常的任务运维,确保任务每日能够正常产出数据。
  • 大数据平台概念的产生,是为了提高数据研发的效率,降低数据研发的门槛,让数据能够在一个设备流水线上快速地完成加工。大数据平台是面向数据研发场景,覆盖数据研发完整链路的工作台。

    基于开发的使用场景,可分为数据集成、数据开发、数据测试等。平台的底层是以 Hadoop 为代表的基础设施,分为计算、资源调度和存储(如图)。

    大数据平台架构概念图

    Hive、Spark、Flink、Impala提供了大数据计算引擎:Hive、Spark主要解决离线数据清洗、加工的场景。目前,Spark用得越来越多,性能要比Hive高不少;Flink主要是解决实时计算的场景;Impala主要是解决交互式查询的场景。

    这些计算引擎统一运行在一个称为Yarn的资源调度管理框架内,由Yarn来分配计算资源。

    当前最新的研究方向中也有基于Kubernetes实现资源调度的,例如在最新的 Spark 版本(2.4.4)中,Spark已经能够运行在 Kubernetes 管理的集群上,这样的好处是可以实现在线和离线的资源混合部署,节省机器成本。

    数据存储在HDFS、Kudu 和 HBase系统内。HDFS不可更新,主要存全量数据,HBase提供了一个可更新的KV,主要存一些维度表,Kudu提供了实时更新的能力,一般用在实时数仓的构建场景中。

    大数据平台像一条设备流水线,经过大数据平台的加工,原始数据变成了指标,出现在各个 表或者数据产品中。

    但随着数据需求的快速增长, 表、指标、数据模型越来越多,越来越多人反馈找不到数据,数据不好用,数据需求响应速度慢,这成为阻塞数据产生价值的绊脚石,数据中台即将面世。

    猜你想看:

    数据中台的前世今生(一):数据仓库——数据应用需求的涌现

    数据中台:始于阿里,兴于DaaS

    数据中台坠落神坛,数据服务平台闪亮登场,阿里、快手又整新活?

    麦聪软件,全球领先的DaaS厂商。两年内帮助近400家企业数字化转型更进一步,其中30多家为世界500强企业。核心产品麦聪DaaS平台包含统一数据管理和统一数据服务两大模块,具备数据集成、数据开发、数据质量、数据服务相关功能,欢迎大家带着企业数字化问题与我们一起讨论。

    声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

    上一篇 2022年9月9日
    下一篇 2022年9月9日

    相关推荐