在这场出人意料的新冠疫情之下,中国的大数据技术展现了惊人的威力:
追踪流动人口,极速公布各地疫情 告,覆盖所有人群的健康码大数据服务,电商数据调动医疗资源,AI+大数据助力医药研发······
不管是传统的结构化数据,如人员信息、医院等医疗资源信息等,还是复杂的非结构化数据,如地理位置数据、图像数据、文本数据、语音数据等,各个层面的海量数据在客观、透明的基础上,以不同的技术进行处理、分析,助力全民战疫。
这些应用的背后是中国大数据技术与应用的进步,大数据基础软件自主研发成果不断,大数据软件国产化替代加速,大数据上云向用户提供按需服务,金融、航空航天、新零售等行业大数据应用卓有成效。
而在数字化商业世界中,新的时代会产生新的机会,新的技术会创造更广阔的空间。
随着数据量和数据种类的不断增多,由单一一个数据平台处理一类数据的应用虽然能力不断完善,但是还是难以满足用户用一个平台处理不同类型数据模型的需求。
人们也期望用一个统一的平台,处理不同类型的数据,提高数据处理和分析的效率,降低成本。
01
用户呼唤多模型数据处理平台
大数据平台是囊括大数据存储、处理和数据应用分析的集成化数据开发平台。建设这样一个大数据平台必然会面临很多问题:如何管理一个单体大集群;多源数据如何录入;当数据接入之后,如何高效的存储和查询这些数据,如何管理这些数据,避免形成数据沼泽;如何保障数据安全,如何将数据展现给用户等。 这些基本上就是一个企业级大数据平台需要具备的能力。
开源的大数据平台工具
到目前为止,对于一些单一的典型场景,市场上出现不同的产品,有了知名的解决方案,解决数据的多样性。
例如,结构化数据使用Hive,动态列模型使用Bigtable、Hbase,应用于数据存储的文档数据库MongDB,专注于满足各类复杂搜索需求的ElasticSearch,常被应用于会话缓存的高速NoSQL数据库Redis,图数据库Neo4J,以及由实时计算引擎正成为通用大数据引擎的Flink等。
但是这些产品都是孤立的,每一个或者类只能解决一类问题。当用户的数据有很多类型,就不得不采用不同种类的数据库,并把它混在一起使用。
今天,客户对这种架构越来越难容忍,希望能用一套大数据平台,解决各种复杂的数据结构问题。
孙元浩说:“星环科技把这个统一的大数据平台,称为多模型异构的数据处理平台。”
02
两条发展路径,两种不同结果
在大数据软件发展中,技术路线发展演绎精彩纷呈,令人目不暇接。毕竟这是一个巨大的市场机会,创造天量的市场机会,也会诞生像微软、谷歌、AWS一样的行业巨人。
不管是那种技术路线,一些数据库或大数据厂商在多模型数据处理上都提出自己的“行业解决方案”,一些则推出自己的“数据云平台”等。虽然各种描述五花八门,但其解决的核心问题和其核心架构,还是解决异构数据库间的数据同步等底层问题,使客户从这些底层问题中解放出来,像使用单一数据平台一样简便易用,从而为客户创造价值。
开源路线的代表就是Hadoop和Spark。
提起大数据,依然不能不提Hadoop。因为Hadoop让海量的数据能分布存储,并能分布的存取与处理。过去Hadoop几乎成了大数据的代名词。
专家认为,作为大数据基础软件的一大技术路线,基于开源Hadoop发展的最大优势就是可处理的数据量庞大且运行稳定。在节点资源不增加的情况下,运行速度虽然不占优势,但却十分稳定。既是优势也是劣势,Hadoop在批处理方面的强大无法掩盖其在交互式分析和流处理方面的缺憾。
在大数据发展中,开源大数据平台Hadoop占据至关重要的地位。Cloudera、Hortonworks、MapR是Hadoop的三驾马车。
2018年,Cloudera和Hortonworks因为连连亏损,两大巨头公司宣布平等合并,Cloudera以股票方式收购Hortonworks。但合并后公司股价继续下跌。
2019年6月,MapR就预告公司营收遇到困难,正在寻求解困的措施。随后的8月6日,惠普企业HPE宣布收购MapR的资产,包括MapR的技术、知识产权、人工智能以及数据管理方面的专业经验。
Spark技术的代表企业是Databricks。Databricks公司是由加州大学伯克利分校负责开发流行的开源Apache Spark数据处理框架的团队创建的。该公司帮助大企业快速处理、整合和分析大量数据。它的统一分析平台旨在孤立的数据存储系统之间建立数字管道,并帮助工程师和数据科学家更好地沟通。
Databricks公司业务方向已经转移到“大数据分析和人工智能解决方案”。现在行业内更多的将其看成一家AI公司。
针对多模型数据处理,开源路线方面的举措是推出多模型数据库,当然这些数据库也是开源的。
ArangoDB是一个开源的、原生的多模型NoSQL数据库,同时支持Doc、Graph、K/V三种存储,它有适用于全部三种数据模型的统一内核和统一数据库查询语言—AQL (ArangoDB Query Language),非常适用于搭建高性能的应用和服务。
ArangoDB还允许在单个查询中混合使用三种数据模型。因此,用户可以在单次查询过程中混合使用多种数据模型,而无需在不同数据模型间相互“切换”,也不需要执行数据传输过程,并且这三种数据模型均支持水平扩展。
2018年初,ArangoDB完成1156万美元融资,深受投资人追捧。2020年初,ArangoDB 3.6 发布。
星环的一站式多模处理平台示意
同时,TDH 7.0版本一站式多模异构数据处理性能亮眼,彻底解决大数据发展的一大瓶颈。据介绍,TDH从上而下划分为五个层次:
最上层是SQL层,开发了统一的SQL引擎,兼容各种不同的SQL“方言”;
计算层,开发了统一的计算引擎,进行统一的计算任务优化和分发;
其下的存储模型层,TDH一个平台支持七种不同的存储模型,适用于不同的应用场景,包括图存储Graph Storage、文档存储Document Storage、全文检索 Full-text Search、键值存储 Key-Value Storage、行列混合存储 Row-Columnar Storage、时空地理存储 Sequential Geospatial Storage、非结构化对象存储 Unstructured Object Storage。
存储管理层,开发了统一的存储管理引擎,提供数据块分布管理、数据多副本一致性管理、文件服务管理等功能。
最底层资源调度层,开发了统一的资源调度框架,通过容器化编排,统一调度计算、存储、 络资源。
统一的数据处理平台几大的优势:
多模型的数据处理平台的核心是对外提供统一的SQL编程接口、统一的计算引擎,以及统一的综合式的存储管理系统和统一的销售框架。因此,星环TDH 7.0的优势体现在这几大特性的统一和融合上。
TDH 7.0统一的数据处理平台支持超过7种不同的数据模型,支持结构化的数据和非结构化数据,支持KeyValue介质存储、全行搜索、排索引、图存储、图数据库、存储文档,也能够存储时空数据。这是TDH 7.0的第一大优势。
星环科技第一家提供了一个能够横跨多种数据模型的统一的计算引擎。虽然有不少公司也在尝试提供一个标准的数据接口,但是由于底层是不同的数据库,没用统一的计算引擎,虽然有统一的SQL接口,但是很难把不同的接口静态的路由到功能数据库上。因此,需要一个动态的计算引擎来动态地进行接口的调度,进行执行计划的统一的管理。
同时在星环科技的TDH 7.0也提出了一个统一的分布式管理系统,是实现数据分布管理以及数据一致性的数据管理系统,比过往使用HTVS效率更高、一致性更强。
在同一个平台上可以将一份数据存储成多种模型,用户在应用发生变化时能够自行地采用最佳的仓储模型来响应查询需求,运行效率会更高。同时因为一个平台处理多种数据模型,整运维成本、管理成本都会降低。
孙元浩说,未来的数据平台都应该是多模型的,但是用户使用起来更应该是像使用一个数据库一样使用。
匿名的受访专家认为,星环的方案,不再沿用传统的数据汇聚方式,而是使用更为轻量化的模式,利用分布式的存储管理系统,达到逻辑上的统一存储,再其上构建统一的计算能力。这一变革,无疑对多模异构数据的使用带来更大的便捷性。
采用TDH 7.0 多模型数据处理平台的某个用户表示,应用常常需要对一份数据进行多种不同模型分析,如分析查询、模糊匹配查询、关系推理查询等。TDH可以针对不同需求采用多种最优存储模型,如分析查询采用行列混合存储,模糊匹配查询采用全文检索,关系推理查询采用图数据存储。多种模式的存储,可以使各场景下的查询分析性能都得到极大优化。
在传统混合模型中,不同模型数据间做关联分析,需要进行跨数据库的数据导入导出,十分复杂。而采用了统一的数据管理,一个简单的SQL语句就可以直接进行关联查询,如同操作同一个数据库一般,使应用开发变得十分便捷。
在传统混合模型中,不同模型需要运维不同数据库。特别当同一份数据存储于多数据库时,数据一致性成为极大挑战。此外,数据总体情况的运维,需要各个运维子系统汇总并二次开发,运维成本巨大。而采用了统一的数据管理,在产品底层服务中直接保障数据一致性,同时对多模型的数据进行整体运维,是天然的一体化系统。
03
大数据替代即将来临
“卡脖子”会成为过去/p>
多模型数据处理平台的进步只是大数据技术发展的一个缩影。
吕程认为,多模异构数据平台未来的发展方向之一是积极推动主要服务、组件、模块的标准化。由于数据相关技术异常复杂,技术日新月异,各类基础服务、组件、模块要做到面面俱到,是异常困难的。而通过建设一定的标准,设立一定的规范,让更多的企业参与其中,无论是开源 区,还是闭源厂商,都能贡献自己的力量,创造自己的价值。
第二,构建一个良性的生态。除了最基本的作用以外,平台还应当能支撑更多的上层应用,在不同行业、不同企业、不同业务中创造更高价值。这就对基础数据平台的生态提出了巨大的挑战,越来越多的应用,越来越多的厂商适配的接入,就会创造一个更加良性循环的生态,从而促进整个产品和平台的繁荣。
第三,坚持新技术探索。面对现在日益复杂场景,不能停留在解决的单点问题。在日益凸显的复杂场景面前,不同技术的组合是否能创造出新价值呢否需要新技术来解决复杂场景呢些地方是很值得深入研究和发展探索的,如现在讨论比较多的批流一体,又如检索和分析同时使用等。
扫码/阅读原文【预约直播】
泛微代理商招募,无需押款压货!
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!