阿里云混合云首席架构师张晓丹:政企混合云技术架构的演进和发展

近日,阿里云混合云平台首席架构师张晓丹分享了 IT 架构技术,并对政企混合云技术架构的发展进行展望。

云计算经历了十几年的发展,从被认为是“新瓶装旧酒”而备受质疑,到广泛应用于消费互联 领域,再到传统政企客户普遍认同并在政务互联 业务领域快速推广,当下已进入到全面替换政企客户传统 IT 基础架构的攻坚阶段。

所谓替换,在中国的政企市场,是以专有云&混合云及其延伸方案为主的独特云化演进路径(非欧美的公共云延伸演进路径)。以往,互联 企业和小型企业上公共云之前,主要做公共云厂商间的技术产品能力对比。但是,大中型政企客户上混合云前,则是要全面对比混合云与传统架构的技术产品能力。

架构技术洞察

IT 架构从传统平台适配传统应用,重回到云平台适配传统和云应用

传统 IT 架构经过近 30 年的发展,形成以硬件定义数据中心为特点的 IT 基础设施平台。这些平台由各种专有硬件系统为基础,由系统集成商和软件 ISV 做生态支持,使得客户应用开发专注于业务逻辑,各种复杂的可用性、连续性、扩展性、安全性等功能,由差异化的硬件系统完成(含专有 OS 和中间件)。这一阶段,是传统 IT 基础设施适配传统应用软件阶段。

互联 业务快速发展,推动政企客户数字化转型不断深入,造成 IT 软硬件规模快速加大。继续用专有硬件系统和商业软件套件支持,有关软硬件投入过大,配套人力也需线性增加。为此,云架构应运而生。各种分布式微服务应用,直接在软件层实现更多的高可用、连续性、扩展性、安全性等功能,不再与 IT 基础设施紧耦合,使用大量通用服务器系统和 IaaS/PaaS 云平台替代传统大机/小机专有系统。这一阶段,是分布式应用适配云平台的阶段。该阶段专有硬件系统投入大幅降低,但需要大量软件开发运维人员,很多客户不具备这样的条件 。

云原生技术架构的发展,推动 IT 架构重新回到更高阶的云平台适配云应用阶段。

该阶段实际就是做深基础、做厚中台的过程。软件应用架构,向业务中台、数据中台、低代码平台、协同平台发展。分布式微服务框架向容器化、Mesh、Serverless 发展,应用部署架构向单元化多地多活发展。数据库向 HTAP 离在线混合处理、大数据向湖仓一体/流批一体发展,IT 基础设施向软硬一体、存算分离、异构算力池化、轻量化安全容器发展。最终,实现云应用更加轻量化、低代码化,大量非功能性需求、企业级特性,甚至代码生产交由各级云平台实现。

从技术的角度,云原生架构是基于云原生技术的一套架构原则和架构模式的集合,旨在将云应用中的非业务代码部分进行最大化的剥离,以便由云服务提供商 CSP 的云平台(云 IT 基础设施和云应用开发运行平台)接管云应用中原有的大量非功能特性(如弹性、韧性、安全、可观测性、灰度等),使业务不再有非功能性业务中断困扰的同时,具备轻量、敏捷、高度自动化的特点。

注:广义云原生架构=云原生技术+云架构原则+云应用架构模式+云应用+云 IT 基础

双模 IT 应用还会长期并存,但 IT 基础设施需要加快整合进全栈 IaaS 云

当前,政企客户的互联 业务已广泛使用云架构,但占主体的经营管理和核心生产应用,仍然运行在传统 IT 基础技术架构上。过去 20-30 年,政企研发积累了大量传统集中式架构的应用系统。这些应用系统很难在中短期内低成本、全生态配合重构成云原生架构应用,客户 3%-5% 的 IT 人员占比,也不足以支持这种快速重构和转换后上 IaaS 云,大多还是运行在传统 IOE 架构。随着政企的互联 类应用、大数据类应用上 IaaS 云后,客户需要同时维护好两套端到端不同的技术栈。

特别是在运维压力最大的 IT 基础设施领域,传统专有硬件基础上的各种封闭系统,与软件化服务化 IaaS、DBaaS 等系统,在技术架构、运维方法、生态体系方面,都有非常大的差异。不加快整合进云平台,政企不仅无法降低 TCO,也无足够资源深入学习掌控云架构。

如果混合云 IaaS+平台(含数据库、大数据平台),能够同时适配传统应用、云原生应用等不同云化成熟的应用,既支持客户分步对一些老旧应用、互联 应用进行云原生重构后上云,又支持客户对传统应用代码、技术工具、运维组织体系做少量云就绪改动,平滑迁移上云,替换传统集中式 IT 基础设施,就能很好地支持政企传统应用全面上云。

云厂商产品替换多家传统厂商产品,目的是打造更高体验的云 OS

阿里云的战略是做深基础、做厚中台、做强生态、做好服务,分层打造 IaaS/ PaaS/ DaaS/ SaaS 等云平台和云 OS。

做深基础,本质是在发展软件定义数据中心及 IaaS 云 OS。所谓软件定义数据中心,就是将数据中心的建设运维视为业务,对这一业务的流程、组织、人员、数据做系统化的数据建模,再基于数据建模将所有业务操作和数据封装成服务,通过分层嵌套的服务化云平台和 API 接口,实现灵活的编排组织。

做厚中台,就是持续打造软件定义开发中心及业务中台 OS、软件定义数据管理中心和数据中台 OS,使客户在我们的双中台上,能够低成本、高复用地开发应用和加工使用数据。同时,我们会努力使得技术栈上层云 OS 与下层云 OS 解耦,使其有能力灵活适配客户下层异构多云 IaaS 平台。

之所以要一家云厂商替代原来众多的计算、存储、 络、安全等产品,目的是打破传统各个单一垂直专业领域封闭专有的软硬件技术栈,借助软件定义数据中心内部分层嵌套的计算、存储、 络、安全数据库、大数据库等服务化平台化架构,用统一的云平台软件管控调度能力,整合 IT 基础设施各种标准化硬件资源,对外按需提供灵活弹性、差异化 SLA 的 IaaS 服务。

未来,在每个国家地区云计算市场,都会有很多家全栈的 IaaS 云厂商产品供政企业客户选用。这些云厂商帮助客户做好了系统集成和综合服务,不仅可以降低总体 TCO,还能提升综合服务体验。就像开源开放 Linux 产品的广泛应用,替代了原有众多商业基础操作系统,不仅没有造成全球市场垄断,还帮助客户降低了服务器 OS 方面的采购成本。客户担心供应商垄断,满足招标采购需求,希望引入产品技术竞争时,不适宜再用传统的“部件”级分散竞争采购、高成本自组装集成方式,而适宜按需引入多个不同云厂商的全栈云来解决。

客户追求云产品的黑盒化体验,也需要对云架构有白盒化的自主掌控

我们购买使用一台自动驾驶汽车或智能手机,目的不是要灵活组装、拆解维护这台汽车或手机,而是获得这些产品黑盒化安全稳定运行、简单灵活操控的体验。混合云产品虽然是一个更加复杂、大型的企业平台系统,但也希望客户获得“操控混合云就像操控一台“自动驾驶汽车”一样的体验,发出各种启动、刹车、选路、定速等各种指令和操作,都能获得稳定可靠、准确及时的操控体验,再加上智能驾驶仪表盘上各种灵敏、准确、全面的反馈,以及完备有效的应急服务体系,就能增进客户使用信心。

当前,混合云平台还处于发展的过程中,对云厂商服务依赖还比较大,各种故障应急恢复操作平台工具内嵌化、快速启动自动恢复能力,以及自主扩缩容/升级打补丁、维修变更等运维操作能力都还需要持续提升。在这一阶段,我们需要同步“白盒化”开放透明分享我们的云架构建设理念和运维经验,听取客户的一线实践反馈,一起共创设计提升云平台“黑盒化”的服务能力。

公共云与混合云架构既统一又差异,从单向能力传递走向互相促进

云厂商公共云业务大多经历了 10 年左右的投入期,借助互联 客户的大规模应用,获得了公共云的规模经济共享经济红利,开始趋于标准化和高效化,进入了与客户共赢的阶段。而线下政企客户混合云市场的技术和管理差异化很大,线下交付分散运维的成本很高。

例如:仅为满足出厂商前的集测和质控,动辄就需要投入万台规模物理服务器,搭建各种异构多芯、多 Region 多版本的存量客户云实例集测验证环境。

为此,只有坚持公共云与混合云统一核心基础架构,才能提高云厂商内部研发效率,分享公共云敏捷迭代、灰度验证的红利。公共云与混合云各自独立发展,研发投入会不足,容易给客户造成版本断代、强制换代等困扰。

但是,坚持公共云与混合云核心基础架构一致,不意味着将公共云大规模、分布式 DevOps 建设运维体系映射出来的软件架构和组织管理模式强塞给客户,而是需要针对混合云客户场景,全面重构云管平台里的应用/云产品、租户/云平台运维系统,满足客户传统和云原生应用全面上云以及集中式建设运维管理的需求。同时,也希望我们的客户能够学习掌握云架构原则理念,分步推动一些组织流程、治理体系的配套云转型,以便更高效地发挥云架构的优势。

政企客户不同云化成熟阶段的传统应用,将与高成熟的云原生应用长期并存。因此,对 IaaS 云平台的统一监控、存储/数据库同城复制、故障应急恢复、容灾切换演练、迁移热升级、自主扩缩容、灵活备份恢复、统一安全控制、多云/混合云管理等企业级特性有很高的要求。这些企业级特性往往会先在混合云环境建设完善,再反过来促进公共云技术架构和运维能力完善,为支持未来政企客户部分业务应用上公共云打好基础。

政企客户试点上云关注数智/敏捷/经济,全面上云更关注安全/自运维

以公共云业务为代表的云计算发展初期,客户上公共云的主要驱动力是降本增效、敏捷弹性。但在专有云和混合云环境,政企客户 CIO 们关心的,首先是整个 IT 系统的持续安全稳定运行,出现故障问题之后能够自主可控快速恢复,以及自主可控产品技术的替代。其次是引入大数据、AIoT 的数智化技术能力,促进业务的创新发展。 第三,才是资源的池化共享、弹性伸缩,以及 TCO 的下降。

大型互联 企业云原生应用在公共云上的敏捷自主研发、DevOps 一体化运维、大量自研软件工具平台、软件管理软件的最佳实践,并不适合大多数政企客户人员少、软件自研能力弱、应用软件分散外包定制开发、软硬件系统集成和集中化 IT 治理和组织管理等云环境的背景特点。为此,混合云平台需要优先建设完善云产品高可用连续性设计,以及应用/平台智能运维能力,优先保证好混合云上各种云成熟应用的安全稳定运行,以及自主可控建设运维需求,再考虑经济、数智、弹性和敏捷能力。

某省级政务一朵云、某金融机构行业云等阿里云与行业龙头企业和政府部门联合投入、经营风险共担,收益共享的运营模式成功运营多年,为国内混合云市场后续行业集中、地区集中、全国/省级集中的行业云建设趋势积累了很多有意义的经验。例如:某省级政务一朵云试点运行的“一云多 Region 架构,在后续某大型集团央企客户处得到了很好的推广。某金融机构行业云多租户的 IaaS 云平台服务,安全稳定运行三年多时间,为小型券商金融机构的交易应用、研发的灾备应用全面上云提供好了良好的支持。

软硬一体、存算分离打造云原生数据库

过去 30 年,政企客户借助传统的软硬一体、存算分离的“IOE”集中式数据库架构,支持保障客户核心业务系统的建设和发展,随着互联 的业务发展,数据量在急剧增多,数据库也逐渐在从 Shared Mem/Disk 的集中式架构,向 Shared Nothing 分布式架构演变。Shared Nothing 分布式架构数据库要求应用架构配套分布式改造,客户很难对所有传统应用进行快速全面的分布式重构。

大量传统应用仍然在使用基于单台 x86 物理机本地盘的主备/3 节点选举的开源/RDS MySQL 数据库。但计算和存储耦合的架构又无法发挥云计算资源池化、弹性扩缩、敏捷供应等技术红利带来的优势,单库存储容量小于 6T,QPS/TPS 有限。

随着基于神龙服务器+25G 络+CDS 分布式共享云盘的软硬一体、存算分离架构的日渐成熟,阿里云混合云 2022 年将推出基于神龙 CDS、容器化、Shared Everything 架构的 PolarDB O 共享存储数据库,可为政企客户提供高度兼容 Oracle 语法的数据库引擎,通过所有数据库实例计算节点共享一份数据的方式实现 1 写 15 读(多写多读在研中)、100T 存储 & 100 万 QPS 的集中式大库,以及在线敏捷弹性伸缩、灵活快照备份恢复、计算节点故障切换 RPO=0 且 RTO<15s 的高可用、计算存储资源分别池化共享等企业级特性,满足政企客户传统应用系统不做分布式改造,也能 IaaS 化平迁上云的需要。

云平台建设展望

传统应用 PaaS 化云原生重构上云和 IaaS 化云就绪平迁上云

未来,阿里云混合云的云管系统,将持续发展多种云成熟度应用的统一建模、架构蓝图可视化交互驱动、集中式运维场景化集成、应用运维关联整合平台运维、统一事件监控定级处理、应急预案集成和指挥协同、应用云管适配异构 IaaS 多云等功能。

点击文末“阅读原文”下载阿里云混合云同行者专刊。

阿里云混合云首席架构师张晓丹:政企混合云技术架构的演进和发展

文章知识点与官方知识档案匹配,可进一步学习相关知识云原生入门技能树首页概览8665 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年5月20日
下一篇 2022年5月20日

相关推荐