【CSDN 编者按】逍遥子曾说,对阿里人来说「打仗是最好的团建,参加过双 11 的叫战友」,同样,参加过多次双 11 考验的系统技术都会成为真正意义上的基础设施,阿里云飞天系统的云 络平台洛神就是如此。
复制链接或点击「阅读原文」可免费观看江鹤老师分享视频:
https://edu.csdn.net/course/play/28249/388353
头图 | CSDN 下载自东方 IC
出品 | CSDN(ID:CSDNnews)
今天的主题是《云 络技术架构的演进之路》,主要介绍阿里云 络产品从无到规模应用的 10 年过程中,云 络技术平台洛神是怎么发展的。
阿里云飞天洛神云 络平台
阿里云系统叫飞天,云 络平台称为洛神,洛神和飞天系统的关系如下图所示,洛神云 络平台是阿里云飞天操作系统内核的核心组件和系统服务,伴随着飞天系统一起诞生、成长。
图 1 阿里云 络洛神平台与飞天操作系统
整个飞天系统架构分为几个层次,底层数据中心基础设施,包含物理资源、机房、服务器,还有多地域和可用区(AZ)、物理 络等;其上是飞天操作系统的核心,支撑了整个云计算的虚拟化,包括计算平台神龙,存储平台盘古,以及 络平台洛神;基于系统核心组件,构建了面向用户的系统服务以及原生服务,支撑不同行业客户在阿里云上构建自己的应用系统。
飞天洛神平台的诞生
洛神伴随飞天系统诞生,是云计算产业发展的结果,云计算首先是计算虚拟化,并提供给不同的用户使用,当用户在云上使用计算资源时, 络地址独立规划,不同用户地址可以相同,且虚拟机可以在不同机房之间迁移,地址保持不变,同时云计算是一个基础设施,支持海量用户同时使用,这些关键需求要求提供一个超大规模的虚拟化大二层的 络。
图 2 云计算租户 络应用需求
这些需求,使用传统商用物理交换机和路由器构建的 络,无法满足云计算的需求,也满足不了阿里云运营这张 络的需求,主要原因在于:
1)在百万级别的租户之下,如果每个租户都给到一张独立的地址空间,地址空间的数量非常庞大,传统交换机里面使用 VRF 来隔离租户之间的空间,意味着交换机要支持海量的 VRF 资源,这是目前硬件能力无法支持的。
2)服务器和虚拟机的数量增长, 络节点以及路由表的规模快速增大,虚拟机通讯和迁移要求路由表能快速同步。
3)当用户对云上 络层面的功能需求越来越多的时候,比如说用户在云上不仅希望有个虚拟机,还可以有个公 IP;比如说用户可以自行定义这张 络 IP、路由和安全组。另外随着 NFV 技术发展,用户希望在云上运行虚拟化业务 元,例如负载均衡、NAT 关、VPN 络,要求对应的底层 络能快速进行功能迭代,以满足新需求和新技术的快速应用。
4)更关键的是,传统物理交换机是一个黑盒,各个厂商实现各异,接口各不一样,同时不支持设备内功能定制开发,让设备的运维成为一个难题。
图 3 传统 络设备应对云计算的约束
所以阿里云 络选择了一条自研的路,使用三大技术满足云计算的需求:
1)虚拟化 络;
2)SDN 技术,软件来定义 络;
3)整个技术栈自研。
阿里云 络洛神平台就此诞生。
图 4 洛神 络 10 年演进
洛神云 络平台随着阿里云飞天系统一起,已经经历了 10 年演进,分为两个阶段,洛神 1.0 时代,主要定位为支撑超大规模和多租户的 络。
随着阿里云的业务快速发展,尤其近几年规模增长特别快,2018 年开始推出洛神 2.0,洛神 2.0 的特点主要在高性能、弹性开放能力。
现在阿里云上运行着很多超级规模的用户,比如阿里巴巴集团的淘宝业务,这些超大规模用户对 络的性能提出了很高的要求,特别是在例如双 11 这种大型活动期间, 络流量的峰值是十分巨大的,这对 络的性能提出了非常高的要求。
同时阿里云提供了丰富的基础 IaaS、 PaaS 产品与服务,第三方的生态伙伴可以在阿里云上提供众多的 SaaS 服务,包括 络类的 SaaS 服务,例如 络管理类、 络数据分析类、 络日志管理类、 络转发类的软件。这些软件在阿里云上很好的运行,需要 络提供弹性,开放的能力,就是洛神 2.0 的定位。
飞天洛神 1.0:超大规模、多租户 络
洛神 1.0 平台由很多 络组件组成,架构上主要分成两类:AVS(Apsara vSwitch)和各种 关 元。AVS 是部署在每个物理服务器上的软件 元。最早基于 XEN 的 Kernel 架构实现,转发性能不高,单机只有 15 万 PPS。随后演进到了 KVM 的架构,在这个架构下,vSwitch 还是在 Kernel 的,但已能提供单机 120 万 PPS 性能。然后在 Intel 推出 DPDK 版本后,AVS 进行了架构升级,使用用户态 DPDK,转发性能提升至 600 万 PPS。
AVS 的演进,是为了追求 络性能大幅提升的过程,是阿里云 络持续迭代和改造 络软件架构的原动力。
关于业务 关,最早也是基于 Kernel 络协议开发。例如 Load Balance 设备,第一代也是基于 Kernel 开发,当时整台物理机性能大约只有 300 万 PPS。为了追求更高的性能,这些 元基于 DPDK 进行了重新构建,既包括公 关、私 关,还有 SLB、NAT 关、VPN 关等等,转发性能提升了 20 倍。
洛神 1.0,基于 DPDK 的 AVS 和各种 关,最终搭建出一张支持超大规模租户、超大规模虚拟机的 络。
图 5 洛神 1.0 支持超大规模租户 络
如图所示,在这张超大规模的租户 络里面,我们达到的核心能力包含:
1)多租户隔离,每个区域可以支持百万规模的 VPC。如果说一个租户对应一个 VPC,一个区域就可以支持百万规模的租户;
2)单个 VPC 支持超大规模虚拟实例,目前有一些超大规模的 VPC 中实际部署并运行了超过 30 万的 ECS,也就意味着此租户的这张 络里面有 30 万个以上的 IP, ECS 之间的通讯,包括东西和南北向的流量,都能很好的在虚拟 络里面运行。
3)最后就是基于 AVS 能力,单个 ECS 能够提供百万级 PPS 能力的转发性能。
飞天洛神 2.0:连接全球,高性能,弹性开放 络
洛神 1.0 支撑了阿里云 络从无到有,至规模应用,随着阿里云的业务不断增长,租户越来越多,也带来了越来越多的 VPC。租户购买的虚拟机越来越多,也代表着 络里的节点越来越多,转发性能要求越来越高。此外,也有越来越多的租户在云上不但仅仅满足简单的连通性要求,提出了丰富的业务 元处理诉求。例如用户原来在自己的数据中心里面构建了防火墙和 NAT,或者自己买了一些 Load balancer 的设备,现在业务系统搬到阿里云上之后,希望原来的 络功能继续在阿里云使用。
在此背景下,洛神平台升级到 2.0。如图所示,洛神 2.0 提供了更加丰富的转发 元,既有神龙 MOC 卡,还有专用可编程芯片以及通用 ECS;同时洛神 2.0 新构建了一个 NFV 平台,支持业务 元不再依赖传统 X86 服务器,直接基于 NFV 平台构建,例如 NAT、SLB、VPN 产品,同时 NFV 平台支持开放能力,第三方的 元也可以基于 NFV 平台部署,通过 VPC 内和 VPC 间的访问。
图 6 洛神 2.0 架构图
洛神 2.0 的基础是阿里云遍布全球的 络基础设施和 Region 数据中心的基础设施。目前在全球有 20 个 Region、61 个可用区,100 多个 POP 节点。当国内用户需要出海或者国外的用户需要进中国的时候,不再需要自己购买很多物理形态的设备和 络连接,并花很长的时间搭建出 络基础设施。基于洛神 2.0,阿里云的 络产品就可以分钟内快速构建出运营 络、基础设施。
洛神 2.0 的 AVS 和业务 关都进行了架构跨越式升级,AVS 基于软硬件一体化方式,使用神龙 MOC 卡实现快速转发,转发性能提升数倍,达到千万 PPS。
图 7 软硬件一体的新一代 AVS
洛神 2.0 另一个跨越式架构升级是提供新一代的 NFV 平台,通过 元逻辑部署在通用 ECS 上,提供弹性和开放能力。当第三方厂商将其应用移植到阿里云之后,就可以在阿里云市场里对阿里云的租户进行售卖和提供能力,形成了一个非常好的生态:
1) 元可以给大量租户使用;
2)客户的白天流量很大,半夜的流量很少时,阿里云会自动帮你缩容。
如果说在某个时刻点突然碰到高峰,阿里云会自动协助扩容,也就意味着第三方的 元利用洛神 NFV 平台,不仅可以开放部署,还可以享受到自动的弹性。
图 8 洛神 2.0 NFV 开放平台架构
飞天洛神的未来
洛神 2.0 中,还有一个齐天智能 络平台,是未来演进的重要能力,未来的 络将是一个智能化的 络。当客户业务部署在阿里云的时候,如果 络发生波动或故障,需要非常快速的排查问题,因为 络是属于最底层的服务,当业务不能对外提供服务的时候,首先会想到 络问题。这个时候 络可能是正常的,有可能是上层业务的问题。如何让上层业务团队快速定界问题所在,如何让 络的管理员能快速自证清白,提升未来生产运营服务的效率,就这是未来智能化 络需要解决的问题。
图 9 洛神的未来演进
未来阿里云洛神平台的发展方向就是智能化,未来会通过自研 元,采集 络中数据,并且用大数据的方式去做产品问题分析和资源规划,目前洛神齐天系统已经构建在一部分能力,在内部使用,未来会提供给阿里云的客户,让客户可以智能化的运营自己的 络基础设施,这就是阿里云洛神平台未来演进的方向。
系列阅读:
黑客“借刀杀人”,阿里 14 年经验安全大佬教你如何防御 DDoS 攻击!
?联合国为何 Pick 腾讯?
?京东: 传通过 Bug 抢茅台是假消息;罗永浩回应带货价格非「全 最低」;Rust 文档团队解散 | 极客头条
?红外光抗疫、成功预测新基建,投资 280 家企业的光学博士到底是谁?
?前端机器学习:识别人脸,并在脸颊上画草莓
?瑞幸咖啡自曝虚假交易 22 亿,App 反冲 TOP 1
?在Kubernetes上部署一个简单的、类PaaS的平台,原来这么容易!
?旷视提双边分支 络BBN:攻坚长尾分布的现实世界任务 | CVPR 2020 Oral
?2020年,这20个大家都认识的加密交易所过得怎么样?
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!