前 言
今天是五四青年节,祝朋友们永葆青春的心态,积极乐观、开放真实、审慎务实。
“
青春不是年华,而是心境。
无论年届花甲,抑或二八芳龄,心中皆有生命之欢乐,奇迹之诱惑,孩童般天真久盛不衰。
人人心中皆有一台天线,只要你从天上人间接受美好、希望、欢乐、勇气和力量的信 ,你无不青春永驻、风华长存。
一旦天线降下,锐气便被冰雪覆盖,玩世不恭、自暴自弃油然而生,即便年方二十,实已垂垂老矣;然则只要竖起天线,捕捉乐观信 ,你就有望在八十高龄告别尘寰时仍觉年轻。”
节选自塞缪尔·厄尔曼 《青春》
1、疫情带来深刻变化
2020年1月,一场突如其来的疫情,席卷了全球,也深刻的改变了整个地球、人类的生活进程。在这狂风暴雨的裹胁之下,做为企业级存储的IT基础设施也随之改变。
2、不同场景,此长彼消
在我看来,因为疫情,云存储、分布式存储、AI存储会更迅猛的增加。容器存储和区块链存储也会加速,但仍处于自身发展的早期。全闪存存储普及的速度会放缓,因为单位TB的价格的下降速度可能会减小。
3、To B领域中美大有不同
简单地拿美国的前瞻性存储技术,来判断中国的发展,可能会产生较大的偏差。正如我在2019年6~7月间,曾和一些朋友分享过为什么不同:
1)美国IT比较成熟,术业有专攻
厂商通常专注在少数几个领域,例如VMware专注在基础架构,Oracle数据库专注在应用软件层;……
2)中国条块分割较为明显
条块化,包括不同行业的,也包括不同地域的;除非技术遥遥领先而且非用不可,否则To B的产品或服务很难占领全市场(这点和美国不同);
3)开源带来的机遇和挑战
好处研发门槛降低;坏处是同质化严重,继而就要拼规模,通过大规模生产降低成本。
4、中国技术落后5年以上
前瞻性的To B软件或硬件,同样的普及程度(例如市场占比),在中国可能至少要延迟3~5年,甚至更久。
例如,以CDM(Copy Data Management)为代表的第二存储;全闪阵列(含NVMe Over Fabric)等。
5、中国特有的变化
在中国,5G、IoT、AI、区块链等的发展,新基建、数据要素、以及智能计算中心等理念的推出,会在一些细分场景上,改变企业级存储的发展。
下面是全文的摘要:
简而言之,存储如何以更高效、更低成本的方式,围绕着数据的产生、存放、保护、优化、利用,直至数据成为资产,满足数据对存储提出的要求。
相关的关键词有十个:软件定义和分布式、云存储、容器存储、全闪存、AI存储、区块链存储、边缘存储、量子存储、生物存储或基因存储等等。
鉴 往 事
我们先回顾一下历史,过去十年(2010-2019)存储发生了什么事件/p>
2010年:EMC收购Isilon,22.5亿美元 ;
2010年:惠普收购3Par,23.5亿美元 ;
2011年:戴尔收购Compellent,9.6亿美元 ;
2011年:希捷收购三星硬盘,13.75亿美元 ;
2011年:西部数据收购日立GST,48亿美元 ;
2012年:VMware提出SDDC(软件定义数据中心)和SDS(软件定义存储)的概念,之后推出SDS产品 – VirtualSAN的预览版 ;
2013年:Avago收购LSI,66亿美元 ;
2014年:闪迪收购Fusion-io,11亿美元 ;
2015年:戴尔收购EMC,630亿美元 ;
2015年:西部数据收购闪迪,160亿美元 ;
2016年:IBM收购对象存储,约13亿美元 ;
2016年:HCI(超融合)概念提出者Nutanix上市;
2016年:博通收购博科,59亿美元 ;
2016年:OpenText收购Dell EMC企业内容部门(包括Documentum等),16.2亿美元 ;
2017年:HPE收购NimbleStorage,10.9亿美元 ;
2018年:微软收购混合云数据存储公司Avere Systems ;
2019年: AWS收购E8 Storage,估计在5000万美元至6000万美元之间 ;
2019年: 谷歌收购存储企业Elastifile,2亿美元 ;
2019年: IBM收购 RedHat, 340亿美元,RedHat有两款开源存储产品:Ceph和Gluster。
站在企业存储系统的角度,有几件事值得注意:HCI、SDDC、SDS的相聚出现、戴尔收购EMC、西部数据收购闪迪、HPE收购3Par和Nimble Storage,以及云计算厂商微软、AWS和谷歌的收购。这些事件体现了全球存储发展的几大趋势:分布式、云化、闪存化、智能等。
1、软件定义(以分布式存储为主)
软件定义存储,为云而生。软件定义存储就是将硬件的可操控成分按需求,分阶段的,通过编程接口或者以服务的方式逐步暴露给前端应用,分阶段地满足应用对资源的不同程度、不同方面的灵活调用。软件定义存储其实是一个过程,不是一蹴而就的目标,它分成不同阶段:抽象、池化和自动化。目前,软件定义存储最显著的特征是呈现分布式,根据近年来IDC的 告,软件定义存储按照访问方式,分为三类:分布式块存储、分布式文件存储、分布式对象存储。未来十年,分布式存储的相对市场份额将不断增长,预计将超过集中存储的市场份额,然而两者将长期并存。
浪潮存储G2/G5的InRaid,戴尔Compellent、HP 3Par,华为存储OceanStor的Raid 2.0实现了基于数据块的智能虚拟化,将数据块和硬盘解耦;浪潮存储G2/G5的NPIV,戴尔Compellent的虚拟WWN将控制器前端卡的物理唯一ID抽象出来,也是一种解耦;VMware Virtual SAN(现命名为vSAN)、Nutanix、Ceph有别于以往的专用存储,将存储软件与专用存储硬件解耦,采用标准的商用服务器;……,分别体现了软件定义存储征程中的不同阶段。
浪潮存储G2/G5的智能RAID,也即InRaid如下图所示:
2、云化(含容器、超融合、混合云)
据 道,全球云存储市场2017年为307亿美元,预计到2022年889.1亿美元,CAGR为23.7%;中国云存储市场2017年规模为88.68亿人民币,同比增长71.8%,2018年同比增长率将上升至72.8%,市场规模为158.5亿元人民币。
Gartner在2019年的 告中显示:到2024年,40%的企业将实施至少一种混合云存储方式,高于2019年的10% 。
上述提到的云存储主要是以AWS S3、EBS、阿里云块存储、OSS为代表的公有云存储。在本篇文章里,云化的概念更广泛,包括了公有云和私有云。
云的特点包括弹性灵活、按需交付、按用付费等,除了众所周知的公有云之外,还要看到私有云。AWS CEO Andy Jessy在AWS 2019 re:Invent大会上分享了如下消息:公有云的总支出只占到总IT支出的3% 。也就是说,全球IT支出总,私有云仍占绝大多数。我曾在2017年看到一篇文章提到:预计到2040年,公有云大约占整个IT开支的1/3和1/2之间。如果真是如此,也就是说即使二十年后,私有云仍占半壁江山。
1)私有云的云化对接
存储如何更好的服务私有云,成为企业级存储的一个重要课题。除了存储自身的池化、自动化之外,向上提供API,方便私有云管理平台按需驱动存储资源的创建、调整、优化甚至回收,将逐渐成为必备配置。云化对接包含两大块,一是对接开源的云管理平台,例如OpenStack的块接口Cinder、文件接口Manila、对象接口Swift和几乎成为标准的AWS S3接口;二是对接商业的云管理平台,首当其冲的是能够被主流Hypervisor识别,再被相关的商业云管软件调度,如VMware ESXi、Microsoft Hyper-V。国内存储厂商中,浪潮的AS13000在云化对接中做得更齐全。
容器对接也可以视为云化对接的一部分,我们看到越来越多的用户,包括互联 、金融、电信等行业,开始部署容器技术。因此存储支持CSI(Container Storage Interface)接口也将逐渐成为企业级存储的必备配置。
超融合可以视为私有云的一种部署形态,当计算资源池和存储资源池在初次采购以及后续扩容的过程中,计算和存储的比例比较适中,也即,不会出现少量计算资源需要搭配大量存储空间;也不会出现大量计算资源需要搭配很少的存储空间,此时超融合是不错的选择。
2)公私相互渗透
在云计算领域,开始出现To C和To B的融合。
早期公有云的用户主要是一些C端,或者小B的用户,随着云计算的深入和普及,云巨头开始希望吸引大B用户。但是,出于隐私保护、安全性、政府合规、管理、兼容性、惯性、迁移成本等多种因素的考虑,原有大B用户迁移到公有云的进展比预期要缓慢。
因此,云巨头早在几年前就开始通过构建混合云或者私有云的方式来瓜分B端IT市场的大蛋糕。AWS收购E8和推出Outposts,微软收购混合云数据存储公司Avere,阿里云推出混合云存储方案,腾讯云、金山云、京东云也不甘人后。
另外,因为成本、空间、能耗等因素,逐渐有更多用户希望To B的存储厂商,能够支持将历史数据备份或归档到公有云存储上。
3、闪存化
根据IDC 在2019年12月31日的 道:“2019前三个季度,中国企业级全闪存存储阵列市场同比增长超过60%。IDC预测, 2019年全闪存存储市场仍将达到近50%的增长”。
据 道,闪存颗粒价格逐年下降(按照30%~40%的降幅),如下图所示。
4、智能
这里包括两个方面,一是存储的智能化;二是存储如何为智能应用进行优化,也即AI存储应该如何优化。
1)存储智能化
存储智能化所希望达到的就是能够根据业务负载、运维管理等的历史记录,预测未来可能会发生什么,再据此动态地调整存储资源池,做到物尽其用;以及提供预警信息和执行动作,做到防患于未然。然而这个道路非常漫长,因为厂商需要在安全性稳定性和性价比(也即动态调整存储资源)之间做取舍;另外要想取得根据负载自动调整存储,其实不亚于将AI算法植入存储系统之中,难度不小。目前,存储厂商中,做得比较好的有浪潮的InView智能管理和HPE的Infosight。
2)AI存储
Gartner 告显示,到2022年,企业高管中将有半数以上会规划AI技术的部署,而这一数字在2018年的时候仅有4% 。
根据IDC数据,2018年上半年,中国AI基础架构市场销售额和出货量分别同比增长176%和129% 。
AI所需存储,可以分为准备、训练、推理和归档等阶段,每个阶段的IO特征不一样,对于存储的要求也不一样。例如,在推理阶段,IO的特征是读写混合,并且要求存储的延时低,能快速响应。
下图列出了AI各个阶段的IO特征,及其对存储的要求。
2019年12月27日,在2019国际超级计算产业博览会上,中国工程院院士、浪潮集团首席科学家王恩东提到:“智慧时代,计算力就是生产力,计算力指数是衡量一个国家、地区,甚至是企业发展水平的重要指数”。
“同样,在企业领域,10年前全球市值最高的十个企业,埃克森美孚、中石油、沃尔玛、中移动、中国工商银行等,都是来自能源、金融、通信等传统领域。今天全球市值最高的TOP10企业,清一色都是互联 企业,比如google、微软、亚马逊、腾讯、阿里巴巴,只有一家来自传统行业的沃尔玛。全球市值TOP级的企业也是计算力消耗最大的,市值排名和服务器采购量排名基本一致”。
王院士还剖析了计算的演变历史,“从计算发展的形态来看,云计算、智慧计算和科学计算三大典型计算场景已经成为主流信息化形态。其中,科学计算主要用来完成宇宙探索、石油勘探、海洋开发、工业仿真、基因测序等前沿科技领域;云计算已成为当今经济 会发展的‘水电煤’”。
其中智慧计算包括了AI计算、大数据、云计算和边缘计算。
有计算,就会有存储,只是或多或少,或快或慢,或过渡或长期保存的区别。
图: 加州大学伯克利分校:互联 与物联 的七个不同之处
1)隐私和安全方面(Privacy&Security)
互联 是开放访问的。
物联 里,植入到人们周边环境的传感器,其收集的通常是敏感信息。例如智能门锁、心脏起搏器等,这类信息的泄密将直接关系到人的生命财产安全。
2)可伸缩性(Scalability)
物联 中的可伸缩性比互联 更具挑战,生成的数据量将达数万亿个对象。物联 设备所需的大多数数据应该在本地处理,并可能立即丢弃,因此只有集中式的云是不够的。
3)交互模型(InteractionModel)
互联 是人机交互的。
而物联 是机器与机器交互;需要注意的是,有些交互必须伴随着交易,或者说是价值的转移,否则这些交互是不会发生的。
4)延迟(Latency)
场景不同,互联 对延迟的要求不同。
但物联 要求实时响应。例如,为响应本地温度的升高而打开风扇的应用程序,如果只有集中式的云,那这一简单的操作,也将经历来自感知、无线传输、 关处理、互联 访问和云处理的不可预测的延迟。
图:微软的玻璃光盘项目ProjectSilica
3、全息光存储
谢长生教授在2019存储峰会提到,蓝光之后下一代变革性光存储技术包括两种:
第一种是同轴多维全息光存储技术,刚刚列入国家重点研发计划,武汉光电国家实验室和福建师大,中科院光电所和紫晶一起参与了这个项目。
第二种是2014年得了诺贝尔奖的突破光的衍射极限项目,澳大利亚科学家把这个技术用到光上,把光斑从300纳米理论上可以减少到九个纳米,容量上得到巨大的提高,至少可达每盘15TB,理想上可实现PB级。第一发明人是大陆过去的甘棕松博士,现在甘博士回到国内的武汉光电国家实验室,最新的进展在密度上实现了百倍的提高。
4、生物存储或基因存储
如果需要更长期的保存,例如数百年甚至长达千年呢/p>
在人类历史上,已经有过历经千百年的存储介质,例如青铜器铭文、竹简、纸书、石碑等。不过,众所周知,这类手段存储密度极低。
随着生物技术的发展,这种需求,也许会催生出生物存储,或基因存储/p>
站在上帝或者造物主的角度看,生命体最最重要的信息,不就是存放在DNA上吗助DNA,物种得以世世代代繁衍。仿照《自私的基因》一书的观点,包括人在内的动植物不过是DNA繁衍的躯壳,你也可以看成是DNA的存储器。现在,我们可以反其道而行之,让DNA的片段,也即基因成为人类存放信息的存储器。基因存储将0、1数据通过一定的编码方法转换成DNA中的A、T、C、G四种碱基,通过合成含有这些碱基序列的DNA即可实现数据信息存储。
这并不是空穴来风或者异想天开。
去中心化方式组织的存储,其实就是我们要谈的区块链存储。如下图所示:它是一种全新的共享模式,存储空间来自多个中心,也许就是你我的移动硬盘上的空间,或者某个数据中心的闲置空间。我们知道公有云存储,其实是所有权和使用权的分离,但运营权和所有权是合在一起的;区块链存储做为一种去中心化的云存储,它更进一步,将所有权和运营权也分离开,区块链存储的项目发起方仅仅拥有运营权,它调用的存储空间其实是租用过来的,租用方式就是依靠区块链的Token激励机制。
最后总结一下,下一个十年,存储发展趋势的八个关键词是:分布式、云存储、容器存储、全闪存、AI存储、边缘存储、长期存储、区块链存储。而量子存储、生物存储或基因存储可能还为时尚早。
索引(感谢一些朋友和同事提供的线索,包括谢长生教授、张文忠、郇振…… 等人)
1、 本篇文章的部分数据,来自IDC和Gartner;
2、 Gartner:2020年十大战略技术趋势(上篇)
2020-1-6,https://www.freebuf.com/articles/paper/223702.html
6、搜狐科技,2019-3-9 《BlockChainStorage 之4、为什说区块链存储是下一个热点》https://m.sohu.com/a/300128362_270628
7、全国标准信息公共服务平台 磁光混合存储系统通用规范
http://std.samr.gov.cn/gb/search/gbDetailedd=640C664BA091AEB9E05397BE0A0A3A06
8、 易科技频道,2020-02-08,《光子芯片、DNA存储!波士顿创企席卷高性能计算领域》https://3g.163.com/tech/article/F4SDLQ8605318XR6.html
9、 DOIT,2019-12-09 《存储专家谢长生:数据长期存储面临的四大挑战与两大有效对策》https://www.doit.com.cn/p/349597.html
10、 newscientist.com,2019-07-12《Video storedin live bacterial genome using CRISPR gene editing》,https://www.newscientist.com/article/2140576-video-stored-in-live-bacterial-genome-using-crispr-gene-editing/#ixzz6FSMxk0qN
扩展阅读:
2019年11月14日 “哥,云大无人区” & 区块链思维的八个字
2019年07月21日 中国SDS的另两个机会 & 总结5个机会
2019年05月05日 回看2015年对SDS的预测 & 中国SDS发展的一种新形态
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!