如何消除智能化鸿沟/strong>
要解决问题,就要先精确定位问题所在。
一方面,构建AI能力对于普通企业来说,IT基础设施维护、AI框架搭建、训练和推理、硬件和软件、人才和巨额算力成本等这些“夯地基”的事情需要从零做起,然而大部分企业,尤其是传统行业企业并没有相关经验;另一方面,智能化转型又迫在眉睫,企业需要快速让自己具备AI能力,才能赶上不断变化的需求。
意外!CPU成AI云服务热门选择
紧迫的需求,已经在过去数年催生了众多针对AI的云服务和产品,IaaS和PaaS级别的服务是主流,例如AIaaS (AI as a Service)、AI 在线服务、增强型 IaaS、企业级AI一体机,深度学习云平台等等,硬件搭配也是多种多样,例如基于CPU、GPU、TPU、NPU、FPGA等等,都在为企业AI转型提供包括基础设施构建及优化、AI应用开发和部署,以及AI 模型训练与推理效能优化在内的多种支持。
有趣的是,CPU作为通用处理器,在AI云服务的抢眼程度,并不亚于专用的AI加速芯片。通过实际应用分析,我们不难发现,如果不是专注于AI算法模型训练和开发的企业,大多数企业使用AI时其实更偏推理型的应用。对他们来说,基于CPU平台的云服务,特别是集成了可加速AI应用的AVX-512技术和深度学习加速技术的英特尔至强平台的AI云服务,其实在很多应用场景中都足以应对实战需求,且不论对于他们,还是云服务提供商而言,部署都更快、更便捷,上手门槛也低。
就这样,可能与大家的印象相悖,CPU成为了很多云服务提供商输出,以及企业采用AI云服务时的热门选择,这使得以CPU为基础设施的AI云服务异军突起。
2021年面向单路和双路服务器的全新第三代至强可扩展处理器的主要优势,包括再次提升AI推理性能
CPU有了AI加速能力,用它来构建AI云服务的根基就已奠定。但为了充分发挥出这些硬件AI加速能力,英特尔还同步提供了一系列开源AI软件优化工具,包括基础性能优化工具oneDNN,可帮助AI模型充分量化利用CPU加速能力、预置了大量预优化模型并能简化它们在CPU平台上部署操作的OpenVINO,以及可以在现有大数据平台上开展深度学习应用,从而无缝对接大数据平台与AI应用的Analytics Zoo等。英特尔还将oneDNN融入了TensorFlow、Pytorch等主流AI框架,将它们改造成面向英特尔架构优化的AI框架。
通过这些举措,英特尔架构CPU平台加速AI应用的软硬两种能力就有了“双剑合璧”的效果。而英特尔和云服务提供商合作伙伴的实践,也正是基于此展开的。
CDS首云AI云服务方案架构
阿里云PAI BERT 模型优化方案
英特尔深度学习加速技术可通过1条指令执行8位乘法和32位累加,INT8 OP理论算力峰值增益为FP32 OP的4倍
例如在图像分类模型ResNet50的测试中,飞桨搭配英特尔今年发布的全新第三代至强可扩展处理器对其进行INT8量化后,其推理吞吐量可达FP32的3.56倍之多。
如此性能增幅,再加上CPU易于获取、利用和开发部署的优势,让飞桨的开发者们可借助AI框架层面的优化,更加快速、便捷地创建自己可用CPU加速的深度学习应用。而为了给企业开发者们提供更多便利,百度还推出了EasyDL和BML(Baidu Machine Learning)全功能AI开发平台,通过飞桨基于全新第三代至强可扩展处理器的优化加速,来为企业提供一站式AI开发服务。
展望未来,跨越智能化鸿沟不仅靠算力
前文CDS首云、阿里云和百度的实例,可以说是充分反映了用CPU做AI云服务的现状,而这些云服务也正是为当前希望跨越智能化鸿沟的企业设计的。当然,它们也会持续演进,比如说随着未来AI技术的进一步发展,特别是大数据与AI融合带来的新需求,不论是用CPU还是专用加速器,不论是企业自建AI基础设施和应用,还是云服务提供商输出的AI云服务,都会在数据存储而非算力上面临越来越多的挑战。
毕竟,算力、算法和数据是并驾齐驱的“三驾马车”,随着数据规模进一步暴增,数据存储也将对AI的部署和应用带来更多挑战。
好消息是,国内的云服务提供商也早已和英特尔就此展开了前瞻创新,例如百度智能云早在2019年就推出了ABC(AI、Big Data、Cloud)高性能对象存储解决方案,能利用英特尔傲腾固态盘的高性能、低时延和高稳定来满足AI训练对数据的高并发迭代吞吐需求。
值得一提的是,英特尔在今年发布全新第三代至强可扩展处理器时,也带来了与其搭档的英特尔傲腾持久内存200系列和傲腾固态盘P5800X。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!