梁云本科就读于上海同济大学,博士毕业于新加坡国立大学。博士毕业后,在美国伊利诺伊香槟分校UIUC的ADSC担任Research Scientist。梁云于2012年秋加入北京大学工作,目前是信息科学技术学院的长聘副教授,研究方向是计算机体系结构和集成电路设计自动化EDA。
与计算机系统领域结缘
梁云本科期间一直参加ACM/ICPC算法竞赛,喜欢钻研算法和计算机底层的实现。在本科毕业设计时完成了一个和实时系统相关的课题,也同时发现自己对做实际的计算机系统感兴趣。虽然比较早的确定了计算机系统作为自己的研究领域,但是梁云在博士期间的研究并不是一帆风顺。在博士的前三年,他尝试过不同的课题包括实时系统调度理论、嵌入式系统软件的形式化分析和建模、嵌入式缓存系统的软硬件协同设计与优化,一直到博士三年级末才发表了自己的第一篇顶级会议论文(DAC)。为了丰富自己的知识面,梁云在博士期间一直坚持阅读顶级会议的论文集(Proceeding),每年暑假都会在图书馆潜心阅读DAC会议当年发表的100多篇论文。之后到UIUC工作,他又开始了一个全新领域的研究——FPGA的高层次综合。在自己独立开始科研后,梁云在芯片的微架构设计方法和软件优化方面取得了一系列的成果。随着科研经验的积累,他也发现正是博士期间养成的文献阅读习惯和本科时期打下的坚实的系统实现能力,使得自己看问题更远也更深,也更擅长做一些软硬件交叉的课题。
软硬件协同驱动计算创新
芯片的峰值计算能力取决于芯片的硬件架构,而实际的性能发挥则取决于上层的系统软件。然而,不论芯片的硬件设计还是软件库的开发都一直面临着编程门槛高、优化难度大、开发效率低、周期长的难题。梁云结合自己软硬件协同设计的背景,提出了从高层次抽象到底层软硬件实现的理论和自动化工具,显著降低了芯片软硬件开发门槛和缩短了开发周期,取得了两项代表性的成果。
成果1:自动硬件综合与优化
在硬件方面,梁云提出了基于高级语言(C, DSL)的数据流硬件架构的自动综合技术。他创新了以映射关系为核心的数据流表示理论,可以形式化的、全面的表示数据流架构的设计空间,并提出剖析模型准确地分析不同数据流架构的性能参数包括数据重用,带宽需求等。他还提出了自动综合的硬件后端和优化技术,可以自动生成基于硬件描述语言的底层硬件实现,并通过一系列的优化技术提高生成硬件的性能、功耗、面积。与传统的硬件设计流程相比,梁云提出的自动硬件综合技术可将数据流架构的设计周期和成本降低10倍以上。
成果2:自动软件代码生成与优化
在软件方面,梁云提出了基于高层数学表达式的张量算子库自动生成与优化技术。他创新了基于机器学习的软件优化状态空间搜索方法,提出了基于启发式和强化学习算法的搜索技术,可以高效的寻找最佳优化策略,解决了软件算子库优化困难的问题。还提出了自动代码生成的后端和优化技术,可以自动的生成面向CPU、GPU、FPGA、ASIC等不同后端的高效算子库。与高度优化的手工设计算子库相比,梁云提出的自动算子库生成与优化技术可以取得相当甚至更优的性能。该技术也解决了底层算子库开发滞后上层算子演变的问题。
体系结构研究的黄金时代
随着摩尔定律的逐渐终结和新型应用的不断涌现,计算机体系结构也迎来了黄金的发展年代。中国是世界上芯片需求量最大的国家,然而由于基础薄弱和相关人才的匮乏,国产芯片的软硬件一直比较落后。梁云目前担任CCF体系结构专委的常务委员、集成电路专委委员、高性能计算专委委员,他也积极组织体系结构领域的各种系统挑战赛,还通过新的课程建设、校企合作等方式和其他CCF的同仁一起推动基础软硬件技术的教学和科研,为我国在计算机体系结构和EDA领域的发展添砖加瓦。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!