【调研】国内芯片公司对于存算一体芯片的相关调研

目录

  • 理论研究
    • 清华大学 Fully hardware-implemented memristor convolutional neural network
  • 落地实践
    • 后摩智能
    • 苹芯科技
    • 亿铸科技
    • 知存科技
  • 清华大学 Fully hardware-implemented memristor convolutional neural network 详细分析

理论研究

清华大学 Fully hardware-implemented memristor convolutional neural network

2020年1月29 ,清华大学微电子所等机构在 Nature 上发表了首个完全基于忆阻器的 CNN 存算一体芯片。

落地实践

后摩智能

业内首款存算一体大算力AI芯片,成功跑通智能驾驶算法模型,采用SRAM作为存算一体介质,通过存储单元和计算单元的深度融合,实现高性能和低功耗,样片算力达20TOPS,可扩展至200TOPS,计算单元能效比高达20TOPS/W。

清华大学 Fully hardware-implemented memristor convolutional neural network 详细分析

一个典型的CNN计算过程包括大量的卷积操作,非常需要能够支持并行乘法累加运算(MAC)的计算单元,这个需求导致了包括GPU以及一些专用的神经 络加速器的出现,但是他们受限于冯诺依曼体系结构,因为内存和处理单元在物理上是分离的,他们之间的交互就会带来性能的损耗与时延的增加。

相比之下,基于忆阻器的存内计算结构就会有很大的优势,直接使用欧姆定律来做乘法和基尔霍夫电流定律来做加法,一个忆阻器阵列能够实现并行存内MAC操作。但是以往的研究并不是完全基于忆阻器构建硬件系统的,因为首先生产的忆阻器CNN芯片经常有低良率和忆阻器阵列不统一的问题,然后因为硬件本身的不完美(工艺偏差、电导漂移和器件状态死锁)很难实现和软件结果相媲美的表现,还有就是全连接向量-矩阵乘法(VMM)将导致忆阻器卷积器和忆阻器阵列之间的速度不匹配。

我们优化了材料堆栈,使得2048个1T1R构成的阵列中有着可靠的和统一的模拟开关特性,并且混合训练策略对于整个测试数据集的识别准确率达到了96.19%。更进一步地,将卷积核复制到三个并行的忆阻器卷机器将忆阻器CNN的延迟大约减少了1/3。

忆阻器单元使用TiN/TaO_x/HfO_x/TiN构成的材料堆栈,在增强(置位)和抑制(复位)过程中通过调节电场和热量,表现出连续的电导调控能力。材料和制造过程和传统的CMOS过程相兼容,减少过程偏差和实现高重复率,从而提高良品率解决忆阻器阵列不统一的问题,并且生产的交叉阵列表现出统一的模拟开关特性。

【调研】国内芯片公司对于存算一体芯片的相关调研
图 4:使用混合训练方法得到的并行忆阻器卷积器,可以提升卷积效率。
a:使用混合训练方法的硬件系统操作流程图,其为并行忆阻器卷积器调节不完美的设备特性。三批输入图像(左侧手写数字)输入到三个 PE 卷积器组中。所有处理后的中间数据输入到共享 FC PE 中,以完成实时调整。在神经 络图中,蓝色表示卷积层 C1 和子采样层 S2,绿色表示卷积层 C3 和子采样层 S4。在 PE 图中,蓝色区域表示 C1 层的卷积核,绿色区域表示 C3 层的卷积核。b–d:从 C1 和 C3 层的异地训练核权重映射到三个不同组 G1 (b)、G2 ? 和 G3 (d) 的权重迁移误差分布。色彩图的大小是 104 × 9。彩条表示在 0.2-V 读数脉冲处迁移后的当前值中存在的误差。e:实验 FC 权重分布 (120 × 16) 在混合训练前(上)后(下)的演化。f:与 e 对应的电导率-权重变化的分布情况。g:混合训练后在测试集上得到的误差率比对每个卷积器组执行权重迁移后直接得到的误差率低得多。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年8月26日
下一篇 2022年8月26日

相关推荐