点击上方“机器学习与生成对抗 络”,关注”星标”
获取有趣、好玩的前沿干货!
导读
近日,华盛顿大学博士Tim Dettmers发表文章,就深度学习从业者如何选购GPU的问题发表了看法。
在 9 月 2 日 RTX 30 系列发布时,英伟达宣传了新显卡在性能上和效率上的优势,并称安培可以超过图灵架构一倍。但另一方面,除了 3090 之外,新一代显卡的显存看起来又有点不够。在做 AI 训练时,新一代显卡效果究竟如何/p>
RTX 3070 打 2080Ti,这是真的吗少人已经被这样一张性能对比图「改变了信仰」。
选择GPU时你需要知道的东西
在选购 GPU 之前,你需要知道一些指标在深度学习中意味着什么。
首先是 Tensor Core,它可以让你在计算乘法和加法时将时钟周期降至 1/16,减少重复共享内存访问,让计算不再是整个流程中的瓶颈(瓶颈变成了获取数据的速度)。现在安培架构一出,更多的人可以用得起带 Tensor Core 的显卡了。
因为处理任务方法的特性,显存是使用 Tensor Core 进行矩阵乘法的周期成本中最重要的部分。具体说来,需要关注的参数是内存带宽(Bandwidth)。如果可以减少全局内存的延迟,我们可以进一步拥有更快的 GPU。
在一些案例中,我们可以体验到 Tensor Core 的强大,它是如此之快,以至于总是在等内存传来的数据——在 BERT Large 的训练中,Tensor Core 的 TFLOPS 利用率约为 30%,也就是说,70%的时间里 Tensor Core 处于空闲状态。这意味着在比较两个具有 Tensor Core 的 GPU 时,最重要的单一指标就是它们的内存带宽。A100 的内存带宽为 1555 GB/s,而 V100 的内存带宽为 900 GB/s,因此 A100 与 V100 的加速比粗略估算为 1555/900 = 1.73x。
我们预计两代配备 Tensor Core 的 GPU 架构之间的差异主要在于内存带宽,其他提升来自共享内存 / L1 缓存以及 Tensor Core 中更好的寄存器使用效率,预估的提升范围约在 1.78-1.87 倍之间。
在实际应用中,通过 NVLink 3.0,Tesla A100 的并联效率又要比 V100 提升 5%。我们可以根据英伟达提供的直接数据来估算特定深度学习任务上的速度。与 Tesla V100 相比,A100 的速度提升是:
-
SE-ResNeXt101:1.43 倍
-
Masked R-CNN:1.47 倍
-
Transformer(12 层机器翻译,在 WMT14 en-de 数据集上):1.70 倍
看来对于计算机视觉任务来说,新架构的提升相对不明显。这可能是因为小张量尺寸、准备矩阵乘法所需的运算无法让 GPU 满负载。也可能是由于特定架构(如分组卷积)导致的结果。在 Transformer 上,预估的提升和实际跑起来非常接近,这可能是因为用于大型矩阵的算法非常简单,我们可以使用这些实际效果来计算 GPU 的成本和效率。
当然,在发布会中英伟达着重指出:安培架构在稀疏 络的训练当中速度提升了一倍。稀疏训练目前应用较少,但是未来的一个趋势。安培还带有新的低精度数据类型,这会使低精度更加容易,但不一定比以前的 GPU 更快。
每一美元能买到多少算力/h1>
排在天梯图顶端的显卡确实是香,但普通人更关心的还是性价比,也就是一块钱能买到多少算力。在讨论这个问题之前,先来看一下各种任务的大致内存需求:
-
使用预训练 transformer 和从头训练小型 transformer:>= 11GB;
-
训练大型 transformer 或卷积 络:>= 24 GB;
-
原型神经 络(transformer 或卷及 络):>= 10 GB;
-
Kaggle 比赛:>= 8 GB;
-
应用计算机视觉:>= 10GB。
下图是根据各种 GPU 在亚马逊、eBay 上的价格和上述性能排行榜算出的「每一美元的 GPU 性能」:
图 4:以 RTX 3080 为基准(设为 1),各种 GPU 的每一美元性能排行(4 个 GPU)。
值得一提的是,Tim Dettmers 在申请读博方面也颇有心得,他拿到了斯坦福大学、华盛顿大学、伦敦大学学院、卡内基梅隆大学以及纽约大学的 offer 并最终选择了华盛顿大学。在 2018 年的一篇博客文章中,他总结了自己申请读博的经验和技巧,需要的同学可以去读一下。
原文链接:https://timdettmers.com/2020/09/07/which-gpu-for-deep-learning/#How_do_I_cool_4x_RTX_3090_or_4x_RTX_3080
猜您喜欢:
超100篇!CVPR 2020最全GAN论文梳理汇总!
拆解组新的GAN:解耦表征MixNMatch
StarGAN第2版:多域多样性图像生成
附下载 | 《可解释的机器学习》中文版
附下载 |《TensorFlow 2.0 深度学习算法实战》
附下载 |《计算机视觉中的数学方法》分享
《基于深度学习的表面缺陷检测方法综述》
《零样本图像分类综述: 十年进展》
《基于深度神经 络的少样本学习综述》

文章知识点与官方知识档案匹配,可进一步学习相关知识CUDA入门技能树GPU架构及异构计算介绍GPU架构以及异构计算的基本原理1607 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!