英伟达 GeForce RTX 4080 评测:大胜 RTX 3090Ti,坐稳高端宝座

一个月前,IT之家评测了英伟达 GeForce RTX 4090,它巨大的性能提升和 DLSS 3 的 AI 之力,无疑改变了 GPU 界的游戏规则。在发布会上除了 RTX 4090 外,还发布了一张 RTX 4080 16G,同样基于 NVIDIA Ada 架构打造,各方面数据都更为均衡,更适合高端游戏玩家。

IT之家也是提前收到了 RTX 4080 16G 的公版显卡,在本次测试中,我们依旧将全部配置拉满,看看这款高端显卡究竟能发挥 NVIDIA Ada 架构的几成功力。具体配置如下:

外观设计:依旧冷酷,更为紧凑

相比于 RTX 4090 力量感十足的外形,GeForce RTX 4080 16G 给人的是一种“西装暴徒”的克制感,它没有像 RTX 4090 那样做夸张的跃肩设计,整体是一张标准的 3 槽的显卡,对于机箱的兼容性会更好一些。

GeForce RTX 4080 16G 的 TGP 功耗为 320W,为了承载更高的功耗,供电接口变成了 16 Pin 的 ATX 3.0,包装内附赠了 3 个 8 Pin 转 16 Pin 的转接线。比 RTX 4090 自带的 4 个 8Pin 转 16Pin 要少一个,对电源的需求也就没那么大了。默频的话,配个 750W 以上的足额电源就够了。

GeForce RTX 4080 16G 整体造型继承了与 RTX 30 系列公版 GPU 几乎一致的设计,在银黑相间的装甲中,是密集的金属散热装甲与两个巨大的风扇。一前一后形成了垂直风道。

顶部的 GEFORCE RTX 标志在点亮后也会随之发光。

与 RTX 4090 一样,由于显卡重量相对比较重,所以在显卡侧面提供了显卡架螺丝孔,打开盖板即可加装显卡支架。

GeForce RTX 4080 16G 在接口依旧是标准的 3 个 DP 1.4+1 个 HDMI 2.1,可以支持最高 8K 分辨率的显示器。

技术解析:核心能效暴涨,助力 AI 跃进

我们手中的 GeForce RTX 4080 16G 是基于目前定位第二高的 AD103 核心打造的,里面有 7 组 GPC,其中 4 组是完整的。内部共有 9728 个 CUDA 核心、304 个 Tensor 核心、和 112 个 ROP 单元,核心规模与上一代 RTX 3090 比较接近。

GeForce RTX 4080 16G 的核心频率是 2210-2510MHz,相比上代同样有着巨大的提升。显存方面则是一步到位来到了 256-bit 位宽的 16GB GDDR6X。显存的大规模提升使得 4K 游戏中再无爆显存之忧,同时也能兼顾当下流行的 AI 生产力工作。出厂预设最大设计功耗为 320W,和上一代 RTX 3080 10G 版保持一致,考虑到它性能的巨大提升,这一代 RTX 4080 的能效比应该相当爆炸,后面的烤机环节我们会进行深入测试。

GeForce RTX 4080 16G 的架构当然是最新款的 NVIDIA Ada 架构,它基于 TSMC 4N NVIDIA 定制工艺打造,因此实现了高达 2 倍的性能功耗比飞跃。流式多处理器的吞吐量超过上一代产品 2 倍。第三代 RT Cores 的有效光线追踪计算能力是上一代产品 2.8 倍。第四代 Tensor Cores 新增 FP8 引擎,具有高达 1.32 petaflops 的 Tensor 处理性能,超过上一代的 5 倍。SER 为光线追踪带来最高可达 3 倍的性能提升,整体游戏性能提升可高达 25%。

反映到具象的功能上,新架构带来了不少的新功能:由于 Ada 光流加速器的引入,使得 DLSS 3 能够预测场景中帧和帧之间的运动变化,实现 AI 插帧,在保持图像质量的同时提高帧率。同时支持第八代 NVENC 双 AV1 编码器的应用,不仅可以将视频导出时间缩短,还能拥有更好的画质。

理论性能:跑分几乎翻倍,提升令人惊艳

前面我们说到 RTX 4080 的能效比很出色,那么实际测试结果如何呢?我们马上进行理论测试,首先是单烤甜甜圈,烤机 15 分钟后,核心温度稳定在 64.6℃左右,功耗稳定在 310W 左右,符合 320W 的 TGP。最关键的是风扇也远没有满载,仅仅只运转了 45% 左右,因此使用起来相当安静。实际使用中,如果配 i7 / i9 这样等级的处理器的话,750W 的足额电源绝对够用了。

而在实际游戏中,是远远达不到 TGP 的 320W 功耗的。我们使用英伟达 FrameView 工具总结了几款有代表性游戏的实际功耗图,在游戏中基本都位置在 270-300W 左右,看来 RTX 4080 核心的能效比是相当出色的。

接下来进行 3DMark 压力测试,这个测试可以检测连续跑分下显卡性能有没有发生下降,一般 97% 以上才算合格的显卡。实测 GeForce RTX 4080 16G 的得分为 99.6%,性能释放极其稳定。

在 3DMark TimeSpy DX12 测试中,GeForce RTX 4080 16G 显卡分数达到了 26552 分,作为对比,GeForce RTX 3080 10G 版的分数为 17306 分,RTX 3090 的分数为 18981 分,RTX 3090Ti 为 21862 分。也就是说 GeForce RTX 4080 16G 全面超越了上代 RTX 30 系列的所有显卡,与上代同等级的 RTX 3080 相比提升了 50%。

在 3DMark Fire Strike DX11 测试中,GeForce RTX 4080 16G 显卡分数达到了 53379 分,作为对比,GeForce RTX 3080 10G 版的分数为 40932 分,GeForce RTX 3090 的分数为 46045 分,GeForce RTX 3090 Ti 为 52630 分。这个分数意味着它也可以 4K 分辨率下流畅运行所有的游戏,有了 DLSS 3 的加持更是可以挑战一下高帧数。

在 3DMark Portal Royal 光追测试中,GeForce RTX 4080 16G 获得了 17250 分,提升幅度比光栅性能来得更大。比 GeForce RTX 3080 提升了大约 50%。

RTX 4080 16G 在理论跑分中的成绩绝对称得上是震撼,我们制作了一份 GPU 物理分数的对比表,在所有项目中 RTX 4080 16G 相比于前代旗舰卡都有着明显的提升。

DLSS 3 详解:AI 助力游戏,帧数 4 倍暴涨

虽然理论性能已经超越了所有的 RTX 30 系显卡,但真正重磅的提升还要属 DLSS 3 技术。DLSS 3 是一款由 AI 驱动的性能倍增技术,由全新第四代 Tensor Core 和 GeForce RTX 40 系列 GPU 的全新光流加速器驱动,是 NVIDIA 广受好评的深度学习超级采样技术的最新版本,并拥有开创性的光学帧生成技术,将开启 NVIDIA RTX 神经 络渲染游戏和应用的新时代。

基于 NVIDIA Ada Lovelace 架构的光流加速器可分析两帧连续的游戏图像,并计算帧到帧中物体和元素的运动矢量数据,而无需传统游戏引擎进行建模。帧生成模型同时获取游戏引擎中的运动矢量和光流数据,这极大地减少了 AI 在渲染诸如粒子、反射、阴影和光照等元素时的视觉异常。

简单地说,过去的 DLSS 2 是通过渲染出一个低分辨率图像,然后 AI 放大至高分辨率,实现画质与帧数的提升。而全新的 DLSS 3 在兼容 DLSS 2 的基础上,还新增了帧生成功能,可以在两个真实帧之间插入 AI 推算出来的全新帧,实现帧数的倍增。再结合 DLSS 2 的超分辨率功能,AI 能重建至多八分之七的显示像素,与没有 DLSS 相比,游戏性能最高可提升 4 倍!

接下俩我们进入 DLSS 3 的测试环节。最新版的 3DMark 已经适配了 DLSS 3 的 BenchMark,我们把 GeForce RTX 4080 16G 的测试结果和 DLSS 2 进行控制变量的对比,可以直观地看出差异。实测在 DLSS 2 模式下,平均帧数为 97.9 帧,相比于不开 DLSS 2 已经提升了将近三倍。

但如果我们开启最新的 DLSS 3 技术,GeForce RTX 4080 16G 显卡帧数直接来到了平均 125.84 帧,和不开 DLSS 的帧数相比,提升相当明显。

这才过去了一个月,DLSS 3 又适配了不少新游戏,当 11 月 16 日 GeForce RTX 4080 发布时,市场上有 10 款 DLSS 3 游戏可玩:

1.《瘟疫传说:安魂曲》(A Plague Tale: Requiem)

2.《光明记忆:无限》(Bright Memory: Infinite)

3.《毁灭全人类 2:重新探测》(Destroy All Humans! 2 – Reprobed)

4.《暗影火炬城》(F.I.S.T.: Forged in Shadow Torch)

5. F1 ? 22

6.《逆水寒》(Justice)

7.《生死轮回》(Loopmancer)

8.《漫威蜘蛛侠:重制版》 (Marvel’s Spider-Man Remastered)

9.《微软模拟飞行》(Microsoft Flight Simulator )

10.《超级人类》(SUPER PEOPLE)

由于只要适配 DLSS 3 就可以向下兼容 DLSS 2,开发难度非常低,所有后续肯定会有越来越多开发商加入 DLSS 阵营。我们选取了《赛博朋克 2077》、《瘟疫传说:安魂曲》、《超级人类》、《暗影火炬城》、《光明记忆:无限》和《生死轮回》等多款已经适配了 DLSS 3 的游戏来对 GeForce RTX 4080 16G 进行测试。

我们上来就进行压力最大的《赛博朋克 2077》,我们在 4K 最高画质超级光追下运行它自带的 BenchMark,得到了以下数据。可以看出,DLSS 3 性能档的情况下,至多可以实现帧数 50% 的提升,这个帧数提升是相当明显的。

那么 DLSS 3 是否会对画质有严重影响呢?我们使用 NVIDIA ICAT 工具进行画面对比数毛,可以看出左右两边的画质确实有差距,但在宏观上并不明显,可以说 DLSS 3 技术真的可以让我们“白捡”了不少帧数。

↑ 左 DLSS 平衡 ,右 DLSS 3 关闭

在《绝地求生》开发商蓝洞的新作《超级人类》中,同样提供了和 DLSS 3 的选项。从下面的数据可以看出,DLSS 3 在《超级人类》与《赛博朋克 2077》类似,在开启 DLSS 3 后,帧率提高了近 70%。直接从能 4K 流畅游玩,变成了能流畅 4K 高帧游玩。

接下来是一款国产赛博朋克游戏《生死轮回》。虽然是一款 2D 横版游戏,但凭借光线追这一大革命性功能。它能在虚拟的世界模拟出真实的全景光影和反射。图中雨后湿润的地面最能表现出光追赛博朋克的魅力,仔细看水坑的差异就很明显了,未开启光追的话只有模糊的投影,而开启后便会产生栩栩如生的倒影。

↑ 左 RT 高档 ,右 RT 关闭

而在帧数表现方面,DLSS 3 也能为其带来最高可达 2.5 倍以上的帧数提升。

笔者发现,DLSS 3 的首批游戏库中,国产游戏数量格外得多。除了上面我们测试的《生死轮回》外,还有《光明记忆:无限》、《暗影火炬城》和《幻塔》。在《光明记忆:无限》中,DLSS 3 至多带来了约 2.5 倍的提升。

另一款国产蒸汽朋克风游戏《暗影火炬城》中,仅提供了 DLSS 3 自动 / 关两个档位,但帧数的提升还是相当显著的,同样达到最高约 2.5 倍的性能提升。

最后我们测试一款画质爆炸的 3A 大作《瘟疫传说: 安魂曲》。这款游戏在笔者评测 RTX 4090 的时候就提供了 DLSS 3 的支持,但由于游戏还在测试版,我们没有办法顺利完成测试。如今正式上线后,RTX 40 系显卡终于可以畅玩了。

实测开启 DLSS 3 后,帧数至多可以提升最高可达 3 倍,这对于这类材质复杂的 3A 单机大作来说很有用。

那么 DLSS 3 技术就是十全十美的吗?当然不是。DLSS 3 的本质是 AI 生成全新帧,生成帧必定有一个副作用就是延迟的提高。毕竟我们鼠标是对我们看到的那一帧做出的反馈,而 AI 却会加上额外的帧,这个延迟的提高对于竞技游戏的影响是很大的。所以在打开 DLSS 3 的帧生成功能时,NVIDIA Reflex 会强制打开,尽量缩短生成帧带来的渲染延迟。实测下来,开启 DLSS 3 后延迟反而比什么都不开还要低一些。

游戏实测:享受 4K 电竞,更高帧数更低延迟

除了支持 DLSS 3 的大作外,IT之家也为大家测试了几款主流游戏。GeForce RTX 4080 16G 本次会全程在 4K 分辨率最高画质下进行测试,在新上线的《守望先锋》“归来”中,提供了 NVIDIA Reflex 低延迟选项,它使 CPU 能够在完成前一帧之前就开始向 GPU 提交渲染工作,从而大大减少甚至消除渲染队列,这使得响应时间更快,瞄准精度更高。实测开启增强 Reflex 后,延迟降低了一半。

在《古墓丽影: 暗影》中,实测在 4K 分辨率最高画质下运行 BenchMark 能跑到 137 帧,已经能基本满足 4K144Hz 的显示器畅玩了。

这款游戏也有 DLSS 2 的支持,在开启 DLSS 2 后,帧数最高可以提升将近 90%。

最后我们测试一款光追 3A 大作《控制》,4K 最高画质最高光追下不开 DLSS 几乎不能勉强流畅游玩,而 GeForce RTX 4080 16G 开启初档 DLSS 后帧数几乎翻倍,这个体验相当出色了。

总的来说,GeForce RTX 4080 16G 在 4K 分辨率下已经能满足光追 3A 的全部要求。当然,在进行 8K 游戏时 16G 显存还是比较危险。可以说 RTX 4080 是一张非常适合搭配 4K144Hz 显示器的高端游戏卡。代表未来的 8K 游戏还是交给 4090 去挑战吧。

创意生产:AI 时代算力就是生产力

这一代 GeForce RTX 4080 显存方面提升不小,因此也被赋予了一定的生产力属性。在应对创意生产和深度学习方面会有一定建树。同时 GeForce RTX 4080 16G 也可以安装 NVIDIA Studio 驱动,有超过 100 款创意应用都可以调用 NVIDIA CUDA 核心的 AI 算力,来大大提高工作效率。

在建模渲染类软件中,GeForce RTX 4080 16G 可以利用 CUDA 为工作提供硬件加速,目前几乎所有的建模软件都会对 NVIDIA 的 GPU 有优化,所以能做到效率、稳定和兼容性的共存。比如在常用的渲染工具 V-Ray 中,可以借助 RTX 加速的光线追踪,实现高性能最终帧渲染。借助搭载 AI 的降噪功能,GPU 可进一步加速交互式渲染。

在 V-Ray Benchmark 中,RTX 4080 获得了 3060 分,可以顺利应对大部分的建模渲染需求。

得益于光追性能的提升,GeForce RTX 4080 16G 在 V-Ray GPU RTX 中的分数也提高到了 4155 分,足以应对实时光追的高压力渲染。

最后我们跑一下另外一款渲染软件 Octane,它可以藉由 RTX 加速的光线追踪和搭载 AI 的 OptiX 降噪可实现快速的交互式渲染。GeForce RTX 4080 16G 最终的测试结果来看,其渲染能力大约相当于 10 块 GTX 980 同时工作,从 GTX 980 到 RTX 4080,算力的提升令人恍如隔世。

在视频后期这一块,GeForce RTX 4080 16G 同样配备第八代 NVIDIA NVENC 编码器,支持 AV1 双编码器。AV1 是下一代的视频编码技术,能够在占用相同空间情况下,提供更加快速的视频编码和更高质量的流媒体传输性能。

NVIDIA 与多家行业合作伙伴密切合作,当今主流多媒体应用均可以支持 AV1。目前国内的剪映专业版已经支持 NVIDIA 的 AV1 的视频编码器加速。OBS 直播软件也支持了 NVENC 的 AV1 编码的录制,希望能尽快适配 AV1 编码的直播,大大节约直播带宽。

常用的视频调色剪辑软件 DaVinci 和剪映专业版也提供了 AV1 编码的支持,作为一个免费开源的编码,AV1 一定会是未来的主流编码。

为什么 AV1 会受到厂商们的青睐呢?因为它可以在保持画质的基础上,大幅度降低视频体积。我们这边做一个测试。用剪映专业版同时压制两个 4K60 帧 30000Kbps 的视频,一个采用 H.264 编码,一个采用 AV1 编码。结果 AV1 版只有 342mb,体积缩小了 36%。

那么画质会不会有损伤呢?我们选择视频内的一个画面,然后用 NVIDIA ICAT 工具看细节,结果左边的画质和右边的画质几乎没有任何区别。又小又高清,难怪 AV1 会成为下一代行业规范。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年10月11日
下一篇 2022年10月11日

相关推荐