2016年7月7日晚9点,NVIDIA正式发布Pascal架构的甜点级产品——GeForce GTX 1060,以正面迎战上月末正式开售的AMD Radeon RX 480。作为GTX 960的继任者,GTX 1060有着远超GTX 960的强大性能,官方宣称其性能在老旗舰GTX 980之上,与之相对的,RX 480的性能则是介于GTX 970和GTX 980之间。很明显,GTX 1060针对的就是RX 480所在的2000元级主流游戏市场,而RX 480仅仅独占这块市场20余天便迎来了新制程下的首位对手,看来并不像外界所传,NVIDIA和AMD在各自的市场“井水不犯河水”,聪明的老黄怎么会放任老对手在利益更大的市场抢占先机?
那么这个市场利益有多大?据称,RX 480在上市的20天内已经售出约10000片,这个数字是非常惊人的,率先发布的GTX 1080和GTX 1070加起来的销量也不足RX 480的一半,由此可见该市场的利润之大。同样是据称,GTX 1060本来没打算7月初便发布,正是RX 480在市场上的优秀表现引得老黄提早发布了GTX 1060。其实甜点级市场的利润一直很高,出货量也是旗舰级显卡远不能及的。举例来说,上代GTX 900系列在京东出货量最大的显卡型 就是GTX 960,同样地,AMD那边出货量最大的显卡型 是R9 380。
京东的公版RX 480已经全部售空
NVIDIA在这个时候推出GTX 1060无疑是非常正确的选择,首先我们看看GTX 1060的几个特点:1、性能上强于GTX 980。根据之前GTX 1080/1070发布的先例,既然NVIDIA称GTX 1060强于GTX 980,那么GTX 1060就一定不会比GTX 980弱,哪怕只是略强;2、建议零售价为1999元。1999元恰恰是RX 480的售价,这也就是说AMD此次将不会在性价比上占优,再考虑到NVIDIA目前的市场份额,无疑GTX 1060将会比RX 480更畅销;3、TDP为120W。120W的TDP同GTX 960持平,但性能却达到了GTX 980的级别,这也就是说GTX 1060的能耗比又达到了一个新的高度。此外,对手RX 480的TDP为150W,更低的功耗肯定会带来更好的温度表现。综上所述,似乎RX 480在性能、功耗以及价格上均不占优势,GTX 1060或许会成为RX 480的“天敌”。
GeForce GTX 1060 Founders Edition
当然,一切的前提是在GTX 1060的确有着GTX 980之上的性能下,RX 480之前也被传出性能强于GTX 980,但首测证明这只是谣传。那如果GTX 1060真的强于GTX 980呢?有的玩家可能会说:“OC版的RX 480也是可以强于GTX 980的,因此RX 480不输GTX 1060。”的确,RX 480对频率很敏感,更高的频率的确会带来性能的大幅提升,但别忘了,GTX 1060用的可是搭载GPU Boost 3.0技术的Pascal架构,有着良好供电散热设计的非公GTX 1070也可以在温度较低时自动超频至约2GHz,非公版的GTX 1060在该技术的辅助下想必也会发挥出更强大的实力,因此OC版的RX 480能不能和OC版的GTX 1060平起平坐?这事还真不好说。
闪耀着光泽的金属外壳
除却性能和一些硬指标,全新的GTX 1060 Founders Edition在外观上也可谓是大升级,新卡采用了大量在GTX 1080/1070 Founders Edition采用的几何多边形设计,整体层次分明。此外,GTX 1060一改GTX 960的大塑料散热罩,整个散热罩均采用金属材料制造,无论是观感还是质感都非常好。此外,GTX 1060 FE将正面的亚克力板去掉,将黑色均热板直接露出,这无疑会大大增强显卡的散热效果。
消失的SLI金手指
不过颜值颇高的GTX 1060有一些比较让人匪夷所思,甚至无语的设计,首先一点就是GTX 1060居然取消了SLI金手指,也就是说以后小伙伴们再也不能愉快地用双甜点组SLI战旗舰了。NVIDIA官方解释是说购买GTX 1060这个级别显卡的用户很少会考虑去组建多卡SLI平台,因此SLI功能是没用的。对此我真想吐槽一句:NVIDIA是怕双GTX 1060 SLI会抢GTX 1080的市场吧!还有一种可能是新的桥SLI需要2根SLI金手指,而甜点级显卡一向只配备1根金手指,既然不能使用新桥,干脆就取消SLI设计。除此之外,还有一个不得不吐槽的地方,那就是GTX 1060 Founders Edition的6pin辅助供电接口居然不在PCB上!6pin接口被放置在显卡尾部,通过一根线连接至PCB上,这种设计让那些想要改装散热器的玩家们彻底放弃了,不过好消息是目前我们收到的非公版GTX 1060均未采用这种反人类设计。
GEFORCE GTX信仰灯终于出现在甜点级公版卡上
说了这么多相信大家已经十分期待我们的测试部分了,还是那句老话,我们会用各类基准测试软件和游戏来考验GeForce GTX 1060的性能。这次我们主要引入GTX 1060、GTX 980以及RX 480三张卡的数据进行横向对比,同时改进了数据的呈现形式,在条形图数据的尾部加上“±百分比”,选定RX 480为基准值,力图给各位玩家一个更直观的更易看的首测,请大家拭目以待!
架构,砍了一半的GP104-400
GeForce GTX 1060采用全新的16nm制程的Pascal架构,核心代 为GP106,具体型 为GP106-400。GP104核心面积约为200平方毫米,得益于16nm的制程优势,核心内集成了44亿晶体管,是GTX 960晶体管数量的1.5倍,核心面积却仅为GTX 960的87.7%。
GeForce GTX 1060 Founders Edition GPU-Z截图
基于Pascal架构的GP106-400芯片运算资源总量为1280个ALU,正好为GP104-400的一半。其TMUs数量为80个,后端的ROPs数量为48个,3个带宽为64bit的双通道显存控制器组成了总量192bit的显存控制单元,大小为6GB。同GTX 960相比,其各项参数均有所提升,尤其是显存带宽达到了192GB/s,是GTX 960显存带宽的1.7倍。
显 卡 规 格 比 较 表 | ||||
显卡型 | GTX 1060 | RX 480 | GTX 980 | GTX 960 |
¥1999 | ¥1999 | ¥3999 | ¥1499 | |
GPU代 | GP106 | Ellesmere XT | GM204 | GM206 |
GPU工艺 | 16nm | 14nm | 28nm | 28nm |
GPU晶体管 | 4.4B | ? | 5.2B | 2.94B |
着色器数量 | 1280 | 2304 | 2048 | 1024 |
单精度浮点 | 9 T | ? | 5 T | 2.6 T |
ROPs数量 | 48 | 32 | 32 | 96 |
纹理单元数量 | 80 | 144 | 64 | 192 |
核心频率 | 1506MHz | 1120MHz | 1126MHz | 1127MHz |
boost频率 | 1709MHz | 1266MHz | 1216MHz | 1178MHz |
架构 | Pascal | GCN 4.0 | Maxwell 2 | Maxwell 2 |
显存频率 | 8012 MHz | 8000 MHz | 7012 MHz | 7012 MHz |
内存位宽 | 192 bit | 256 bit | 256 bit | 128 bit |
内存带宽 | 192 GB/s | 256 GB/s | 224 GB/s | 112 GB/s |
内存类型 | GDDR5 | GDDR5 | GDDR5 | GDDR5 |
内存容量 | 6 GB | 8 GB | 4 GB | 2/4 GB |
我们可以看到GeForce GTX 1060的默认核心频率达到了惊人的1506MHz,Boost频率更是高达1708MHz,显存带宽为192GB/s。这款产品完整支持DirectX 12 API以及异步运算,在DX12中有着更好的表现。GTX 1060的默认Pixel Fillrate能力达到了72.3Gpiexls/S,默认Texture Fillrate能力为120.5Gtexels/S。各项参数照比GTX 960均有大幅提高。
GP106-400架构图
Pascal架构GP106-400芯片由以下主要的部分组成:
1、基于TSMC的16nm FinFET工艺。
2、双单元的宏观并行结构,10组SMs单元被分为2个GPC,每个GPC包含5组SMs。
3、10组全新设计的,包含了几何引擎、光栅化引擎以及线程仲裁管理机制的SMs单元。每个SMs单元包含一组负责处理几何任务需求的PolyMorph Engine,同时均下辖5组更基本的SM单元,每个SMs单元包含8个负责处理材质以及特种运算任务如卷积、快速傅里叶变换等的Texture Array,四组并行的二级线程管理机制以及对应的shared+Unified Cache等缓冲体系。
4、GP106拥有6个32位显存控制器,总计192位,每个32位显存控制器包含8个ROPs单元和256KB二级缓存,共计48个ROPs单元和1.5M二级缓存。
5、改进型的4.0版本PolyMorph Engine,包含了为VR设计的The Simultaneous Multi-Projection Engine,在极端情况下,SMP引擎可以减少32倍VR所需的几何渲染工作量。
GTX 1060和GTX 960参数对比
在GeForce GTX 1060上,我们看到了其与上代基于Maxwell 2.0架构显卡相类似的设计,主要区别就是每个GPC中多了一组SMs单元。这就让这款显卡能够支持所有在GeForce GTX 900系列中的特性,以后使用到这款显卡的玩家能够获得与其他采用基于Maxwell 2.0架构设计的显卡的体验。
显卡全新技术解析
Simultaneous Multi-Projection技术
面对即将大爆发的VR市场,NVIDIA显然要让GPU承担起更多任务,来协助建立VR生态圈。在GeForce GTX 1080/1070的发布会上,NVIDIA为旗下VR SDK——VRworks添加了新的内容。首先是Simultaneous Multi-Projection技术,该技术直译为“同步多重投射”。
老黄讲解Simultaneous Multi-Projection技术
经常组多联屏的玩家一定知道,当屏幕组成一个小于180°的夹角,也就是两块显示器之间形成角度的时候,显卡渲染场景一直有个很难纠正的扭曲现象,就是看上去渲染的图形依然看上去是一个180°平面的图形,却被硬生生地被放在两块形成夹角的显示器上,看上去根本没有任何的扭曲和形变。换句话说,虽然显示端已经是曲面屏了,但是画面还是180°的平面,比如左边这幅图:
Simultaneous Multi-Projection技术示意
可以看到对于右边的部分GPU还是基于一个180°的平面渲染的,问题在于我们的显示器摆放是有角度的,并且呈一个弧形,但是GPU并不知道显示器之间的夹角会影响输出的图形,它只是机械的渲染,所以右边这部分场景其实是渲染错误的,正确的输出应该是如右图这个样子。Simultaneous Multi-Projection技术可以根据显示器之间的角度,在生成图像的同时动态调整图像,将渲染的场景按照一定的角度生成,也就是让生成的图像保持有角度的渲染,而不只是机械地生成一张平面,换句话说,可以将本身是平面的画面曲面化以贴合曲面的屏幕。
除了解决了这个尴尬角度的问题,Simultaneous Multi-Projection还针对VR渲染进行了特别的优化,并且引入了新的Single Pass Stereo技术,Single Pass Stereo可有效减少传统VR渲染一半的工作量,上图所示的这个场景,启用Single Pass Stereo后帧率从60~70帧增加到90多帧,提升幅度超过30%,而90帧正是VR游戏的最低要求。
Single Pass Stereo技术
VRWorks Audio技术
VR主要是通过视觉来让用户拥有身临其境的体验,然而光有视觉是不够的,想要获得足够的沉浸感,听觉也是十分重要的一环。在会上,NVIDIA展示了一项有关VR听觉的加强技术,名为VRWorks Audio,该技术是全球首款实时物理模型的声学仿真技术。
老黄讲解VRWorks Audio(图片来自BenchLife)
有物理基础的空间或3D音效,即虚拟场景内产生的音效,在到达用户虚拟的耳朵之前会受到一定的影响,这一过程后才产生的。影响的因素可能包括:由于墙壁或门的封闭,使声音呈现的静音状态;或者声音在经过多个物理表明反射后产生的回音等。
《VR Funhouse》demo
Ansel截图技术
NVIDIA发布了一个全新的截图工具,工具的名称叫做Ansel,该名称是为了纪念伟大的摄影师Ansel Adams。说起这个摄影师,它还是很有名气的,是自然风光摄影殿堂级人物,还曾获得美国公民的最高褒奖——总统自由勋章。以Ansel的名字来命名新的截图软件,一来是为了纪念这位大师,二来是为了表明,截图也可以是一种艺术。
Ansel截图技术
凭借Ansel,游戏玩家能够合成自己喜欢的游戏画面,可以在游戏世界中的任何有利位置将镜头指向任意方向。游戏玩家最高能够以32倍的屏幕分辨率捕捉屏幕截图,然后即可在截图上选择某个位置放大显示并做到不失真。凭借照片过滤器,游戏玩家可以实时添加特效,然后截取完美的照片。游戏玩家可以捕捉360度立体光球图像,以便在虚拟现实头戴式显示器或谷歌Cardboard中进行观看。
老黄讲解Ansel
没听懂?通俗点讲,就是你可以在游戏中截取一个超大的截图,这个截图是360°环绕式的,这个截图包含了所有角度和位置信息,你可以在任意一点观看在该点的游戏图像。截好了图你就可以在VR眼镜中查看了,看到的效果就如同身处在游戏中。听起来很酷炫是不是?这个截图不仅能体现在VR显示器上,还能通过APP传递给手机,通过手机也能直观的感受到这张游戏截图的震撼性。并且这项技术并非空谈,《全境封锁》、《见证者》、《巫师3》、《无人深空》、《虚幻竞技场2014》在现场都宣布将支持Ansel技术。
已经有许多大作宣布支持Ansel
显卡改进技术解析
第四代delta色彩压缩技术
显存压缩技术对于提高显卡性能是很有帮助的。同之前的NVIDIA GPU一样,全新的GTX 1080也采用了这样一种无损压缩技术。这种技术有以下几点好处:减少显存数据写入量;减少数据从显存到GPU二级缓存的数据传输量,有效增加了GPU二级缓存的容量以及降低纹理单元和帧缓存间的数据传输量。
第四代delta色彩压缩技术
显存压缩技术中最重要的一种就是“delta色彩压缩技术”,这种技术让GPU计算每一个块中像素的差异,然后将相同色彩的像素信息进行压缩,在极端状况下,压缩储存后的参考像素还不及未经压缩像素一半的大小,这无疑大大减小了数据传输量。
GTX 1060搭载了全新的增强型delta色彩压缩技术,可以更高效地实现2:1的压缩比,同时,全新的4:1、8:1高压缩比模式也已被GTX 1060所采用,这使得显存利用率再次达到一个新高度,相当于等效提升了对应比例的显存带宽。
异步运算技术
从传统角度上看,GPU主要承担的任务是图形渲染,系统会将待处理的工作按照指定流程传递给GPU,以便让图像能够以正确的顺序显示出来,这点对于图形渲染来说非常重要。而现如今随着GPU功能的不断挖掘以及架构的不断升级,许多计算、复制的工作也会交由GPU来做,如果仍然只有一条序列的话,渲染、计算、复制三项任务将会互相抢占,造成“交通拥堵”,运行效率自然大打折扣。因此多条序列分别处理渲染、计算、复制等工作才能大大提升GPU效率,这种技术就是异步运算技术。
说起异步运算技术,大家可能会首先想到AMD的GCN架构,GCN的异步着色器技术让GCN架构的A卡在DX12中拥有了出色的性能表现。随着DX12时代的全面到来,NVIDIA的全新GTX 1060自然也是在异步运算上狠下功夫。官方宣称,GTX 1060有着完全的异构计算能力,借助异构着色器,GPU可以并行处理多任务,而非按优先级进行候选或者抢占。
动态负载平衡技术
首先为大家介绍的是Pascal架构引入的全新技术——动态负载平衡。为了让大家能够更直观地了解这项技术,我们看上面这张图:横坐标是时间,纵坐标是GPU资源分配百分比,浅绿色是图形工作量,深绿色部分是计算工作量,而灰色斜纹部分为空闲。首先看上半部分的静态平衡,如果计算工作量所需的时间比图形工作量的时间长,而两个工作需要同时完成才能进行新的工作,那么进行图形工作的GPU就会有一部分闲置出来,这就浪费了GPU的性能;接着我们看下图的动态平衡,当计算工作量先完成时,负责计算工作的GPU资源就会去帮助完成剩余的图形工作,这样就不会有闲置的GPU资源,并且大大降低了工作所需的时间,这就是Pascal的动态负载平衡技术。
Pascal架构的抢占技术
然后是有关GPU抢占的技术。了解VR的朋友们一定听说过“异步时间扭曲”技术,异步时间扭曲是指在一个线程(称为ATW线程)中进行处理,这个线程和渲染线程平行运行(异步),在每次同步之前,ATW线程根据渲染线程的最后一帧生成一个新的帧。(有关异步时间扭曲的知识请参见《小菜硬件杂谈 说说VR里的异步时间扭曲》)实现异步时间扭曲需要GPU支持合理的抢占粒度,那么抢占指的是什么意思呢?所谓抢占,就是指为了使重要工作得以快速运行,GPU会选择性关闭不太重要的工作,从而提高重要工作的运行效率。Pascal架构是史上首个支持像素级抢占的GPU架构,当接收抢占请求时,Pascal的图形单元会记录下那些优先级较低的工作被中断时的位置,优先处理那些重要的工作;当抢占结束后,其余的工作从之前被中断的位置开始继续执行。
抢占在VR中的应用——异步时间扭曲(ATW)技术
Pascal的抢占不仅作用于图形工作中,在计算工作中也可以实现。线程级的抢占和像素级抢占的实现方式类似,都是停下当前优先级较低的线程块的工作,去支援优先级较高的SMs运算线程,当抢占结束后,从之前中断的地方开始继续计算工作。对于游戏来说,像素级抢占和线程级抢占相结合让Pascal架构GPU可以以极快的速度和最小的性能开销实现抢占,同时对于CUDA计算任务,Pascal也可以以最好的抢占粒度去实现抢占。
Fast Sync技术
Fast Sync是一种替代传统垂直同步的防止画面撕裂的技术。同V-Sync不同的是,开启Fast Sync后,在做到防止画面撕裂的同时能够不降低显卡的性能,也就是说Fast Sync能够实现V-Sync开启时的流畅画面,并且有着如同未开启V-Sync一样的低延迟。从下图可以看出,Fast Sync的延迟仅比关闭V-Sync时的延迟多了8ms,这点差距还是十分令人满意的。最后,Fast Sync技术可以搭配G-Sync技术一起使用,为玩家带来更好的视觉效果。
Fast Sync和V-Sync延迟对比
GPU Boost 3.0
GPU Boost是NVIDIA推出的GPU动态提速技术,能够在TDP允许的范围内,尽可能地提高GPU运行频率,进而提升GPU工作效率。全新的GTX 1060为我们带来了这个技术的最新升级版——GPU Boost 3.0。GPU Boost 3.0可以设置各个电压点的频率偏移。GPU Boost 2.0及以前的版本只能实现固定的频率偏移,也就是说频率的提升只能呈线性的方式,提升后的频率无法达到此电压下对应的最大频率。
GPU Boost 2.0与3.0之间的区别
GPU Boost 3.0就很好地解决了这个问题,频率偏移可以对应到单个电压点,而不是像之前的线性相关,这样就可以使得GPU的频率达到该电压下所能实现的最大值,大大提升了GPU Boost的效果。全新的GPU Boost 3.0还能与超频软件相结合,让玩家可以手动调整频率偏移曲线,来达到理想的GPU频率。
GTX 1060 FE拆解赏析
显卡包装设计
显卡正面外观
散热器外壳
拆下外壳后的显卡
均热板设计
拆下均热板后的显卡
尾部散热块
显卡中框及涡轮风扇
中框背面贴有导热贴
显卡PCB正面
显卡PCB背面
GP106-400核心
三星 1GB GDDR5显存颗粒
3+1相供电设计
外接供电及风扇4pin插座部分特写
6pin辅助供电线
视频接口设计
显卡所有部件一览
七彩虹非公版GTX 1060赏析
七彩虹 iGame1060 烈焰战神X-8GD5 TOP
七彩虹 iGame1060 烈焰战神X-8GD5 TOP
七彩虹 iGame1060 烈焰战神X-8GD5 TOP
七彩虹 iGame1060 烈焰战神X-8GD5 TOP
七彩虹 iGame1060 烈焰战神X-8GD5 TOP
七彩虹 iGame1060 烈焰战神X-8GD5 TOP
七彩虹 iGame1060 烈焰战神X-8GD5 TOP
七彩虹 iGame1060 烈焰战神X-8GD5 TOP
影驰非公版GTX 1060赏析
影驰 GTX 1060 HOF
影驰 GTX 1060 HOF
影驰 GTX 1060 骨灰大将
影驰 GTX 1060 骨灰大将
影驰 GTX 1060 GAMER
影驰 GTX 1060 GAMER
影驰 GTX 1060 大将
影驰 GTX 1060 大将
影驰 GTX 1060 骁将
影驰 GTX 1060 骁将
索泰非公版GTX 1060赏析
索泰 GTX 1060-6GD5 至尊Plus OC
索泰 GTX 1060-6GD5 至尊Plus OC
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!