瓯半秮鞚8月22-24日,第22届HotChips高性能芯片大会在美国加州帕洛阿尔托市的斯坦福大学隆重举行。IBM、英特尔、AMD、Oracle等多家巨头齐聚一堂,各自公布了自己的最新成就。会议上提到的像是硅光子技术、AMD新处理器架构等都是业界关注的线日第七场新处理器架构的会议上,AMD院士兼推土机总设计师MikeButler、AMD院士兼山猫总设计师BradBurgess公布了“推土机”(Bulldozer)、“山猫”(Bobcat)两款全新处理器架构的更多技术细节。
今天我们主要想说的是Bulldozer。推土机架构Bulldozer主攻性能和扩展性,面向的是主流客户端和服务器领域。可以说推土机是AMD彻底重新设计的核心,将成为AMD下一代高性能处理器技术,用于客户端和服务器领域,相比于Opteron6100系列会增加33%的核心、大约50%的性能。
Bulldozer芯片的基本构建块是AMD所谓的“模块”,带有一个有自己L1缓存的单线程四通道的整数单元。这个模块中2个这样的整数单元,以及2个128位浮点计算单元;所有4个这单元共享指令集和解码单元,以及共享的L2缓存、共享的L3缓存和共享的北桥来连接到外围设备。这样2个Bulldozer就有一个共享的浮点调度器和两个整数调度器;如果整数单元空闲的话,这个四核芯片就可以在一个时钟频率内执行4个双精度或者8个单精度读点运算。
推土机将采用新的模块化设计,每个模块拥有两个四管线核心,彼此共享一个浮点调度器和两个128位乘法累加单元(FMAC)。两个核心都拥有自己的整数调度器、一级数据缓存,并预取、解码单元和二级缓存。新架构还将有全新的x86指令集支持,包括SSE4.1、SSE4.2、AVX、XOP。
除了高性能计算领域之外浮点运算量并不多,这种浮点调度器共享设计能大大节省晶体管、核心面积、功耗,降低成本;两个FMAC单元既可以被每个核心单独使用,也可以合并组成一个256位FMAC单元,当然这需要程序代码做相应改变。为了获得最大程度的性能功耗比,推土机架构还会在共享、专用单元之间动态切换。
2AMD推土机“Bulldozer”模块化设计回顶部推土机的模块可以通过HyperTransport高速点对点总线多个累加在一起,组成更多核心产品,比如代号英特拉格斯的Opteron6200系列服务器处理器就有6-8个模块、12-16个核心,代号巴伦西亚的Opteron4200系列则有3-4个模块、6-8个核心,它们会分别取代现有的8-12核心Opteron6100系列、4-6核心的Opteron4100系列,均采用GlobalFoundries32nmSOI工艺制造。
AMD表示,模块化设计能够加速芯片开发、提高产品灵活性,同时对硬件、操作系统、应用软件来说都是透明的。
推土机支持更先进的电源管理技术。因为浮点单元上的共享,每个模块内第二个浮点核心所需要的电路只占总核心面积的12%,从芯片级别上讲这只会给整个内核增加5%的电路。这样就提高了单位功耗和成本的性能。
如果AMD不做任何改变,只是将2个6核的设计变成1个16核,单是这样就会使性能提高33.3%。但是共享组件的1.8倍调整意味着核心数能让你在每个时钟周期内获得20%的性能提升。因此其他30%是来自于核心变动和主频的提高。
主频2.75GHz也更加接近面向2路系统的至强5600的2.93GHz,略高于面向2路、4路和8路的至强7500。
Bulldozer核心有2个独立的ALU流水线管线数据缓存,另外有单个FP集群配合2个ALU集群。PhenomII核心具有4管线的ALU流水线集群,但是Bulldozer核心却配备了2个集群。
Bulldozer将会支持AVX,这暗示了在FPscheduler后会有2个128-bitFMAC单元。AMD将会保持当前PhenomII架构的三级缓存设计。负责整数运算的资源同样也翻倍,包括调度器和d-caches,线程间只有FP资源实现了共享。
AMD高级副总裁兼技术事业部总经理ChekibAk表示:“我认为,Bulldozer和Bobcat不仅是AMD悠久创新历史中最伟大的两项技术成就,而且也是行业中最重要的两大成果。利用这两款内核构建CPU和APU,我们期待着我们的客户开始新一轮的PC规格创新,并为用户提供新的高性能计算体验。”
|