010-51299456

J9九游会官方网站AMD 推土机系列CPU构架2024-01-26 09:50:39

  J9九游会官方网站AMD 推土机系列CPU构架如今的典型数据中心负载都以整数运算为主,浮点运算只占很小一部分,所以绝大多数情况下一个庞大的256位浮点单元只会白白消耗内核面积和功耗,坐视整数单元忙得要死。推土机通过在两个整数核心之间共享一个256位浮点单元,既节省了内核面积和功耗,也能灵活满足实际负载需求。

  AMD推土机架构采用了模块化设计,每个模块内有两个整数核心和一个浮点核心,各自搭配专用的调度器,而且浮点核心可为两个整数核心所共享使用。因为有自己的调度器,浮点核心不必依赖整数调度器去安排浮点命令,也无助整数资源去执行256位命令。

  采用Turbo Core技术,最多可以使所有核增速500兆赫兹,如果再关闭一些核运转的情况下,加速将会超过500兆赫兹。同时AMD对内存进行了进一步优化,从而提高内存的吞吐量。

  通过该技术关键是只在有工作负载要求时才加速,这也就意味着整个处理器达到高利用率时,这个技术才会启动从而导致能耗提高,一般情况下用户不会看到能耗提高。

  Flex FP弹性浮点单元由两个128位FMAC(乘法累加器)组成,每一个都可以在每时钟周期内执行FM

  AC、FADD(浮点加法)、FMUL(浮点乘法),而Intel的架构中只能通过单个FADD管线执行FADD指令,FMUL亦然。有了FMAC单元,乘法和加法命令不会像标准

  FADD、FMUL那样拥堵在一起,两个单元都可以灵活处理这些计算命令。如果一个程序只使用FADD,那么两个FMAC单元都可以全力执行FADD。

  单精度命令都是32位的,双精度则是64位。使用今天标准的128位浮点单元,可以在一个时钟周期内并行执行四个单精度命令或者两个双精度命令J9九游会官网。有了AVX效率就可以翻一番,亦即每时钟周期内执行八个32位单精度命令,或者两个64位双精度命令。

  同时AMD“推土机”中引入了一个全新的性能加速技术,叫做Turbo Core,Turbo Core技术主要是指对于一些没有完全消耗到最大程度的工作负载,去加快时钟速度。在多种不同工作负载上,使用了Turbo Core可以最大增加500兆赫兹的性能。最重要的一点,Turbo Core加速指的是所有核的加速,不同以往的核加速技术可能需要关闭一些核,只对部分核进行加速。

  Flex FP的设计理念对降低功耗也大有好处,能让设计人员在同样的功耗指标下放入更多繁忙的整数单元。事实上,Flex FP的设计目标之一就是将其空闲功耗降至峰值功耗的区区2%。

  Flex FP的美妙之处在于它既是单个256位浮点单元,又被两个整数核心所共享。每个时钟周期内,每个整数核心都可以通过两个128位指令或者一个256位指令来来操作256位并行数据,或者每个整数核心同时执行128位命令。

  对于应用程序来说,256位AVX指令集需要它们重新编译才能充分利用,这显然需要时间和反复测试,因此AVX的普及也不会是一朝一夕的事情,而灵活的Flex FP浮点单元设计有望加速这一进程。Turbo Core新技术

  此外,所有Bulldozer架构处理器产品都会有Turbo Core技术,而不是仅限于只在高端产品开放,从而给用户带来更多成本效率。Turbo Core可以使所有的核一起加速,“推土机”的每个核心在空闲、典型负载、最大负载三个状态的能耗要比皓龙6100更低,并且针对FP、缓存等单元进行能耗优化,在整体上降低芯片的能耗。

  顺便再说说AES。如果应用程序符合美国商务部FIPS 197加密标准,AES就能为其实现硬件加速。推土机的Flex FP单元也能执行这些一次16个字节的指令,速度为每时钟周期一个,是现有带宽的两倍。

  这种硬件设计对BIOS、软件编程来说也并不复杂,可以随着每个处理器时钟周期儿变化,以满足特定时刻的需求。以下是每个周期内的四种可能场景: