作为一个新架构的处理器,Merom相比Yonah,从原来的13级管线增加至14级,在提升频率方面起到一定的作用
缓存方面,Merom分成4MB和2MB的L2两种版本,与Yonah保持一致的是,不管4MB还是2MB,都由双核心共享,这样双核运算需要的数据就可以共享了。不过在L2缓存的访问入口方面,Merom已经从Yonah的8路提升到16路(Athlon 64同样是16路)。
解码器方面,Merom比Yonah增加一个Simple解码器,令解码效率进一步提高。不过在复杂运算方面,AMD Turion 64内置的3个Complex解码器会更加优胜(例如在Science Mark 2.0科学运算中);
指令集方面,Merom在Yonah的Micro Fusion(微指令集融合)技术基础上更上一层楼,添加Macro Fusion(宏指令集融合)技术。这种宏指令集融合技术比微指令集融合技术的应用更为广泛,如If和Jump指令结合,以增加执行效率;
执行单元方面,Merom比Yonah多出一个FPU和一个IEU(IEU也是我们平常说的ALU),因此在一个时钟周期里,可以向执行单元传输3个微指令集,而Yonah只能传输2个。不过这三个FLU当中,是有固定的任务分配的。浮点乘运算必须由第三个FPU执行、浮点加运算只能由第二个只能执行,而浮点减运算则相对自由,只要第二和第三FPU是空闲在下一个周期还是空闲的就被能利用上。除此以外,传输通道从Yonah的64位升至128位,这样要执行一个SSE3的指令的话,就只需要一个时钟周期了。
·性能提升30% 英特尔Merom/Yonah比拼 Intel新一代Core微架构移动处理器Merom正式登场,将移动计算机性能推升至新纪元,究竟Merom和Yonah在微架构上有何不同、Centrino平台Napa Refresh与即将在2007年Q2面市的Santa Rosa之间差异何在!?HKEPC编辑部找来Intel Core 2 Duo T7600与上代Core Duo T2700,作性能对比测试。
全新Core微架构-- Intel Merom移动处理器
英特尔Core处理器架构
继服务器处理器WoodCrest及桌面处理器Conroe陆续面市后,新一代Core微架构移动处理器Merom亦正式登场,虽然Intel声称全新Core微架构整合Mobile架构的省电高效率及上代桌面Netburst的功能,并为多核心应用作出优化,但Core微架构却很难找到半点Netburst的影子,由于其设计接近90%是基于Mobile架构的Yonah而作出改良,仅保留Netburst架构的Prefectching,英特尔此举明显希望为上代Netburst的失误给予完美的下台阶。
尽管Intel Core微架构是基于Mobile平台的Yonah核心所设计,但却有超过7成的架构和线路被重新改良,并加入5项主要的改革,包括Intel Wide Dynmaic Execution、Intel Intelligent Power Capability、Intel Advanced Smart Cache、Intel Smart Memory Access及Intel Advanced Digital Media Boost。
Intel Wide Dynamic Execution -- Merom处理器拥有4组Decoder (3 Simple decoders + 1 Complex Decoders),比上代Yonah核心多出1组(2 Simple Decoders + 1 Complex Decoders) 可多处理1组Simple Coder指令,进一步提升每周期的执行效率及提升处理器的能源效益。
虽然Merom的Pipeline Stage由Yonah的13 Stage轻微上升至14 Stage,但Merom的Branch Predictor Bandwitdh提升20Bytes(Yonah为16Bytes), 因此其分支预测的能力及准确性效率保持相若。
此外,Merom处理器不单保留了Micro-op Fusion技术,并同时追加全新的 Macro-Fusion 技术,在旧世代的微架构中,每个指令被送来时其译码及执移动作是完全独立的,但Intel Core微架构可以让常见的指令组,例如1个Compare指令配随后拥有1个Jump指令,组合成单一的Micro-Op指令,这令Merom处理器在特定情况下每个周期有运算5组指令,据Intel表示,大部份x86程序,约每10至15个指令就会出现1组可透过Macro -Fusion被组合,因此减少了程序执行所需运算时间、提升性能却不会增加处理器的功耗,为此Intel亦改良ALU(Arithmetic Logic Unit)部份以支持Macro-Fusion技术。
Intel Intelligent Power Capability -- Merom处理器的晶体管数目对比Yonah大幅提升,功耗消耗亦会相对增加,而为令Merom处理器的功耗表现保持于合理水平,Merom加入Ultra Fine Grained省电设计,细微的逻辑控制机能独立开关各运算单元,只有需要时才会被开启,避免闲置时出现不必要的功耗浪费,称为 Sleep Transistors技术,此外,把核心各个Buses及Array采用独立控制其VCC电压,当此部份被闲置时,将会被运作于低功耗模式中,因此Merom处理器在功耗表现可保持和Yonah处理器相约。
Intel Adcanced Smart Cache -- 早在Yonah处理器中,Intel已加入了Smart Cache架构,通过核心内部的Shared Bus Router共享相同的L2 Cache,而Merom进一步加强Prefetch能力,每颗核心均拥有3个独立Prefetchers (2 Data and & 1 Instruction) 及2个L2 Prefetchers,能同时地侦出Multiple Streaming及Strided Acess Patterns,L2 Cache方面比Yonah倍增至 16-Way 256Bit 4MB容量,但Latechy却保持在12-14ns之间,令Merom处理的Cache架构性能进一步提升。
Intel Smart Memory Access -- 为了提升内存读取效率, Merom处理器加入全新的内存读取技术称为Memory Disambiguation,透过Out of Order过程把内存读取次序作出分析,当发现某数据是完全独立,则可让它提早执行以减少处理器的等候时间减少闲置,同时减低内存读取的延迟值。
Intel Adavanced Digital Media Boost -- Merom处理器拥有128Bit-SIMD interger arithmetic及128bit SIMD双倍精准度Floating-Point Operations。传统的处理器设计只有64Bit的SIMD interger arithmetic及Floating-Point Operations,因此在执行 128Bit的SSE、SSE2及SSE3指令时,需要把指令分拆为2个64Bit指令,并需要2个频率周期完成,但Core微架构则只需要1个频率调期便能完成,执成效率提升达1倍,现时SSE指令集已经十分普遍地用于主流的软件中,包括绘图、影像、音像、加密及数学运算等用途,单周期128Bit处理器能力以频率以外的方法提升性能,令处理器拥有高能源效益表现。
Merom好
标签:Merom,Yonah,区别