酷睿Ultra揭开面纱 一文看清Meteor Lake核心

图文丨魔之左手

对很多年轻的小伙伴来说,“酷睿i”就是英特尔主流消费级处理器的唯一名称,尽管核心不断变化,架构不时更新,但十几年不变的品牌稳如泰山。然而……时代已经变了,自从年中酷睿Ultra这一新品牌推出,相关的传言就从未断绝,它将是取代酷睿i系的新品牌吗?又为何会成为新系列呢?就在刚刚的英特尔on技术创新大会上,Meteor Lake核心,也就是酷睿Ultra的细节终于公布了,就让我们第一时间来探究一下它的奥秘吧。

○Intel 4工艺 一切的基础

Intel 7工艺(约相当于10nm线宽)带来的良好感受余韵还未退去,Meteor Lake核心又将带来更新的Intel 4工艺(大约相当于7nm线宽)制程。没错,在14nm工艺之前那种极速的工艺升级又回到了英特尔产品之上,甚至会以相当瞩目的速度再次追赶和超越业界的先进水平。4年5个节点的目标正在逐步实现,如果能够全面完成的话,明年这个时候,英特尔将再次站在业界工艺的巅峰。

梦幻般的Intel 20A/18A还是先放在一边,还是让我们先看一看Intel 4工艺及相应设计将带来哪些变化吧。最直观的一点当然是更精细的线路和更大规模的集成,与Intel 7相比,Intel 4实现了两倍的面积微缩,同样功能的晶体管只需要1/2的面积,反之,在同样的面积上可以容纳两倍数量的晶体管。

不过Intel 4不是简单的微缩版Intel 7,要想充分利用新工艺,让相应产品有着更好的表现,还必须在芯片设计、制造上做出创新。例如在Intel 4制程中使用标准化连接结构,在设计上更加便利;支持低电压(<0.65V)和高电压(>1.1V)运行,则使其功率性能比Intel 7产品提高了20%以上;高密度MIM(金属-绝缘体-金属)电容器的密度提高了约2倍,可以提供更卓越的供电性能,让Intel 4产品能更灵活地控制功率,为更高的性能及功率性能比打下基础。

Intel 4更精细的线路和更大规模的集成,似乎即将为我们提供“大即是美”的新一代酷睿核心,但事情并没有这么简单。比如英特尔引进的EUV(Extreme Ultra-violet极紫外光刻)设备价格就高达1.8亿英镑,约合2.2亿美元(作为对比,更低制程使用的DUV光刻机目前报价约8000万美元),使得生产成本飙升,另外更加精密的线路还会出现更明显的电子迁移、低良率等问题,这些又如何解决呢?

针对新工艺的产线成本问题,除了大规模生产获得的成本自然摊薄之外,Intel还在引入EUV技术的同时,充分开发、利用了新型光刻机的功能简化工艺流程,比如减少设计层数,降低掩膜数量等,更高的效率也能在一定程度上降低单位制造成本。

从很早的时候,芯片制造就会被一种物理现象困扰,那就是电子迁移,甚至在早期曾经有人预言不可能制造10nm或更小带宽的芯片,原因就是在这一线宽下的电子迁移数量(漏电)将大到影响正常的线路电流,进而无法进行正常的运算,甚至因为线路间的电流直接击穿而破坏芯片结构。如今这一难题已经通过改变线路与绝缘材料等方式得到了大幅缓解,使得制造工艺远远下探到10nm以下,而在Intel 4工艺中,也包括了进一步改进材质等措施,以尽量减少电子迁移的影响。

至于良品率,除了前面提到的利用EUV技术简化工艺之外,其实还有另一个途径,那就是小芯片制造、封装工艺,也就是Foveros封装。

○新形态构架 Foveros封装

如果我们拆开一块酷睿Ultra处理器,看到的是似乎完整但却有细微间隔的硅片,它们其实是以Foveros封装的多个小芯片。作为一种3D封装,其内部的各个小芯片间可以直接连接(嵌入式多芯片互连桥接EMIB),因此除了最底部的基础层外,相互间无需使用介质层,得以大幅降低了间距,还可以更方便地进行多层堆叠。

Foveros封装对芯片性能、功能、乃至成本也都有着巨大的好处。首先,芯片“直连”的模式可以实现更低的功耗、更大的带宽,提升整体性能;其次是可以更容易地替换、增减芯片模块,定制针对不同用途、市场、价位的产品,快速设计、测试、上市。

采用Foveros封装后,英特尔完全可以通过为每个区块选择最适合的芯片工艺,在最新产品中集成一些使用部分旧工艺打造的功能模块,继续保持旧生产线的运转,而让新生产线用于更重要区块的制造。此外,面积较小的芯片或多种芯片的组合都可以提升对晶圆面积的利用率,且良品率相对较高。

Foveros封装下,拥有全新架构的全新酷睿,在功能与性能表现上又会有哪些亮点呢?首先就是当前最热门的计算需求——AI。

○AI加强 走近新时代

作为当前AI领域的领军者之一,英特尔早已开始在酷睿处理器为AI时代进行着准备,例如在11代酷睿中就已经出现了环境噪音过滤等基于内置AI处理的功能,而Meteor Lake核心的酷睿Ultra更是为PC转型、桌面AI时代深入优化的产品。其内置GPU当然是如今最普遍使用的AI加速结构,且增强了AI处理能力,CPU单元则适合一些轻量级、低延迟的AI任务,更有专用的AI加速器——神经网络处理单元NPU。

Meteor Lake核心的NPU支持标准化编程接口,可以支持大量主流AI应用。它拥有两个神经计算引擎(Neural Compute Engine)、DMA引擎及内置暂存。神经计算引擎则带有推理管道(Inference Pipeline)、可编程数字信号处理器(SHAVE DSP)等组件,支持高效灵活的矩阵乘法和卷积,可进行多种浮点精度和数据类型转换。这款NPU还带有先进的电源和设备管理、工作负载调度等功能,据称可以提供8倍的能效提升。

如今基于PC的AI需求正在逐步提升,但显卡GPU负责的桌面、游戏、浏览器等图形加速任务已经非常繁重,如果再全面承揽越来越重的AI处理任务,则对中端、主流显卡来说已经有些勉为其难,对高端显卡的功耗、噪声也有明显影响影响。而在基于酷睿Ultra的PC中,我们完全可以将一些常见但相对简单的AI任务给CPU处理。例如在游戏、直播、电话会议中,需要用AI生成游戏场景、背景画面时,就可以让GPU负责画面/动态画面部分,让酷睿处理器来应对语音合成/过滤,甚至是静态画面,可以为独显明显减负,降低PC发热量与噪声,这点对于酷睿Ultra主要面对的移动电脑也更有意义。

另一方面,即使是没有配备中高端独显,通过合理分配AI运算负载,我们也可以得到远高于传统处理器的性能。Meteor Lake核心会根据需求和内置模块的优势在GPU、CPU和NPU之间分配AI计算任务,在实际测试中可以看到,通过NPU可以获得最高效率的AI计算,而NPU与内置GPU的配合则可以提供最高性能及次高效率的处理能力。

○架构的异同 酷睿Ultra的新野望

在核心单元配置上,Meteor Lake的主要部分仍然是性能核(Redwood Cove核心)和能效核(Crestmont核心)搭配的计算单元、Xe LPG显卡单元、内存控制器、雷电4与PCIe 5控制器等I/O单元,可以充分保证与当前软硬件平台的兼容性,但在细节上的变化同样不可忽视。最显眼的,当然就是其多个模块中最大、也是位于最中心的一块——SoC模块(SoC Tile)了,其上除了前面提到的NPU之外,还包含了另一个特色单元“低功率计算岛”。

在计算单元之外部署的这块计算“飞地”看似突兀,但与周围环境结合,我们也许能解读出Meteor Lake核心,也是酷睿Ultra系列的新定位和新目标。在低功率计算岛周围,也就是SoC模块上,包含了所有最基本的控制器如内存控制器、显示控制器、网络控制器,甚至还不惜“浪费”面积将媒体处理单元融入其中。如果不出笔者意料的话,在实际使用中,从低功耗待机到网络应用,再到日常影音播放、简单的办公使用,乃至包含AI处理的音视频通讯中,SoC模块都极可能具有独立运行并轻松应对的能力,完全无需激活,或者仅需要少量/短时的GPU、CPU、I/O模块配合。这些占据了大部分用户、大部分使用时间的应用场景能够以极低的功率、发热量和效率运行,对于一款移动平台来说,将是使用体验的大幅提升。

从应用能力来看,基于酷睿Ultra的笔记本本完全可以在类似的应用环境下实现类似于手机/平板电脑的续航能力,那么在软件优化充分的情况下,将首先极大地冲击平板电脑市场,一款日常使用像平板电脑,接上键鼠就是标准PC的设备会是很多用户的理想选择。退一步讲,酷睿Ultra作为UltraBook(超极本)到EVO的精神继承人应该也完全没有问题,全天的使用、超长低功耗待机等英特尔曾经为轻薄本制定的目标,也许在酷睿Ultra的加持下,会成为主流笔记本电脑的基本能力。

当然,SoC模块也不是自己在战斗,它的核心布局使其能够方便地连接性能更强、优化更好的GPU和CPU模块,并快速利用它们的功能。此时不管是各种传统计算性能还是AI能力,都会有一个质的飞跃。这种几乎判若两“芯”的能力,则是之前处理器难以做到的,对笔记本电脑用户来说,也绝对是一次体验的飞跃。

○从“芯”起飞的电脑新时代

在架构设计、芯片制造、用户接受度、软件匹配等很多方面,Meteor Lake核心,或者说酷睿Ultra要面对的问题还非常多,它是否能有着出色的表现,实现理想的目标,甚至是否能实现设计初衷,都有待未来的检验。但不可否认的是,它的新概念、新制程、新架构、新形态对已经沉寂许久的PC市场,将是一次有力的推动。从“芯”起飞的酷睿Ultra,希望它能带给我们一个全新的电脑时代吧。