日前Meta与英伟达签署的一项多年期合同受到广泛关注,其中约定Meta不仅将采购数百万颗Blackwell和Rubin GPU,搭建大规模AI数据中心,还采用英伟达Grace CPU作为独立服务器芯片。这也是该款CPU首次实现大规模部署,表明英伟达在GPU之外,仍致力于大力推进旗下CPU产品线的发展。

而另据最新消息,AMD也在积极推进旗下Instinct MI450(基于Instinct GPU 和代号为“Venice”的第六代AMD EPYC™ CPU)的发展,其与Meta签订的最新协议中,MI450将被用于Meta下一代AI基础设施,合同金额达600亿美元。

上述事情表明,随着AI技术不断迭代发展,计算范式也在不断演进改变,并对芯片产业的竞争格局产生重大影响,单一计算单元很难满足多元需求。这使越来越多芯片大厂选择在CPU、GPU、NPU等不同技术方向上协同发力。全栈异构架构已成芯片大厂的必争之地。

全栈异构布局持续提速

2025年底至今,CPU市场掀起一波小高潮,供需失衡态势初现。有媒体报称,英特尔、AMD的服务器CPU都出现产能提前售罄的情况,部分型号交货周期达到6个月。

对此,有观点认为,这一市场热度标志着CPU在AI时代的价值回归。此前,在AI计算中GPU凭借强大的并行计算能力占据绝对主导,CPU仅承担基础的通用计算任务,使用率相对有限。但随着生成式AI、多模态模型的普及,人工智能计算范式将从“训练主导”转向“训推并重”,尤其是AI进入智能体时代以后,任务调度、工具调用等环节对CPU的依赖将大幅提升。

这一改变将推动CPU使用率的攀升。在大模型预训练和微调阶段,CPU负责数据的存储、分片与索引,将海量数据有序整理后输送给GPU集群,为矩阵乘法等核心运算提供高效支撑;在多模态推理场景中,CPU承担图像、视频的解码任务,缓解GPU的算力压力,保障多格式数据的顺畅处理。

未来AI将向边缘与端侧深度渗透,场景的多样性对算力将提出更加苛刻的要求,既要满足高强度并行计算,也要兼顾低功耗、高灵活性,单一芯片无法覆盖全场景需求,全栈异构必将成为行业标配。而这样的趋势判断,使得国际与国内芯片厂商都选择同步布局GPU、CPU乃至NPU技术,以实现多芯片的全栈异构协同,抢占市场先机。

英伟达、英特尔大厂发力

2020 年英伟达就计划以400亿美元价格从软银手中收购 Arm公司股权。这一交易虽然最终被叫停,但英伟达与Arm的合作并未结束,英伟达仍是Arm的主要用户与合作伙伴。英伟达的Grace和Vera CPU,仍然使用Arm的知识产权和指令集。去年的GTC大会上,英伟达推出GB300平台,整合Grace CPU与B300 GPU,大幅提升AI推理性能;英伟达还官宣下一代Vera Rubin平台,采用定制Arm架构Vera CPU与Rubin GPU的组合,进一步突破算力与能效极限,瞄准下一代AI推理与智能体场景,以巩固其在数据中心领域的主导地位。

英特尔在全力推进18A(1.8nm级)制程工艺落地的同时,也在加速补全GPU短板。在今年1月举办的CES展会上,英特尔发布了首款基于Intel 18A制程打造的计算平台第三代酷睿Ultra处理器(代号 Panther Lake)。值得关注的是,2026年初英特尔正式任命原高通工程高级副总裁Eric Demers担任首席GPU架构师。Eric Demers将负责设计AI加速GPU,进一步补强GPU研发实力,全力构建x86+GPU+NPU的全栈异构解决方案。



AMD一直具备CPU与GPU异构能力。去年4月,Instinct MI350 系列(CDNA4 架构)上市,主打 CPU+GPU 3D 堆叠 异构,AI 推理能效大幅提升,同时在锐龙AI系列中集成 XDNA 2 NPU,强化端侧与嵌入式 AI。前文提到的MI450 将于今年发布,采用 2nm 制程工艺与 CDNA 5 架构,将被首批用于Meta的AI基础设施当中。

高通则依托骁龙平台实现CPU、GPU、NPU的深度整合。凭借端侧生态优势,高通将全栈异构能力下沉到边缘计算与消费电子领域。

国内厂商自主突围

国内芯片厂商立足自主可控的情况下,也在加速全栈异构领域的突围。海光信息作为国内少数实现CPU与GPU同步量产的厂商,全力推进全栈异构布局。公司量产的海光三号CPU采用x86兼容架构,大幅提升数据中心通用计算能力,可高效承担AI推理中的数据调度与预处理任务;同时,其深算系列GPGPU持续迭代,兼容CUDA/ROCm生态,在AI训练与推理场景中实现国产替代,通过HSL高速互联协议实现CPU与GPU的低时延协同,已在金融、运营商、智算中心等场景规模化落地,成为国内全栈异构布局的核心力量。

阿里平头哥以RISC-V架构为基础,构建云边端一体的全栈异构方案。其玄铁系列RISC-V CPU持续拓展生态,覆盖端侧与边缘设备,为全栈异构布局提供通用计算支撑;同时,平头哥推出含光系列NPU(用于云端推理)与真武810E训推一体芯片,搭配通用GPU,形成CPU+GPU+NPU的全栈协同架构,依托阿里云生态实现大规模部署。

除了全栈布局的代表企业,国内众多厂商在特定AI领域深耕细作,结合CPU或GPU技术形成特色异构解决方案。地平线专注于车载AI芯片领域,其征程系列车载SoC持续迭代,其中征程6系列采用第三代纳什架构,集成18核心的ARM Cortex-A78AE CPU、200G FLOPS算力的GPU与四核自研BPU(NPU),最高AI算力达560TOPS,可接入24路摄像头与多种传感器,支持全场景NOA高阶智驾,通过CPU、GPU、NPU的协同优化,成为车载AI异构解决方案的标杆。

摩尔线程聚焦通用GPU研发,其MTT S系列GPU持续迭代,提升图形渲染与AI推理能力,推出的夸娥万卡集群方案实现大规模AI训练,补齐国产通用GPU短板,同时与通用CPU协同,为AI推理、工业视觉等场景提供异构算力支撑。

景嘉微在自研 JM 系列GPU的基础上,通过定增募资近40亿元,加强GPGPU研发,面向数据中心、AI训练等场景。通过控股子公司无锡诚恒微电子,完成边端侧AI SoC芯片CH37系列的研发突破,采用高集成度单芯片架构,集成高端CPU、GPU、NPU、GPGPU、ISP等处理单元,提供64TOPS@INT8的峰值AI算力。

AI推理时代的算力竞争,已从单芯片参数比拼升级为全栈系统效率的较量。CPU价值的回归、全栈异构的普及,将重塑全球芯片产业的竞争格局。国际大厂凭借技术积累、生态优势与规模效应,加速推进全栈异构产品落地与生态卡位。国内厂商则需立足自主创新,在全栈布局与垂直领域双线突破,加速实现国产替代。