英伟达大举进军CPU，AI推理时代大厂加速推进全栈异构布局,英伟达ai芯片

日前Meta与英伟达签署的一项多年期合同受到广泛关注，其中约定Meta不仅将采购数百万颗Blackwell和Rubin GPU，搭建大规模AI数据中心，还采用英伟达Grace CPU作为独立服务器芯片。这也是该款CPU首次实现大规模部署，表明英伟达在GPU之外，仍致力于大力推进旗下CPU产品线的发展。

而另据最新消息，AMD也在积极推进旗下Instinct MI450（基于Instinct GPU 和代号为“Venice”的第六代AMD EPYC™ CPU）的发展，其与Meta签订的最新协议中，MI450将被用于Meta下一代AI基础设施，合同金额达600亿美元。

上述事情表明，随着AI技术不断迭代发展，计算范式也在不断演进改变，并对芯片产业的竞争格局产生重大影响，单一计算单元很难满足多元需求。这使越来越多芯片大厂选择在CPU、GPU、NPU等不同技术方向上协同发力。全栈异构架构已成芯片大厂的必争之地。

全栈异构布局持续提速

2025年底至今，CPU市场掀起一波小高潮，供需失衡态势初现。有媒体报称，英特尔、AMD的服务器CPU都出现产能提前售罄的情况，部分型号交货周期达到6个月。

对此，有观点认为，这一市场热度标志着CPU在AI时代的价值回归。此前，在AI计算中GPU凭借强大的并行计算能力占据绝对主导，CPU仅承担基础的通用计算任务，使用率相对有限。但随着生成式AI、多模态模型的普及，人工智能计算范式将从“训练主导”转向“训推并重”，尤其是AI进入智能体时代以后，任务调度、工具调用等环节对CPU的依赖将大幅提升。

这一改变将推动CPU使用率的攀升。在大模型预训练和微调阶段，CPU负责数据的存储、分片与索引，将海量数据有序整理后输送给GPU集群，为矩阵乘法等核心运算提供高效支撑；在多模态推理场景中，CPU承担图像、视频的解码任务，缓解GPU的算力压力，保障多格式数据的顺畅处理。

未来AI将向边缘与端侧深度渗透，场景的多样性对算力将提出更加苛刻的要求，既要满足高强度并行计算，也要兼顾低功耗、高灵活性，单一芯片无法覆盖全场景需求，全栈异构必将成为行业标配。而这样的趋势判断，使得国际与国内芯片厂商都选择同步布局GPU、CPU乃至NPU技术，以实现多芯片的全栈异构协同，抢占市场先机。

英伟达、英特尔大厂发力

2020 年英伟达就计划以400亿美元价格从软银手中收购 Arm公司股权。这一交易虽然最终被叫停，但英伟达与Arm的合作并未结束，英伟达仍是Arm的主要用户与合作伙伴。英伟达的Grace和Vera CPU，仍然使用Arm的知识产权和指令集。去年的GTC大会上，英伟达推出GB300平台，整合Grace CPU与B300 GPU，大幅提升AI推理性能；英伟达还官宣下一代Vera Rubin平台，采用定制Arm架构Vera CPU与Rubin GPU的组合，进一步突破算力与能效极限，瞄准下一代AI推理与智能体场景，以巩固其在数据中心领域的主导地位。

英特尔在全力推进18A（1.8nm级）制程工艺落地的同时，也在加速补全GPU短板。在今年1月举办的CES展会上，英特尔发布了首款基于Intel 18A制程打造的计算平台第三代酷睿Ultra处理器（代号 Panther Lake）。值得关注的是，2026年初英特尔正式任命原高通工程高级副总裁Eric Demers担任首席GPU架构师。Eric Demers将负责设计AI加速GPU，进一步补强GPU研发实力，全力构建x86+GPU+NPU的全栈异构解决方案。

AMD一直具备CPU与GPU异构能力。去年4月，Instinct MI350 系列（CDNA4 架构）上市，主打 CPU+GPU 3D 堆叠异构，AI 推理能效大幅提升，同时在锐龙AI系列中集成 XDNA 2 NPU，强化端侧与嵌入式 AI。前文提到的MI450 将于今年发布，采用 2nm 制程工艺与 CDNA 5 架构，将被首批用于Meta的AI基础设施当中。

高通则依托骁龙平台实现CPU、GPU、NPU的深度整合。凭借端侧生态优势，高通将全栈异构能力下沉到边缘计算与消费电子领域。

国内厂商自主突围

国内芯片厂商立足自主可控的情况下，也在加速全栈异构领域的突围。海光信息作为国内少数实现CPU与GPU同步量产的厂商，全力推进全栈异构布局。公司量产的海光三号CPU采用x86兼容架构，大幅提升数据中心通用计算能力，可高效承担AI推理中的数据调度与预处理任务；同时，其深算系列GPGPU持续迭代，兼容CUDA/ROCm生态，在AI训练与推理场景中实现国产替代，通过HSL高速互联协议实现CPU与GPU的低时延协同，已在金融、运营商、智算中心等场景规模化落地，成为国内全栈异构布局的核心力量。

阿里平头哥以RISC-V架构为基础，构建云边端一体的全栈异构方案。其玄铁系列RISC-V CPU持续拓展生态，覆盖端侧与边缘设备，为全栈异构布局提供通用计算支撑；同时，平头哥推出含光系列NPU（用于云端推理）与真武810E训推一体芯片，搭配通用GPU，形成CPU+GPU+NPU的全栈协同架构，依托阿里云生态实现大规模部署。

除了全栈布局的代表企业，国内众多厂商在特定AI领域深耕细作，结合CPU或GPU技术形成特色异构解决方案。地平线专注于车载AI芯片领域，其征程系列车载SoC持续迭代，其中征程6系列采用第三代纳什架构，集成18核心的ARM Cortex-A78AE CPU、200G FLOPS算力的GPU与四核自研BPU（NPU），最高AI算力达560TOPS，可接入24路摄像头与多种传感器，支持全场景NOA高阶智驾，通过CPU、GPU、NPU的协同优化，成为车载AI异构解决方案的标杆。

摩尔线程聚焦通用GPU研发，其MTT S系列GPU持续迭代，提升图形渲染与AI推理能力，推出的夸娥万卡集群方案实现大规模AI训练，补齐国产通用GPU短板，同时与通用CPU协同，为AI推理、工业视觉等场景提供异构算力支撑。

景嘉微在自研 JM 系列GPU的基础上，通过定增募资近40亿元，加强GPGPU研发，面向数据中心、AI训练等场景。通过控股子公司无锡诚恒微电子，完成边端侧AI SoC芯片CH37系列的研发突破，采用高集成度单芯片架构，集成高端CPU、GPU、NPU、GPGPU、ISP等处理单元，提供64TOPS@INT8的峰值AI算力。

AI推理时代的算力竞争，已从单芯片参数比拼升级为全栈系统效率的较量。CPU价值的回归、全栈异构的普及，将重塑全球芯片产业的竞争格局。国际大厂凭借技术积累、生态优势与规模效应，加速推进全栈异构产品落地与生态卡位。国内厂商则需立足自主创新，在全栈布局与垂直领域双线突破，加速实现国产替代。