告别「暴力堆料」，理想汽车打破车载芯片「高算力低智能」困局

当所有人都在卷算力的时候，理想汽车开始卷「数学定律」了。

作者｜周永亮

编辑｜郑玄

2026 年，智能辅助驾驶领域最大的谎言可能正在被戳破——「算力越大，车就一定越聪明」。

过去几年，车企们的军备竞赛逻辑一直很粗暴，谁的芯片算力高，谁的模型参数多，好像谁就站在食物链顶端。

但理想汽车最近放出的一篇论文，指向了一个完全不同的方向：不是比谁的算力大，而是比谁把算力用得狠，能把有限的大脑容量用得更聪明、更高效，这才是未来竞争的关键。

这篇与国创决策智能技术研究所联合发表的论文，提出了一个叫「软硬协同设计定律」的数学框架。名字听起来很学术，但它要解决的问题极其现实：在车上那块功耗有限、散热有限、成本有限的芯片里，怎么把大模型的智能榨到极致？

这不仅仅是一个工程优化技巧，也是理想为自研芯片「马赫 100」打下的理论基础。

解密「软硬协同设计定律」

聊技术之前，我们得先看清当下的行业困境。

当下，辅助驾驶的技术路线正在从规则驱动，全面转向以大语言模型为核心的 VLA（视觉-语言-行动）系统。简单说，你的车需要在本地跑一个「小型 GPT」，让它能看懂路况、理解场景、做出决策。

问题来了：云端大模型可以拿成千上万张 GPU 堆，但车上的芯片受功耗、散热和成本的约束，算力天花板是死的。

更麻烦的是，芯片团队和算法团队的节奏天然对不上。芯片那边按摩尔定律走，追求算力线性增长；算法这边按 Scaling Law 的信仰走，恨不得参数指数级膨胀。

这两条线各跑各的，导致了一个尴尬的现状：芯片的峰值性能 ≠ 实际系统效能。精心设计的模型跑在芯片上，经常无法充分发挥理论算力。为了适配硬件做的妥协，又反过来把模型变「笨」了。

这不是理想一家的痛。英伟达、苹果、谷歌全都在啃这块硬骨头。但理想的特殊之处在于，它是在 Orin 和 Thor 芯片上真刀真枪部署 VLA 大模型的过程中，被这个问题反复「毒打」过的玩家。

也许只有足够的痛，才能下定决心从根上解决。

理想和国创决策智能技术研究所给出的解法，分三步走。

他们先做了一件有点「笨」但很扎实的事：训练了 170 个不同架构的模型，评估了近 2000 个候选配置。

这意味着什么？以前解决这个问题靠「试错」。算法团队要花几周甚至几个月训练模型、上车测试，不行再推倒重来。这是一个巨大的「黑箱」。现在，给定模型超参数，不用训练就能预测最终精度。这就从「黑箱试错」变成了「白盒预测」。

但光预测精度还不够。车载大模型在运行时会产生大量临时数据，像同时打开几十个浏览器标签页一样疯狂吞噬内存。于是他们祭出了第二个武器，将经典的 Roofline 性能模型进行了「车载化革新」。

传统 Roofline 模型只考虑计算和内存带宽的平衡，但大模型跑在车载 SoC 上，还有 KV 缓存、MoE 路由、注意力机制等一堆特殊负载在抢内存资源。研究团队首次系统性地把这些因素全部纳入建模，并在英伟达 Jetson Orin 和 Thor 平台上完成了实测验证。这相当于不仅看到了发动机的极限，还算清楚了油管、进气道对速度的制约。

在两个模型的基础上，理想开发了 PLAS（帕累托最优 LLM 架构搜索）框架。你可以把它理解为一个「自动选配师」。给它输入芯片的硬件参数（算力、带宽、缓存层次）和工程约束（延迟、功耗、内存），它就能自动吐出最优的模型架构方案。

如果说，以前换一款芯片，算法团队要花几个月重新设计和调优模型。那现在，理论上一周就能搞定。

效果呢？也非常不错。优化后的模型在跟 Qwen2.5-0.5B 保持完全相同延迟的前提下，精度提升了 19.42%。同样的芯片，同样的速度，聪明了将近五分之一。

六个反直觉的发现

比这个数学定律更有冲击力的，是他们总结出了六个大的发现，都在挑战现有的芯片和模型设计常识。

其中最有冲击的一条是，决定车载 AI 实际表现的，往往不是芯片的峰值算力，而是它的内存带宽和缓存效率。

打个比方，算力像厨师的刀工，而内存带宽像传菜的速度；厨师刀工再快，菜送不上来，整个厨房照样瘫痪。这也意味着，很多发布会上被大书特书的「XXX TOPS」算力数字，可能真没大家以为的那么关键。

与此同时，另一个重磅发现同样值得芯片行业警醒：稀疏计算将成为车载 AI 的标配。理想发现，在车载这种「一次只处理一个请求」的典型场景下，一种叫 MoE（混合专家）的稀疏架构以 100% 的概率碾压了所有密集架构。

通俗地说，这就像一个拥有 16 位专科医生的医院，每次看诊只需要 1-2 位专家上场就行，而不是 16 个人一起围着你转，这既省资源又更高效。这意味着未来的车载芯片必须「天生」就懂得稀疏计算和动态调度，而不是傻乎乎地把所有计算单元一起点亮。

除此之外，三个工程层面的「坑」，同样值得关注：AI 推理分为「理解输入」和「逐字输出」两个阶段（Prefill 与 Decode），两者对硬件资源的需求截然不同。未来芯片不能是一条固定流水线，而要能根据阶段动态切换「工作模式」。

同时，传统 Transformer 模型里一个叫 FFN 的关键模块，长期沿用 4 倍扩展比，但理想的实验证明这个「祖传参数」在车上是低效的，芯片内部的计算单元配比需要重新设计。

再有，理论上把计算精度从高降到低（INT8 量化）应该快 2 倍，实际却只快了 1.3～1.6 倍。差距来自各种精度转换的「隐形税」，只有芯片从底层指令集就原生支持混合精度，才能把这笔「税」省回来。想靠压缩「白嫖」性能，没那么容易。

前五条发现，表面上各说各的，但把它们摞在一起看，指向的是同一个结论：没有万能芯片，只有最适合特定场景的芯片。这意味着，只有自己最懂自己的算法需要什么，才能造出最高效的芯片。

这也是理想自己做芯片的底层逻辑。

为马赫 100 铺路

说到这儿，这篇论文的战略意图就很清楚了。它是理想的战略拼图之一，自研芯片马赫 100。

根据披露的信息，马赫 100 是一颗 5 纳米制程的车规级芯片，预计 2026 年量产，首搭于全新一代理想 L9。其 Livis 版本搭载 2 颗马赫 100 芯片，芯片有效算力达 2560TOPS，是英伟达 Thor U 的 3 倍。

但「3 倍」这个数字本身不是重点。更重要的是，马赫 100 是一颗「算法原生芯片」。它的微架构、内存子系统、计算单元配比，不是芯片团队拍脑袋定的，而是由软硬协同设计定律「算」出来的。

打个比方，传统芯片像是先盖好房子再让住户适应户型；马赫 100 是先问清楚住户的所有需求，再定制每一面墙的位置。

落到辅助驾驶体验上，这意味着同样的功耗和散热条件下，马赫 100 能跑更大、更聪明的模型。你的车在复杂路口的犹豫会更少，对异形障碍物的识别会更快，智能辅助驾驶的体验会从「能用」更进一步迈向「好用」。

如果只把这篇论文看作理想秀一下「肌肉」，那就看浅了。

往深一层想，这篇论文真正在做的事，是重新定义车载 AI 芯片的评价体系。过去，行业评判芯片好不好，看 TOPS 算力、看制程、看参数规格，这些规则都是芯片厂商定的。但这次理想本质上在说，这些指标不够用了，真正决定系统性能的是算法和硬件之间的匹配效率。

再拉远一点看，过去十年，汽车行业的智能化经历了三个阶段：先是买芯片、跑别人的算法；然后是买芯片、跑自己的算法；现在，头部玩家开始走向第三步，自研算法＋自研算力，软硬一体。

这条路，苹果在手机上走过，谷歌在云端走过，特斯拉在 FSD 芯片上走过。它们的共同经验指向同一个结论：软硬一体，才能带来极致的体验。

理想这篇论文的意义，不在于它提出了多漂亮的数学公式，而在于它用一套可验证的方法论证明了，算法和芯片必须长在一起，才能把智能的上限真正打开。这道门槛，才是下一轮淘汰赛真正的分水岭。

论文标题：《Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs》（可点击文章最后阅读原文查看）

*头图来源：理想汽车

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

极客一问

你如何看待理想汽车的这篇论文？