2026年行至年中,具身智能赛道热度仍居高不下。融资、模型、峰会、Demo 接连涌现,行业从“具身智能元年”讲到“商业化落地关键年”,叙事一轮轮翻新。

但在这片喧嚣之下,一个更底层的难题开始浮现:支撑具身模型持续迭代的高质量训练数据,正在变得越来越稀缺。行业通用的真机遥操作采集,在成本、场景和机型限制下,已经逼近数据多样性的天花板。

如果标准示教教不会机器人应对真实世界的变量,具身模型的下一批训练养分该从哪里来?

有鉴于此,大晓机器人发布并开源了全新“一脑多型”具身操作VLA模型ACE-Ego。它将大规模第一视角人类视频与多机型机器人数据联合预训练,把人类与物理世界的交互经验,转化为机器人可学习、可迁移的监督信号。

在国际人形机器人操作基准RoboCasa GR1 TableTop上,ACE-Ego以72.8%的平均成功率刷新当前最高纪录;在高难度双臂操作基准RoboTwin 2.0强域随机化测试中,ACE-Ego取得90.62%成功率,展现出突出的环境鲁棒性。



更关键的是,引入第一视角人类视频进行联合预训练后,ACE-Ego在RoboCasa上的成功率从68.3%提升至72.8%。这意味着,“借人之眼”并非简单扩充数据,而是在为具身模型打开一条更低成本、更高泛化的规模化训练路径。

目前,ACE-Ego已能稳定完成塑料袋打包、鞋子装入鞋盒等长周期、强接触的复杂零售操作,覆盖商品整理、打包履约等典型线下零售环节,突破了过去模型多停留在简单桌面抓取的能力边界。



(大晓机器人世界模型科学家李鸿升)

近日,我们专访了大晓机器人李鸿升。在他的讲述中,ACE-Ego不只是一次SOTA刷新,更是“以人为中心”ACE 研发范式在具身模型预训练中的关键落地:从遥控机器人采集数据,转向借助人类第一视角理解真实世界;从单一本体训练,走向多机型协同预训练;从实验室任务,走向可规模化落地的产业场景。



在相当长的时间里,遥控操作采集被视为行业黄金标准。建设专门的素材厂,配置专业的遥控人员,让机器人在真实本体上一丝不苟地完成动作,每一帧轨迹都被精确记录下来,成为模型学习的训练数据。这套方法论严谨、可控、精准,被大多数机器人团队奉为圭臬。但近两年,越来越多人意识到,这套标准化操作正在成为制约机器人发展的天花板。

最直观的成本压力。从场地租赁、硬件集成到专业遥控人员的配置,前期投入动辄数百万元。作为劳动密集型工作,一名熟练的遥控人员一天能采集的有效数据时长非常有限。

成本问题尚且可以通过融资来解决,但技术层面的限制更加根本。一个素材厂一旦搭建完成,场景、光照、物体位置、工作台的高度和材质就基本固定了。机器人学到的所有动作,都绑定在这套固定的物理配置之上。



李鸿升对此的感受很直接:“数据多样性的上限很低,除非你把整个素材厂搬家换布景,不然模型就困在那里了。”

这也是行业所说的泛化能力不足,真实世界的变量远超素材厂能够模拟的范围,机器人无法举一反三。在素材厂里接受训练的模型就像从小到大只做过标准试卷的学生,一旦考题稍微换了个问法就手足无措。仿真数据试图以更低的成本解决这个问题,但sim-to-real的鸿沟至今没有完美的跨越方案。

转向人类第一视角视频获取现实世界的真实数据正是对这个困局的回应。借眼入局绕开的不仅是高昂的采集成本和技术瓶颈,更是那条越走越窄的标准化答案之路。

但“借来”的眼睛看到的东西,离机器能理解的语言却还有很长一段距离。



眼睛看到了,不等于机器真的理解了。对人类如此,对机器更是如此。

人类日常操作视频最大的价值是真实、多样。不同的人、不同的场景、不同的操作习惯恰恰是实验室数据最稀缺的真实世界养分。但非结构化、无统一标准、差异极大的真实世界数据就像一本用不同方言写就的无字天书。未经处理的数据直接塞进模型里不仅成不了养料,反而会打乱已有的认知体系。

李鸿升认为,第一视角人类视频要转化为机器能够理解的信息有四道门槛需要跨越。

第一是空间坐标系不对齐。1.8米和1.5米的人胸前相机拍到的桌面角度完全不同,这些差异会让它将本质相同的操作判定为完全不同的任务。

第二是本体构型不匹配。人类的指尖捏取动作对应到双爪机器人上是夹爪闭合,二者的物理形态完全不同,如果做不到构型层面的对齐,机器就读不懂人类动作的本质。



第三是时间帧率不一致。真人视频多按固定帧率采集,而机器人的动作控制有独立的响应频率,两套时钟的基准完全不同。多源数据混合时,同样一个伸手抓取的动作在真人视频里是10帧,在真机数据里是30帧,按固定帧数切分就会打乱动作的因果顺序与节奏,让模型对动作的时间逻辑产生混乱。

第四是标签质量有误差。从视频反推的动作信息充满误差,手指末端和被遮挡部分的“伪标签”远达不到遥控数据的精度。

这四道门槛共同筑成了人机之间的认知鸿沟,也解释了为什么很多团队明知人类数据成本低、多样性高,却不敢大规模使用。



(ACE-Ego概览图)

“如果你只是简单地把人类视频和机器人数据混在一起训练,模型性能不升反降。”

人之眼看到的东西足够丰富,但唯有当它被准确转译为机器能读懂的语言时,这种丰富才真正有价值。为解决这些问题,大晓机器人团队针对每一个“不对齐”设计了对应的翻译机制。

空间上,统一第一视角坐标系。放弃以机器人本体为基准的传统思路,将所有真人视频、真机数据全部对齐到统一的第一人称视觉空间,通过几何校正抹平身高、机位、俯仰角带来的视觉差异。只有让站在同一个视角看世界,动作的相对位置、空间逻辑才能被模型统一识别。

本体上,用URDF编码构建身份体系。依托机器人行业通用的URDF构型文件,团队设计了一套可学习的编码器,给每一款机器人的躯体构型都生成专属的表征编码,同时给人类肢体分配一套共享编码。



时间上,按物理时长替代固定帧数切分。不再用固定帧数划分数据片段,转而以真实物理时间为基准对齐所有数据源。无论视频帧率多少、机器人控制频率多高,都按统一的时间窗口切割,保证伸手、抓取、抬起的动作因果序列与节奏不会被打乱,让多源数据在时间维度上实现同频。

标签上,用动态置信度过滤噪声。针对伪标签的误差问题,团队为不同关节、不同遮挡情况设置了分层权重:手腕根部等重建精度高的部位赋予高权重,指尖末端等误差大的部位降低权重;短时间遮挡轻微降权,长时间遮挡大幅降权,从损失函数层面弱化噪声数据的干扰,让模型优先学习高可信的动作信号。

这套转译体系的效果最终直接体现在了榜单成绩上。在RoboCasa GR1 TableTop排行榜上,ACE-Ego以72.8%的成功率刷新当前最高纪录夺得榜首;在RoboTwin 2.0 强域随机化测试中,ACE-Ego以90.62%的成功率展现出远超行业平均水平的环境鲁棒性。



这意味着,翻译得越准确,借人之眼才越有可能铸就机器之魂。当模型见过足够多样的人类行为和环境变化,它对单一场景的过拟合就被稀释了。

而当机器的灵魂初步成形之后,它面对的下一个问题更加棘手:市面上具身智能有各种各样的型号,这颗通用的机器之魂如何栖居进形态各异的机械躯体?



一套翻译方案跑通,意味着模型终于能看懂人类在做什么了。但看懂是一回事,用自己的身体做出来是另一回事。

人类用手捏起一个杯子,手腕旋转30度,手指自然调节力度……这一串动作对于人来说是本能。但对于一个双爪机器人来说,双爪机械手要计算开合的最大幅度、夹持的力矩阈值;吸盘式末端要规划吸附的中心点、抬起的垂直角度;即便是同一款灵巧手,臂长的差异也会让到达同一位置的关节轨迹天差地别。

同一个抓取打包的认知目标落到不同的物理躯体上,执行路径、发力方式、动作时序可能截然不同。这便是魂与躯的核心矛盾:认知内核可以是统一的,但每一副躯体都有自己的物理边界与运动规则。



行业内的主流解法始终没能跳出“一机一魂”的闭环逻辑。英伟达等玩家布局VLA模型时,大多绑定自有硬件生态,深度适配自家机器人的构型参数与运动学模型。这些模型往往只为单一机型量身打造,换一款臂长不同的同品牌机型都要重新调参,更不用说跨品牌、跨构型的迁移。

这种模式带来了几个后果。

一方面,研发成本重复投入,每一款新硬件上市,都要配套走一遍数据采集、模型训练、调试验证的完整流程,大量资源消耗在高度同质化的工作里;另一方面,模型能力被硬件出货量绑定,单款机型的数据体量天花板,直接锁死了对应模型的能力上限。高昂的适配成本让大量中小企业望而却步,只能站在具身智能的浪潮之外观望。



(ACE-Ego技术架构图)

大晓机器人从一开始就跳出了“为特定硬件定制模型”的路径依赖,提出一脑多型的设想。

在李鸿升看来,真正有生命力的机器模型不该被单一硬件的躯壳束缚。

团队找到的破局密钥藏在前文提到过的URDF构型文件里。他们设计了一套可学习的URDF编码器:每一款机器人的连杆长度、关节限位、力矩范围、自由度数量等所有物理参数,都能通过编码器映射到统一的语义表征空间。与此同时,人类肢体结构也被赋予了一套共享编码,与机器人表征处在同一个特征体系下。

打个比方,这相当于给机器之魂配了一本通用的躯体说明书翻译器。无论是什么品牌、什么构型的机械臂,只要传入它的URDF文件,这颗魂就能快速读懂这具身体的能力边界,把统一的认知目标拆解成适配当前躯体的动作序列。



预训练阶段,团队就融合了星海图、智源、银河通用三款不同构型的真机数据,让机器之魂在训练阶段就接触过不同的躯体形态,早早学会了根据身体条件调整动作逻辑。到了下游适配环节,面对从未见过的方周双臂平台,模型也能依靠URDF编码机制快速完成迁移验证。

李鸿升透露,方案落地后,简单任务仅需50—100条人类演示数据,1—2小时就能完成新机型适配,极简场景半小时即可上线。对比传统数周级的适配周期,效率提升了一个量级。

大晓机器人从模型训练起家,早期并无自有机器人本体,这份“无硬件包袱”的出身,反而让团队天然站在了开放兼容的视角上。李鸿升始终认为,机器之魂的强大,从来不靠绑定某一款硬件,恰恰相反,接入的躯体越多、吸收的数据越多元,智能内核的泛化能力才会越强,最终形成数据越多、魂越强、适配越快的正向循环。

这份开放的思路,也直接落地成了ACE-Ego的完整开源计划。

“我们不仅开放Checkpoint,还要同步开源真机任务数据集和完整训练脚本,让中小企业、学术团队拿到就能用,能快速做下游迁移。”

在他看来,具身智能还处在行业早期,没有哪家企业能独自跑完整个赛道,开源是降低行业门槛、加速整体落地的必经之路,也是让机器之魂ACE-Ego惠及更多场景的方式,降低具身操作模型的训练与迁移门槛。



技术的价值,最终要落在真实场景里。技术路径跑通了,模型能力也验证了,哪一个场景能快速解锁ACE-Ego的价值呢?

过去一年里,不少项目在融资阶段讲出了漂亮的故事,但到了交付环节却拿不出可规模化部署的产品。从demo到product,中间隔着的是场景定义的清晰度,越早想清楚“给谁用、解决什么问题”,就越有机会活过这场长跑。

对于ACE-Ego的落地节奏,大晓机器人始终保持着十足的冷静,没有喊出全场景通用的口号,而是选择零售场景作为第一块试验田。

在李鸿升看来,这是商业与技术双重理性的选择。

“如果追求一个像人类智能那样的通用模型,时间跨度会很大。但如果聚焦在特定任务上,一两年内,我们能落地很多标杆应用。”



从市场维度看,零售与前置仓赛道有着天然的落地优势。一方面,赛道整体体量足够大,分拣、打包、分装这类重复性岗位,普遍面临用工成本高、人员流动率大的痛点,品牌方与运营商有强烈的自动化替代意愿,采购需求集中且明确;另一方面,对比家居机器人零散的C端采购,零售客户以集中式采购为主,单家企业就能支撑数十台上百台的部署规模,商业化闭环的速度快得多,能让机器之魂的价值快速得到验证,也能反哺模型持续迭代。

从技术维度看,零售场景的任务边界清晰,恰好适配当前阶段的模型能力。拣货、打包、分装这类标准化操作,核心都围绕抓取、放置、操作的动作逻辑展开,任务范围可控,便于快速采集足量的人类演示数据,完成场景适配与能力验证。更重要的是,真实零售场景天然存在商品差异、包装变化、光线波动等变量,这些真实世界的“不标准”既能持续检验机器之魂的泛化能力,又不会像家居场景那样任务过于分散、环境过于复杂,是性价比极高的练兵场。

目前,ACE-Ego已稳定完成塑料袋打包、鞋盒封装、咖啡分装等典型零售作业。

谈及未来的柔性制造、工业场景,他坦言还需要补两块短板:一是靠自研的轻重两套可穿戴采集设备,大规模扩充工业场景的人类操作数据,让机器的眼睛看到更多专业场景。二是把VLA模型与自研的世界动作模型WAM打通,补足精细化操作的能力,让机器的心智更强大。

而面对当下行业里快速落地与泡沫论的两极争议,李鸿升的态度始终平和务实。在他看来,两种观点本质上指向的是不同的目标:如果期待的是像人一样无所不能的通用具身智能,那这条路注定漫长,短期内过度炒作确实容易催生泡沫;但如果把目光投向具体的产业场景,聚焦一个个边界清晰的真实任务,具身智能的落地速度远比大众想象中更快。

“具身智能有一万条赛道,每一条赛道做深了,受益面都很广。”

过去几年,具身智能的主流叙事始终围绕通用人形机器人展开。行业更习惯于先打磨出类人的物理躯体,再逐步为其赋予智能。大晓机器人则反其道而行之,选择先淬炼出一颗独立于硬件的通用机器之魂,再让这颗智能内核主动去适配形态各异的产业躯体。

这种先塑魂、再附体的思路正在打开一种新的行业可能性:具身智能的发展未必非要沿着先造人、再赋智的路径单线程推进;智能的迭代不用再被硬件进度绑定,算法层面可以持续吸收人类真实操作经验完成进化;大量中小硬件厂商不必从零搭建模型团队,接入这颗通用机器之魂就能快速赋予产品操作智能。

在数据荒漠里,这是一条需要更多耐心、更多工程细节、更多跨模态翻译的路径。但这条路一旦走通,就能绕开标准答案的囚笼,让机器真正进入人世间。