出品|虎嗅科技组

作者|宋思杭

编辑|苗正卿

头图|视觉中国

在距离曾经的“AI四小龙”之一旷视科技不到1km的地方,有一家机器人公司。它的标识很像 X(原 Twitter)的 Logo。这家公司的英文名叫 Dexmal,中文名叫原力灵机。

正月十六,我来到原力灵机的这一天,北京下了 2026 年的第一场大雪。这家成立快一年的具身智能公司,正在装修新的工区,因为今年公司正准备再扩招一倍人手。

13 年前,旷视刚成立的时候,联合创始人唐文斌曾经让人去买一个钢铁侠模型。那是他们当时对未来的想象——机器人。这也是他和旷视创始人印奇在大学时期就想做的事情。只不过后来阴差阳错,他们买回来的不是钢铁侠,而是一只“大黄蜂”。

在很长一段时间里,这个念头被放在了更现实的商业路径之后。

一年前,也就是2025年3月,唐文斌成立这家机器人公司。他想把曾经在旷视没来得及完成的事情,或者说在上一个“AI 四小龙”时代还做不到的事情,重新捡起来。

唐文斌最喜欢的一项运动是滑翔伞。这是一项需要不断和气流、天气、地形博弈的运动。去年,他甚至去参加了世界杯级别的比赛。

在很多人的印象里,滑翔伞是一项典型的极限运动。但唐文斌并不这样看。他不认为这是一项特别危险的运动,也不觉得自己是一个激进或者爱冒险的人。

相反,在过去很长一段时间里,他甚至有些偏保守。

在面对时代机遇和技术浪潮时,他现在回过头来看,会觉得自己当年错过了一些机会。唐文斌也坦诚,在旷视时期,自己做过不少错误判断,一些决策上的谨慎,某种程度上也让公司错失了一些窗口。

如果重新梳理旷视当年的创始团队,会发现他们在 AI 新周期里走向了不同方向:有人开始做大模型,有人转向智驾,也有人选择进入具身智能。

但和许多同行相比,唐文斌对当下这波具身智能热潮的判断反而显得有些冷静。

在他看来,今天很多机器人产品仍然停留在提供“情绪价值”的阶段,比如陪伴、展示或者表演式的能力,而他真正想做的,是能够创造功能性价值的机器人。

这也是他对成熟机器人的一个核心判断标准——机器人的“智商”,也就是机器人的“大脑”。

也正因为如此,他给原力灵机选择了一条相对少见的路线:先做模型,再做本体。在原力灵机的理念里面:模型解锁场景,场景定义硬件。

而在今天的具身智能行业,这其实只是众多技术路线中的一种。

有的公司选择先把本体硬件做出来,再逐步补齐大脑能力;有的公司选择软硬件同时推进;也有像原力灵机这样,从软件和系统能力切入,再去反推硬件形态。

三种路径背后,代表的是完全不同的技术理念,也意味着不同的商业逻辑。

更重要的是,这个行业本身仍然处在极早期阶段。无论是技术路线、产品形态,还是商业场景,都远没有形成共识。它还没有迎来属于自己的“ChatGPT时刻”。

唐文斌判断,未来行业一定会逐渐收敛,但这种收敛,大概率不会像今天的大模型行业那样,只剩下寥寥几家头部公司。

机器人是一门更复杂的工程。它不仅涉及算法,还涉及机械结构、传感器、控制系统以及真实世界中的各种物理约束。不同路径的公司,可能会在不同场景里找到各自的位置。

某种意义上,这也是为什么在今天这个时间点重新创业,对唐文斌来说既像是一种延续,也像是一场新的尝试。

在接下来的对话中,他详细讲述了自己离开旷视之后的思考、原力灵机的技术路线选择,以及他眼中这个尚未真正成熟的具身智能行业。

以下是虎嗅与原力灵机(Dexmal)创始人唐文斌的对话,有删减。


“把旷视没做完的事情延续下去”

虎嗅:你最初萌生做机器人这个想法是什么时间?

唐文斌:其实我们很早就想做机器人了。旷视最早成立的时候,我们给自己起这个名字——“旷视”,本身就意味着“大的视觉”。当时我们的一个核心想法,就是希望让机器先“看懂世界”,也就是先把机器人的“眼睛”做好。

所以我们最早的技术路线,其实就是从视觉开始的。

差不多从 2018 年左右,我们内部已经有一块业务在做物流机器人。我们当时的想法很简单,就是用机器人去帮助仓库完成一些重复、繁重的工作,让仓库实现“省人、省力、省钱、省心”。所以严格来说,我们做机器人这件事,其实已经想了很多年。

只是今天大家重新谈机器人,是因为技术条件发生了一些变化。特别是大模型出现之后,很多人开始相信,可以通过端到端的方式去驱动机器人,让机器人具备更强的通用能力和泛化能力,这也是为什么最近整个行业会变得非常兴奋。

其实我们在大学的时候就已经有这个想法了。旷视刚成立、第一次搬办公室的时候,我们还专门在前厅摆了一个机器人的形象,算是一种象征,表达我们未来真正想做的事情。

公司里还有一个老梗。当时我们本来是想让行政帮我们买一个“钢铁侠”,结果最后买回来的是“大黄蜂”。后来大家就一直调侃,说大黄蜂其实不是机器人,它是外星生物。

虎嗅:现在旷视是什么状态?

唐文斌:旷视其实一直还在,公司整体业务也还不错,目前还是在一个比较稳健的增长过程中。公司内部也还有非常好的团队在持续推进各个业务。

虎嗅:我可以理解为,你们其实是把上一代“AI四小龙”时代没有做成,或者当时做不到的事情,在新公司里重新延续下去吗?

唐文斌:我觉得确实是有一定延续性的。

从旷视成立开始,我们一直想做的事情,其实是希望用 AI 去改变现实世界。最早我们是以摄像头为载体做视觉能力,后来以手机为载体,再往后其实我们一直希望能走到新的载体上,比如车、机器人。

所以从这个角度来说,我们想做的事情本身是连续的。

只是今天旷视已经变成了很多不同的业务板块,各个团队在不同方向上发展。我们现在做的新公司,其实也是在寻找一个更适合当前阶段的形态,把原来的一些技术积累继续往前推进。

虎嗅:能不能再具体讲一下,从旷视到 Dexmal,这种延续性具体体现在哪里?

唐文斌:旷视内部其实做过一次结构调整。简单来说,我们把业务拆成了两部分:一部分仍然留在旷视主体里面,另一部分则放在新的业务结构里。

在新的业务体系下,其实有几个不同的板块。

第一块是做身份认证相关的业务,比如刷脸认证等。很多大家日常用到的人脸认证服务,背后其实都是我们在提供技术能力。

第二块是给手机厂商提供视觉算法能力,比如人脸识别、影像优化等,主要服务像华为、小米、OPPO、vivo 这样的厂商。

第三块是物流机器人业务,通过托盘四向车、AGV 以及调度系统,去提升仓库的运作效率。

第四块是自动驾驶业务。原来在旷视内部叫 MagicRide,现在已经独立出来,后来发展成了千里科技。

所以整体上看,现在更像是“1+4”的结构:其中这四个业务板块就在新的体系里继续发展。

而 Dexmal 的机器人业务,本质上也是在这个体系里拆分出来的一块新业务。我们希望通过数据驱动、模型驱动的方式去做通用型机器人。同时,它和原来物流机器人业务之间也会有很多合作关系。

虎嗅:这算是重新创业了,和过去相比,你现在的心态有什么变化吗?

唐文斌:我觉得既有一样的地方,也有不一样的地方。

一样的是,我们想做的事情其实没有变。我也很庆幸,很多一起创业的兄弟还在,我们还是在一起做事情。

但不一样的是,我们确实经历过一些判断失误,所以这一次会更希望把事情做得更好。

技术的发展其实经常会超出我们的预期。从最早的深度学习,到 Transformer,再到今天的大模型和机器人,每一次技术浪潮的发展速度,其实都比我们原来预期的更快。

在这种情况下,我们需要重新思考自己的节奏——比如什么时候投入、投入多少、要不要去做一些更大胆的事情。

另外一个变化是在商业上。现在我们会更关注一个问题:用户价值是不是足够清晰?我们到底为用户创造了什么价值?

这些问题在早期创业的时候,其实想得没有那么多,但现在会看得更重。

虎嗅:你刚刚提到过去有一些判断偏保守,具体来说是错过了哪些机会?

唐文斌:其实还挺多的。

比如在人脸识别这件事上,我们当年是最早把技术做到可以大规模落地的一批团队。但在很多应用场景上,我们当时其实是比较保守的。

举个例子,当年做人脸识别的时候,我们觉得一对一身份认证是技术上最可靠的,比如用来做身份验证,这件事比较确定。

但像后来的人脸支付这种场景,当时我们其实是比较怀疑的。比如早年我们和支付宝一起做刷脸支付的项目时,我们内部就有很多讨论:这个技术到底能不能稳定地做到这种程度?

后来事实证明,这些场景其实很快就落地了。

类似的情况还有自动驾驶。当时大家在讨论自动驾驶能不能跨过 L3、真正走向 L4 的时候,很多技术判断其实也是偏保守的。

因为做技术的人往往会很清楚当前系统的性能上限,所以在判断技术跃迁的时候,反而容易更谨慎。但结果往往是,这个行业的发展速度会比我们的判断更快。

虎嗅:既然你们一直想做机器人,那最早开始布局 Dexmal 是什么时候?

唐文斌:其实我们一直在关注相关技术的发展。

大概在 2024 年的时候,我们看到大模型开始进入机器人领域,很多团队在尝试用大模型去驱动机器人。所以当时我们内部也做了一些实验,想验证这种技术路线到底是不是可行。

差不多从 2024 年年中开始,我们就已经在做一些相关实验了。

当时其实也在看旷视未来的发展路径,比如公司是不是会继续推进上市。如果当时的路径不同,可能我们会选择在原有体系里继续做。

但后来我们也意识到,机器人这个方向和大模型一样,本质上都是一个非常烧钱的事情——需要大量算力、数据和持续投入。所以最后还是决定把这件事单独拿出来做。

虎嗅:2024 年中你们具体做了哪些试验?

唐文斌:主要是一些偏 VLA(Vision-Language-Action)的实验。当时很多团队也在 follow Google 的RT-1和RT-2。

虎嗅:从旷视创始团队来看,有人做大模型,有人做自动驾驶,也有人做具身智能。为什么会出现这样几条不同的路线?

唐文斌:我觉得这既和个人兴趣有关,也和技术路径有关。

从本质上来说,这几件事其实是同一件事——都是 AI 在不同载体上的应用。

比如自动驾驶是 AI 在汽车上的体现,大模型是 AI 在信息世界里的体现,而机器人是 AI 在物理世界里的体现。

对我个人来说,我一直对机器人更感兴趣。智能机器人这个方向,从最早开始就是我自己参与比较多的一件事情。

虎嗅:你刚刚提到,在旷视时期有一些判断是偏保守的。从时间点来看,你们在(2025年3月)出来做这家公司,你会觉得这个时机是早了还是晚了?

唐文斌:当然,从行业来看,已经有不少同行更早开始做这件事。但我自己的判断是,这个行业其实还处在非常早期的阶段,所以现在并不算晚。

真正重要的不是早或晚,而是接下来谁能够更快地把技术能力的斜率拉起来。也就是说,谁能更快地推动技术进步。

现在整个行业其实还有一个很明显的问题:甚至还没有形成一个成熟的评测体系。大家很难有一个统一的标准去判断,现在机器人的能力到底到了什么水平。

如果你去看现在的技术水平,就会发现其实还非常早期。即便是在一些比较简单的桌面任务上,比如抓取、摆放这些操作,目前很多系统的成功率也只有大概 50% 到 60%。

如果连这种简单任务的成功率都还在这个水平,那更复杂的任务、更加泛化的能力就更不用说了。


大脑还远未成熟,很多订单都是“伪商业化”

虎嗅:如果从行业演进来看,大模型从 2022 年开始经历了“百模大战”,到现在逐渐收敛到几家头部公司。你觉得具身智能也会经历类似的收敛过程吗?

唐文斌:我觉得最终也会收敛,但可能会剩下更多玩家。

原因在于,大模型本质上是纯线上软件,它的产业链相对短。模型能力一旦形成优势,流量和用户很容易集中到少数几家公司。

但机器人不一样,它的产业链非常长。

除了模型之外,还涉及本体、控制系统、具体应用场景,以及后续的实施和运维等一整套体系。这意味着它对企业的综合能力要求更高,也会导致行业的参与者类型更多。

另外一个原因是场景差异。

机器人最终可能会走向一种非常通用的人形形态,但这个过程会非常长。在这之前,一定会出现大量针对不同场景的产品形态。

比如从物理限制来看,能举起 50 公斤的机械臂、能举起 5 公斤的机械臂,和只能拿起 500 克物体的机械臂,本质上就是完全不同的系统。

所以在相当长的一段时间里,机器人行业会呈现出很多垂直场景的产品形态。

当然,从长期来看,这些垂直能力也有可能被更通用的机器人形态所覆盖。但这个过程会花更长的时间。

虎嗅:如果从应用场景来划分,你觉得在国内最先成熟的机器人场景会是哪些?

唐文斌:现在我们看到大概有几类场景。

第一类是偏科研或者文娱型的场景,这一类其实已经相对比较成熟了。比如表演类、跳舞类的应用,现在很多机器人已经可以做得很好,也确实带来了比较强的情绪价值。

第二类是偏后端的场景,比如工业和物流。我觉得随着模型能力的提升,这些场景其实已经在逐渐落地,也在越来越多地被应用。

第三类则是服务业,甚至是 To C 场景,也就是机器人可以直接和人进行交互的产品。但这一类我认为可能会是更后面的阶段。

从整体来看,这几个阶段能否成立,其实取决于两个核心条件。

第一,这个机器人在具体场景里能不能形成闭环,也就是说它能不能真正把事情做完,而不是依赖大量人工去兜底。

第二,这个账能不能算得明白,也就是客户是否愿意为它付费。

比如文娱场景为什么更容易成立?一方面是技术已经可以达到基本需求,比如跳舞已经能满足观赏需求;另一方面,用户确实愿意为这种体验付费。

所以从这两个维度来看——能不能把事情做完,以及账能不能算清楚——技术进步正在让越来越多的场景逐渐变得可行。

而之所以很多人认为机器人会先落在工业和物流场景,而不是直接进入家庭,一个重要原因是容错率。

比如如果家里有一个机器人保姆,但它有千分之一的概率会打碎一个盘子,很多人可能都很难接受。但在工业或物流场景里,即便机器人出错,系统通常还有其他流程可以进行错误恢复,所以整体容忍度会更高。

另外一个原因是经济账。

如果企业引入机器人,一定会和人工成本做比较。理想情况下,机器人应该可以长时间持续工作,这样 ROI 才更容易成立。而工业和物流场景,本身也更容易满足这种工作形态。

虎嗅:现在已经到了第二阶段了吗?还是说第一阶段还没有结束?

唐文斌:我觉得现在工业和物流场景其实已经开始逐渐落地了。

虎嗅:刚才你提到第一阶段是文娱场景。但从现在来看,国内运控能力最强的是像宇树这样的公司,真正能做表演的机器人还比较少。如果一些机器人的运动能力没那么强,是不是在第一阶段就很难拿到商业化订单?

唐文斌:订单本质上是一个结果,它来自于你是否为客户创造了用户价值。

这种价值可以是情绪价值,也可以是功能价值。比如替代一些繁重的任务,或者提升效率,本质上无非就是降本、提效或者提升体验。如果其中某一种价值能够成立,商业模式就成立了。

但我个人觉得,现在很多所谓的商业化,其实是“伪商业化”。

比如现在很多机器人订单,其实是卖给各类展示中心、数据中心或者政府建设的创新中心。这些订单当然也有价值,但它们更多是一种内部循环,并没有真正通过机器人为社会创造新的增量价值。

相比之下,我觉得宇树做得比较好的地方是,它在文娱场景确实创造了价值。机器人跳舞本身就有观赏性,也能带来情绪价值,所以用户愿意为此买单。

而我们更希望做的是功能价值的机器人,比如在仓库、零售等场景中,真正替代人工或者提升效率。这类场景技术要求会更高,但如果能成立,它的商业逻辑会更扎实。

虎嗅:在你的观察里,现在市场上真正提供这种功能价值的机器人多吗?

唐文斌:说实话,现在还不多。

我觉得现在有一批公司在非常认真地尝试做这件事情,但真正被持续使用的案例其实还很少。

如果看去年人形机器人卖出去的数量,会发现其中很大一部分是科研用途,还有一部分是文娱场景。也有一些是做 POC(概念验证)的项目。

但真正重要的一个指标是:这个机器人是不是在持续开机、持续被使用。

如果按照这个标准来看,目前真正被长期使用的机器人数量,其实是非常有限的。

我们现在看到很多演示、很多 Demo、很多 POC,但这些是不是已经变成真实生产环境中的持续应用,其实还是一个很大的问号。

虎嗅:你觉得从情绪价值型机器人走向功能价值型机器人,中间最大的卡点是什么?

唐文斌:核心卡点其实是机器人的“智商”,也就是它的大脑。

情绪价值型机器人其实不需要太复杂的物理理解。比如像宇树做得非常好的,是运动能力——跳舞、打拳这些动作。它和物理世界的交互其实非常有限,本质上只需要和地面发生接触,只要保持重心稳定、动作协调就可以完成。

但如果机器人要真正去操作物体,难度就完全不一样了。

机器人不仅要理解物理世界,还要理解任务本身,然后把这种理解转化成具体动作。更重要的是,这个动作还需要形成闭环控制:当机器人执行动作后,环境会发生变化,它必须通过新的感知信号不断调整自己的动作。

这一整套过程,其实是一个非常复杂的算法问题。

如果简单类比的话,像自动驾驶或者很多娱乐型机器人,它们面对的环境其实更接近二维问题,比如前后左右移动,自由度相对比较低。但真正的操作任务是在三维空间中进行的,而且自由度非常高。

本文来自虎嗅,原文链接:https://www.huxiu.com/article/4843539.html?f=wyxwapp