对话原旷视联创唐文斌：现在很多具身订单都是“伪商业化”

出品｜虎嗅科技组

作者｜宋思杭

编辑｜苗正卿

头图｜视觉中国

在距离曾经的“AI四小龙”之一旷视科技不到1km的地方，有一家机器人公司。它的标识很像 X（原 Twitter）的 Logo。这家公司的英文名叫 Dexmal，中文名叫原力灵机。

正月十六，我来到原力灵机的这一天，北京下了 2026 年的第一场大雪。这家成立快一年的具身智能公司，正在装修新的工区，因为今年公司正准备再扩招一倍人手。

13 年前，旷视刚成立的时候，联合创始人唐文斌曾经让人去买一个钢铁侠模型。那是他们当时对未来的想象——机器人。这也是他和旷视创始人印奇在大学时期就想做的事情。只不过后来阴差阳错，他们买回来的不是钢铁侠，而是一只“大黄蜂”。

在很长一段时间里，这个念头被放在了更现实的商业路径之后。

一年前，也就是2025年3月，唐文斌成立这家机器人公司。他想把曾经在旷视没来得及完成的事情，或者说在上一个“AI 四小龙”时代还做不到的事情，重新捡起来。

唐文斌最喜欢的一项运动是滑翔伞。这是一项需要不断和气流、天气、地形博弈的运动。去年，他甚至去参加了世界杯级别的比赛。

在很多人的印象里，滑翔伞是一项典型的极限运动。但唐文斌并不这样看。他不认为这是一项特别危险的运动，也不觉得自己是一个激进或者爱冒险的人。

相反，在过去很长一段时间里，他甚至有些偏保守。

在面对时代机遇和技术浪潮时，他现在回过头来看，会觉得自己当年错过了一些机会。唐文斌也坦诚，在旷视时期，自己做过不少错误判断，一些决策上的谨慎，某种程度上也让公司错失了一些窗口。

如果重新梳理旷视当年的创始团队，会发现他们在 AI 新周期里走向了不同方向：有人开始做大模型，有人转向智驾，也有人选择进入具身智能。

但和许多同行相比，唐文斌对当下这波具身智能热潮的判断反而显得有些冷静。

在他看来，今天很多机器人产品仍然停留在提供“情绪价值”的阶段，比如陪伴、展示或者表演式的能力，而他真正想做的，是能够创造功能性价值的机器人。

这也是他对成熟机器人的一个核心判断标准——机器人的“智商”，也就是机器人的“大脑”。

也正因为如此，他给原力灵机选择了一条相对少见的路线：先做模型，再做本体。在原力灵机的理念里面：模型解锁场景，场景定义硬件。

而在今天的具身智能行业，这其实只是众多技术路线中的一种。

有的公司选择先把本体硬件做出来，再逐步补齐大脑能力；有的公司选择软硬件同时推进；也有像原力灵机这样，从软件和系统能力切入，再去反推硬件形态。

三种路径背后，代表的是完全不同的技术理念，也意味着不同的商业逻辑。

更重要的是，这个行业本身仍然处在极早期阶段。无论是技术路线、产品形态，还是商业场景，都远没有形成共识。它还没有迎来属于自己的“ChatGPT时刻”。

唐文斌判断，未来行业一定会逐渐收敛，但这种收敛，大概率不会像今天的大模型行业那样，只剩下寥寥几家头部公司。

机器人是一门更复杂的工程。它不仅涉及算法，还涉及机械结构、传感器、控制系统以及真实世界中的各种物理约束。不同路径的公司，可能会在不同场景里找到各自的位置。

某种意义上，这也是为什么在今天这个时间点重新创业，对唐文斌来说既像是一种延续，也像是一场新的尝试。

在接下来的对话中，他详细讲述了自己离开旷视之后的思考、原力灵机的技术路线选择，以及他眼中这个尚未真正成熟的具身智能行业。

以下是虎嗅与原力灵机（Dexmal）创始人唐文斌的对话，有删减。

“把旷视没做完的事情延续下去”

虎嗅：你最初萌生做机器人这个想法是什么时间？

唐文斌：其实我们很早就想做机器人了。旷视最早成立的时候，我们给自己起这个名字——“旷视”，本身就意味着“大的视觉”。当时我们的一个核心想法，就是希望让机器先“看懂世界”，也就是先把机器人的“眼睛”做好。

所以我们最早的技术路线，其实就是从视觉开始的。

差不多从 2018 年左右，我们内部已经有一块业务在做物流机器人。我们当时的想法很简单，就是用机器人去帮助仓库完成一些重复、繁重的工作，让仓库实现“省人、省力、省钱、省心”。所以严格来说，我们做机器人这件事，其实已经想了很多年。

只是今天大家重新谈机器人，是因为技术条件发生了一些变化。特别是大模型出现之后，很多人开始相信，可以通过端到端的方式去驱动机器人，让机器人具备更强的通用能力和泛化能力，这也是为什么最近整个行业会变得非常兴奋。

其实我们在大学的时候就已经有这个想法了。旷视刚成立、第一次搬办公室的时候，我们还专门在前厅摆了一个机器人的形象，算是一种象征，表达我们未来真正想做的事情。

公司里还有一个老梗。当时我们本来是想让行政帮我们买一个“钢铁侠”，结果最后买回来的是“大黄蜂”。后来大家就一直调侃，说大黄蜂其实不是机器人，它是外星生物。

虎嗅：现在旷视是什么状态？

唐文斌：旷视其实一直还在，公司整体业务也还不错，目前还是在一个比较稳健的增长过程中。公司内部也还有非常好的团队在持续推进各个业务。

虎嗅：我可以理解为，你们其实是把上一代“AI四小龙”时代没有做成，或者当时做不到的事情，在新公司里重新延续下去吗？

唐文斌：我觉得确实是有一定延续性的。

从旷视成立开始，我们一直想做的事情，其实是希望用 AI 去改变现实世界。最早我们是以摄像头为载体做视觉能力，后来以手机为载体，再往后其实我们一直希望能走到新的载体上，比如车、机器人。

所以从这个角度来说，我们想做的事情本身是连续的。

只是今天旷视已经变成了很多不同的业务板块，各个团队在不同方向上发展。我们现在做的新公司，其实也是在寻找一个更适合当前阶段的形态，把原来的一些技术积累继续往前推进。

虎嗅：能不能再具体讲一下，从旷视到 Dexmal，这种延续性具体体现在哪里？

唐文斌：旷视内部其实做过一次结构调整。简单来说，我们把业务拆成了两部分：一部分仍然留在旷视主体里面，另一部分则放在新的业务结构里。

在新的业务体系下，其实有几个不同的板块。

第一块是做身份认证相关的业务，比如刷脸认证等。很多大家日常用到的人脸认证服务，背后其实都是我们在提供技术能力。

第二块是给手机厂商提供视觉算法能力，比如人脸识别、影像优化等，主要服务像华为、小米、OPPO、vivo 这样的厂商。

第三块是物流机器人业务，通过托盘四向车、AGV 以及调度系统，去提升仓库的运作效率。

第四块是自动驾驶业务。原来在旷视内部叫 MagicRide，现在已经独立出来，后来发展成了千里科技。

所以整体上看，现在更像是“1+4”的结构：其中这四个业务板块就在新的体系里继续发展。

而 Dexmal 的机器人业务，本质上也是在这个体系里拆分出来的一块新业务。我们希望通过数据驱动、模型驱动的方式去做通用型机器人。同时，它和原来物流机器人业务之间也会有很多合作关系。

虎嗅：这算是重新创业了，和过去相比，你现在的心态有什么变化吗？

唐文斌：我觉得既有一样的地方，也有不一样的地方。

一样的是，我们想做的事情其实没有变。我也很庆幸，很多一起创业的兄弟还在，我们还是在一起做事情。

但不一样的是，我们确实经历过一些判断失误，所以这一次会更希望把事情做得更好。

技术的发展其实经常会超出我们的预期。从最早的深度学习，到 Transformer，再到今天的大模型和机器人，每一次技术浪潮的发展速度，其实都比我们原来预期的更快。

在这种情况下，我们需要重新思考自己的节奏——比如什么时候投入、投入多少、要不要去做一些更大胆的事情。

另外一个变化是在商业上。现在我们会更关注一个问题：用户价值是不是足够清晰？我们到底为用户创造了什么价值？

这些问题在早期创业的时候，其实想得没有那么多，但现在会看得更重。

虎嗅：你刚刚提到过去有一些判断偏保守，具体来说是错过了哪些机会？

唐文斌：其实还挺多的。

比如在人脸识别这件事上，我们当年是最早把技术做到可以大规模落地的一批团队。但在很多应用场景上，我们当时其实是比较保守的。

举个例子，当年做人脸识别的时候，我们觉得一对一身份认证是技术上最可靠的，比如用来做身份验证，这件事比较确定。

但像后来的人脸支付这种场景，当时我们其实是比较怀疑的。比如早年我们和支付宝一起做刷脸支付的项目时，我们内部就有很多讨论：这个技术到底能不能稳定地做到这种程度？

后来事实证明，这些场景其实很快就落地了。

类似的情况还有自动驾驶。当时大家在讨论自动驾驶能不能跨过 L3、真正走向 L4 的时候，很多技术判断其实也是偏保守的。

因为做技术的人往往会很清楚当前系统的性能上限，所以在判断技术跃迁的时候，反而容易更谨慎。但结果往往是，这个行业的发展速度会比我们的判断更快。

虎嗅：既然你们一直想做机器人，那最早开始布局 Dexmal 是什么时候？

唐文斌：其实我们一直在关注相关技术的发展。

大概在 2024 年的时候，我们看到大模型开始进入机器人领域，很多团队在尝试用大模型去驱动机器人。所以当时我们内部也做了一些实验，想验证这种技术路线到底是不是可行。

差不多从 2024 年年中开始，我们就已经在做一些相关实验了。

当时其实也在看旷视未来的发展路径，比如公司是不是会继续推进上市。如果当时的路径不同，可能我们会选择在原有体系里继续做。

但后来我们也意识到，机器人这个方向和大模型一样，本质上都是一个非常烧钱的事情——需要大量算力、数据和持续投入。所以最后还是决定把这件事单独拿出来做。

虎嗅：2024 年中你们具体做了哪些试验？

唐文斌：主要是一些偏 VLA（Vision-Language-Action）的实验。当时很多团队也在 follow Google 的RT-1和RT-2。

虎嗅：从旷视创始团队来看，有人做大模型，有人做自动驾驶，也有人做具身智能。为什么会出现这样几条不同的路线？

唐文斌：我觉得这既和个人兴趣有关，也和技术路径有关。

从本质上来说，这几件事其实是同一件事——都是 AI 在不同载体上的应用。

比如自动驾驶是 AI 在汽车上的体现，大模型是 AI 在信息世界里的体现，而机器人是 AI 在物理世界里的体现。

对我个人来说，我一直对机器人更感兴趣。智能机器人这个方向，从最早开始就是我自己参与比较多的一件事情。

虎嗅：你刚刚提到，在旷视时期有一些判断是偏保守的。从时间点来看，你们在（2025年3月）出来做这家公司，你会觉得这个时机是早了还是晚了？

唐文斌：当然，从行业来看，已经有不少同行更早开始做这件事。但我自己的判断是，这个行业其实还处在非常早期的阶段，所以现在并不算晚。

真正重要的不是早或晚，而是接下来谁能够更快地把技术能力的斜率拉起来。也就是说，谁能更快地推动技术进步。

现在整个行业其实还有一个很明显的问题：甚至还没有形成一个成熟的评测体系。大家很难有一个统一的标准去判断，现在机器人的能力到底到了什么水平。

如果你去看现在的技术水平，就会发现其实还非常早期。即便是在一些比较简单的桌面任务上，比如抓取、摆放这些操作，目前很多系统的成功率也只有大概 50% 到 60%。

如果连这种简单任务的成功率都还在这个水平，那更复杂的任务、更加泛化的能力就更不用说了。

大脑还远未成熟，很多订单都是“伪商业化”

虎嗅：如果从行业演进来看，大模型从 2022 年开始经历了“百模大战”，到现在逐渐收敛到几家头部公司。你觉得具身智能也会经历类似的收敛过程吗？

唐文斌：我觉得最终也会收敛，但可能会剩下更多玩家。

原因在于，大模型本质上是纯线上软件，它的产业链相对短。模型能力一旦形成优势，流量和用户很容易集中到少数几家公司。

但机器人不一样，它的产业链非常长。

除了模型之外，还涉及本体、控制系统、具体应用场景，以及后续的实施和运维等一整套体系。这意味着它对企业的综合能力要求更高，也会导致行业的参与者类型更多。

另外一个原因是场景差异。

机器人最终可能会走向一种非常通用的人形形态，但这个过程会非常长。在这之前，一定会出现大量针对不同场景的产品形态。

比如从物理限制来看，能举起 50 公斤的机械臂、能举起 5 公斤的机械臂，和只能拿起 500 克物体的机械臂，本质上就是完全不同的系统。

所以在相当长的一段时间里，机器人行业会呈现出很多垂直场景的产品形态。

当然，从长期来看，这些垂直能力也有可能被更通用的机器人形态所覆盖。但这个过程会花更长的时间。

虎嗅：如果从应用场景来划分，你觉得在国内最先成熟的机器人场景会是哪些？

唐文斌：现在我们看到大概有几类场景。

第一类是偏科研或者文娱型的场景，这一类其实已经相对比较成熟了。比如表演类、跳舞类的应用，现在很多机器人已经可以做得很好，也确实带来了比较强的情绪价值。

第二类是偏后端的场景，比如工业和物流。我觉得随着模型能力的提升，这些场景其实已经在逐渐落地，也在越来越多地被应用。

第三类则是服务业，甚至是 To C 场景，也就是机器人可以直接和人进行交互的产品。但这一类我认为可能会是更后面的阶段。

从整体来看，这几个阶段能否成立，其实取决于两个核心条件。

第一，这个机器人在具体场景里能不能形成闭环，也就是说它能不能真正把事情做完，而不是依赖大量人工去兜底。

第二，这个账能不能算得明白，也就是客户是否愿意为它付费。

比如文娱场景为什么更容易成立？一方面是技术已经可以达到基本需求，比如跳舞已经能满足观赏需求；另一方面，用户确实愿意为这种体验付费。

所以从这两个维度来看——能不能把事情做完，以及账能不能算清楚——技术进步正在让越来越多的场景逐渐变得可行。

而之所以很多人认为机器人会先落在工业和物流场景，而不是直接进入家庭，一个重要原因是容错率。

比如如果家里有一个机器人保姆，但它有千分之一的概率会打碎一个盘子，很多人可能都很难接受。但在工业或物流场景里，即便机器人出错，系统通常还有其他流程可以进行错误恢复，所以整体容忍度会更高。

另外一个原因是经济账。

如果企业引入机器人，一定会和人工成本做比较。理想情况下，机器人应该可以长时间持续工作，这样 ROI 才更容易成立。而工业和物流场景，本身也更容易满足这种工作形态。

虎嗅：现在已经到了第二阶段了吗？还是说第一阶段还没有结束？

唐文斌：我觉得现在工业和物流场景其实已经开始逐渐落地了。

虎嗅：刚才你提到第一阶段是文娱场景。但从现在来看，国内运控能力最强的是像宇树这样的公司，真正能做表演的机器人还比较少。如果一些机器人的运动能力没那么强，是不是在第一阶段就很难拿到商业化订单？

唐文斌：订单本质上是一个结果，它来自于你是否为客户创造了用户价值。

这种价值可以是情绪价值，也可以是功能价值。比如替代一些繁重的任务，或者提升效率，本质上无非就是降本、提效或者提升体验。如果其中某一种价值能够成立，商业模式就成立了。

但我个人觉得，现在很多所谓的商业化，其实是“伪商业化”。

比如现在很多机器人订单，其实是卖给各类展示中心、数据中心或者政府建设的创新中心。这些订单当然也有价值，但它们更多是一种内部循环，并没有真正通过机器人为社会创造新的增量价值。

相比之下，我觉得宇树做得比较好的地方是，它在文娱场景确实创造了价值。机器人跳舞本身就有观赏性，也能带来情绪价值，所以用户愿意为此买单。

而我们更希望做的是功能价值的机器人，比如在仓库、零售等场景中，真正替代人工或者提升效率。这类场景技术要求会更高，但如果能成立，它的商业逻辑会更扎实。

虎嗅：在你的观察里，现在市场上真正提供这种功能价值的机器人多吗？

唐文斌：说实话，现在还不多。

我觉得现在有一批公司在非常认真地尝试做这件事情，但真正被持续使用的案例其实还很少。

如果看去年人形机器人卖出去的数量，会发现其中很大一部分是科研用途，还有一部分是文娱场景。也有一些是做 POC（概念验证）的项目。

但真正重要的一个指标是：这个机器人是不是在持续开机、持续被使用。

如果按照这个标准来看，目前真正被长期使用的机器人数量，其实是非常有限的。

我们现在看到很多演示、很多 Demo、很多 POC，但这些是不是已经变成真实生产环境中的持续应用，其实还是一个很大的问号。

虎嗅：你觉得从情绪价值型机器人走向功能价值型机器人，中间最大的卡点是什么？

唐文斌：核心卡点其实是机器人的“智商”，也就是它的大脑。

情绪价值型机器人其实不需要太复杂的物理理解。比如像宇树做得非常好的，是运动能力——跳舞、打拳这些动作。它和物理世界的交互其实非常有限，本质上只需要和地面发生接触，只要保持重心稳定、动作协调就可以完成。

但如果机器人要真正去操作物体，难度就完全不一样了。

机器人不仅要理解物理世界，还要理解任务本身，然后把这种理解转化成具体动作。更重要的是，这个动作还需要形成闭环控制：当机器人执行动作后，环境会发生变化，它必须通过新的感知信号不断调整自己的动作。

这一整套过程，其实是一个非常复杂的算法问题。

如果简单类比的话，像自动驾驶或者很多娱乐型机器人，它们面对的环境其实更接近二维问题，比如前后左右移动，自由度相对比较低。但真正的操作任务是在三维空间中进行的，而且自由度非常高。

本文来自虎嗅，原文链接：https://www.huxiu.com/article/4843539.html?f=wyxwapp