2026年,具身智能赛道正处在一个集体转向的节点上。
撰稿|海苔
审校|逆光、桬棠
2026年,具身智能赛道正处在一个集体转向的节点上。一方面是热钱涌入,上半年国内具身智能及机器人领域共发生288起融资事件,涉及226家企业和274家投资机构,披露融资额超460亿[1],平均每天都有新公司拿到钱。这个体量放在任何一个硬科技赛道里都算得上罕见。
另一方面,七成资金流入前20家企业,行业的融资规模扩张并不等同于钱更好拿,投资人衡量项目好坏的标尺也在动态变化中。前两年,模型跑分、融资规模、创始团队的名校背景,几乎是这个行业最通用的叙事语言,一个机器人后空翻就足够上一轮热搜。2026年以来,超过一半的资金涌入了“具身大脑”赛道,当硬件本体逐渐成熟、供应链趋于稳定,决定机器人能做什么、能做多好的核心变量,正在从机械结构转向智能系统。在一个对“好的机器人产品”尚未形成共识的早期行业里,资本真正想把握的是一份定义权。
围绕“谁掌握定义权”这个命题,不同公司基于自身的资源禀赋和战略判断,正在走向完全不同的方向。
不同路径的核心差异,在于各家企业选择“相信”什么:大脑派相信“软件定义硬件”,聚焦智能系统能跨形态迁移;本体派则坚信“身体是智能的前提”,深耕运动控制、关节电机;技术全栈派追求大脑与本体之间存在协同效应;零部件和数据基础设施则聚焦“卖铲人”的生意。
而产品全栈派落在了一个更为务实且克制的方向上:在大脑和本体都没有标准答案时,稀缺的不是更领先的技术,而是把现有技术做成一台能量产、能交付、能复购的产品的能力。如何用极致的工程化能力,先做出能够进入家庭场景的消费级机器人,成为他们的第一优先级。
乐享科技就是这条路径上的样本之一,创始之初便专注家庭通用小型具身智能机器人,在今年六月乐享科技完成了近5亿元Pre-A轮融资,由蚂蚁集团领投,产业方吉利资本、三七互娱、元禾璞华跟投,老股东Monolith也继续加注,累计融资已经到了10亿元。
近期,第一财经商业数据中心(CBNData)对话了乐享科技的创始人兼CEO郭人杰,从“要做机器人行业的大疆”的愿景出发,郭人杰分享了一家聚焦前沿工程创新的具身智能公司,如何定义技术边界、锁定真实需求、构建竞争壁垒。以及如何在行业普遍押注“技术终局”时,选择先用产品去穿越当下的不确定性。
郭人杰的核心观点是:并非只有AGI才是产品,渐进式地解决哪怕一两个具体需求,就是好产品。这句话背后是一套清晰的技术哲学:乐享科技并非不做大脑,而是不做“科学创新式”的大脑。目前公司布局了六个技术点:本体结构、具身通用模型、VLA、关节模组、轻量化机械臂、意识仿生模型,全部自研且都要求做到行业第一梯队,但边界同样清晰,郭人杰说,“我们不做科学创新。”
产品层面,乐享科技优先攻克今天就足够成熟、可以直接拿来用的技术支点,采取渐进式的具身智能落地策略;商业化路径上,坚持B端先行验证、C端规模化跑量,用真实的市场转化数据替代主观判断;竞争壁垒上,他们押注的是越早交互、积累越快的数据飞轮,以及围绕家庭场景搭建起来的功能生态。
2025年年底官宣完成消费级具身智能赛道的首个亿元级订单之后,郭人杰透露首款家庭通用小具身产品将在2026年8月底正式走向C端,定价不超过一台高配手机。这套打法能不能跑通,眼下还没有答案,但乐享科技为这个充斥着宏大叙事的行业,提供了一个可以用真实数据来验证的样本。
以下是对话实录,经编辑:
产品方法论:不追AGI,去解决一个具体的需求
CBNData:乐享科技的产品在开始做的时候,你对产品的想象是什么?到现在实现了什么?
郭人杰:我们当年做产品的时候,就希望成为像大疆在无人机领域那样的存在:大疆把无人机从消费级带进了千家万户,我们希望让具身智能机器人也走进千家万户,未来能做到亿级别的出货量,这是我们的愿景。
我对产品的判断逻辑,可能和市场上今天大多数具身智能公司不太一样:我不认为只有AGI才是产品,渐进式地解决哪怕一两个具体需求,就是好产品。扫地机器人是过去十年唯一被大规模量产的机器人产品,它解决不了所有问题,但它撑起了一个千亿规模的市场。这就是我们对“产品”的不同判断:我们解决的是单点需求,而不是一味追求AGI。也正因为这个判断,我们能在行业里第一个形成超三万台台订单的规模,去年开始有收入,今年上半年营收同比增长600%。
CBNData:基于你的判断逻辑,你是如何搭建公司的组织架构的?
郭人杰:我们公司分两层。上层是技术层:我们从全球估值最高的“大脑”公司Skild AI、全球估值最高的“整机”公司Figure,把头部科学家挖回来,分别攻克具身通用模型/VLA、本体结构、机械臂灵巧手、意识仿生模型等六个关键技术点,目标是做到行业第一梯队,但我们不追求科学创新本身,做到第一梯队之后,我们要做的是可工程化的创新。
CBNData:“可工程化的创新”具体是什么意思?能举一个例子吗?
郭人杰:我们认为,要让机器人真正进入家庭,需要把它做轻做小,一个一米二左右的机器人,没有威胁感,更有陪伴感。但市面上现有的关键模组太大、太重,我判断家用机器人的重量上限是10公斤,倒算下来,关键模组要控制在5公斤、结构件加传感器再占5公斤,意味着单个关键模组必须做到200克,同时还要有12牛米的峰值扭矩才能支撑机器人正常行走。
为了做出这个200克、12牛米的关键模组,我们把以前做无人机微型电机的团队挖了出来,配合人形关键模组团队做小型化,花了半年时间,做出来了。现在我们做出的是市面上全世界最轻最小的高扭矩电机:40毫米直径,200克,12牛米峰值扭矩。这就是我们今天创新的一个路径:先把技术单点布到行业第一,再用明确的需求牵引创新方向。
CBNData:可以认为你们的核心能力是集成吗?在资本市场上集成可能不是一个很高的地位,你怎么看?
郭人杰:我所说的“集成”和大家理解的不太一样,不是说把零件拼成一台机器,我们讲的集成是技术的集成,在每一个技术单点上都自己把握,做出把技术第一个应用于产品的机制。这个行业太新了,每一个技术如果你不掌握,就很可能被迭代掉。比如具身通用模型,我们也做,但我们要做的是跟随主题,一旦这个方向被验证是对的,我们能第一个用上。所以我们最终的壁垒在于,把每一个技术都做到行业第一梯队,但不追求科学创新本身,这也是为什么我们的成本相对可控。
CBNData:今天具身智能真正成熟、一定要去做的技术是什么?
郭人杰:我认为就两个:第一是移动能力,也就是“小脑”;第二是交互能力。
移动能力解决的是全屋覆盖问题。一个小人形在家里是可以全覆盖的,它可以到处走,可以越过障碍物,可以侧身进门。这可能是第一次出现一个可以全屋覆盖的终端。一旦有了这个移动能力,那些以前不能移动的硬件就可以被移动起来,比如摄像头、音响、相机。
在具体场景里,比如宠物看护,机器人可以一直跟随宠物,保持在同一空间,随时可以看到它,还可以借助“狗语大模型”做简单的双向交流,目前的逻辑是让兽医和驯兽师去标注狗语数据,机器人大概能听懂60%的狗的“对话”,可以回应。
第二交互能力解决的是理解问题。今天所有的硬件里,机器人是唯一可以一直开着摄像头的设备,机器人因为要导航避障,摄像头必须一直开着。也因此它可以持续理解你的情绪,你每一秒是兴奋、开心、还是无聊,都会被记录下来。长时间下来,它会理解你喜欢什么、不喜欢什么,从而给出更准确的提醒和推荐,包括安抚你的情绪。这两个能力本质上是机器人区别于其他硬件的核心特点:移动能力把硬件移动起来,交互能力把交互做深,基于多模态理解你的情绪和记忆,让它越来越懂你。
商业化路径:B端验证,C端爆发
CBNData:你们是如何判断用户的真实需求的?
郭人杰:我们过往三个月开了抖音直播间,跟我当年做产品一样,每天投放不一样的内容。具体做法是,比如今天做一条内容讲机器人对老人的看护,投放给对看护感兴趣的人群,在直播间里也专门讲这个卖点。内容、人群和直播间话术三者匹配上,我们管这个叫“三个一匹配”,不停换不同的组合,就可以测出到底哪个卖点的转化效率最高。
实测下来,最后效果最好的两个卖点是老人的康养看护和宠物的拍摄记录。这其实有点反直觉,我们一开始会认为孩子是效率最高的场景,但后来发现小孩的替代品比较多,而且父母会担心机器人打扰孩子学习,顾虑很多。而老人看护和宠物陪伴这两个需求,今天市场上没有足够好的产品满足,购买意愿反而很高。测出需求之后,我们用三个月时间在B端做测试、打磨场景,预计今年8月底走向C端。
CBNData:8月底发布的to C端产品的定价怎么考虑的?利润空间大概是怎样的?
郭人杰:我觉得最高不超过一台手机的价格。今年我们整体的定价区间会在7000到9000元,不高过一台高配手机,高配手机也是中产家庭在电子消费里比较高的一项消费了,如果定价高于这个,长线获客成本就太高。
对我们来说,盈利肯定是消费电子的利润逻辑,我们希望保留高毛利空间,这个行业还在早期阶段,但已经能预见进入价格战。我经历过这个教训:当年做洗地机的时候,添可是第一,我们是第二个,好不容易做起来,结果美的、海尔、莱克、苏泊尔全跟进,直接打半价。所以我们宁愿第一天就把毛利空间留足,也倒逼供应链降本。
CBNData:成本结构是怎样的?怎么把成本压下来?
郭人杰:60%的成本在关键模组,所以我们自己做关键模组;30%是芯片,所以我们投资了相关芯片公司参与定制;剩下10%是各类零部件。压低成本的关键是出货量,别的公司可能只出几千台,我们先做到两万台的量级,关键模组的采购规模是同行的好几倍,成本自然能往下压,这是供应链的规律。
CBNData:to C的产品上市之后,你认为领先优势大概能保持多长时间?之后会怎么样去做迭代升级?
郭人杰:五个月。我们的壁垒分三层。第一层是模型层:进入家庭之后会大量收获用户交互数据,数据采集得越早,模型迭代就越快。第二层是软件层:我们在构建一个生态壁垒,类似“机器人的App Store”,给老人的功能可能是唤起回忆、聊养生、用药提醒,给孩子的可能是睡前故事、角色扮演、心理健康监测,给宠物的可能是狗语模型聊天、拍摄剪辑,每个用户可以下载不一样的功能组合,就像手机脱离了App什么都不是一样,未来机器人脱离了这些功能模块,也什么都不是。第三层是硬件层:成本壁垒,我们只能在技术上领先五个月,但我们能把成本做到最低。
CBNData:产品现在能做到的事情不多,会不会担心成为玩具?
郭人杰:现在相当于做了一个人形的AI agent,如果是一个监控摄像头或者一个球形设备,用户会认为这就是个监控;但如果是个人形机器人,用户会认为是个陪伴。
至于会不会变成一个玩具,我觉得这不难接受,当一个新涌现的需求满足了人的某种情绪价值时,大家会统一称之为玩具。我们和早年那些做小人形机器人的公司不太一样的地方在于,我们解决了运动控制,它可以全屋走,而不是在原地做俯卧撑。只有能全屋走,才能让它来找你,才能发生陪伴、监控、拍摄;如果只能在原地,就必须是你主动去找它交互,那就没有意义。
我们今天卖的居家养老产品绝对的优势就是人形本身。人形本身唯一的价值就是情绪价值,是让人把它当人看待。
图片来源:乐享科技
行业位置判断:小灵通、诺基亚和iPhone4
CBNData:你如何定义现在具身智能所处的阶段,以及行业下一阶段的核心考验是什么?
郭人杰:对比手机的发展来说,具身智能目前只是大哥大阶段,如果把最终的具身智能定义为iPhone4,我觉得今天距离小灵通还有很久,距离诺基亚就更远。
下一个核心阶段首先是能有一两个需求被很好地满足,这样它就可以变成“小灵通”;再往后,模型端需要有一定的泛化性,能做的任务变多,比如从只做老人看护,变成能扶一下老人、能递水送药,这个事情我觉得要靠模型能力的突破,这样它可以变成“诺基亚”。但我觉得最后到“iPhone4”这一步,光是模型本身的突破是不够的,还要切准一个足够大的用户需求才能跑出来。
CBNData:你现在也有在跟大厂合作做供应链,不担心他们后续凭借资源优势反超吗?
郭人杰:不担心,原因是我觉得具身智能进入家庭会诞生一个前所未有的壁垒,未来的具身智能产品非常了解你的生活习惯、喜好,你跟它交互的记忆,想换掉它是换一个伙伴,这没有那么容易。所以你跟它聊得越多、进入得越早,这个入口就是你的。这也是为什么我们一定要把交互做好,只要让用户在交互上投入了,他就很难放弃,哪怕换了新的品牌,他也要重新经历一遍“教育”这个产品认识自己的过程。
CBNData:在所有的技术模块里,你最关注哪一块的进展,能让产品在一代迭代里实现质变?是视觉模型吗?
郭人杰:是VLA模型(视觉-语言-动作)。我觉得这是基点,其他的都是从这个基点上渐进出来的,那几个世界模型相关的方向已经相对稳定了,是渐进式的,但VLA是涌现型的。所以我们从Figure挖人,是因为Figure是第一个把世界模型引入VLA的公司,估值五百亿美金,是全球最贵的具身智能公司,我们把他们整个模型负责人挖回来了。
伦理边界:让机器人成为家庭中的“第三方”角色
CBNData:你一直强调机器人主动性的问题,但我感觉这里有一个边界问题,很多人的需求本身不是要机器人一直主动地来,可能有时候就想一个人安静坐着,那时候你又来打扰我,这个边界要怎么设定?
郭人杰:我们今天上线的第一个设计,是让用户自己选机器人的MBTI性格,用户可以选自己喜欢的性格作为伙伴。机器人一开始的判断一定是主观的,但人和人之间交朋友也是这样,不能完全察言观色、理解你所有的想法,一定会有一个模糊和磨合的过程。机器人会主动交互的场景,比如俩人坐在同一空间,发现对方表情很无聊,又不说话,达到一定的时间,它就会去说话。因为通常会认为,两个人坐在一起互相都不说话会很尴尬,一定会有一方先开口。我们把人和人之间“什么时候该有一个人先说话”的规则,变成了机器人的规则,但这个规则会在实际场景中有改变。如果你在工作,同样是面无表情,机器人以为你无聊了,过来打招呼,你说“别说话,你会打扰我”,那它就会学会下次你和电脑在一起的时候不要去打扰。这一定是个先打扰一次才能学会不打扰的过程,但也是长期使用后用户黏性会更高的原因。
CBNData:你们怎么考虑机器人真假身份这个问题?比如把微信接到机器人上,给妈妈打电话,会不会产生一个真人假人的错觉?
郭人杰:我们今天有一些技术能力,比如可以做声音复刻,有用户问过我们,比如说老人有点糊涂了,记忆不太好了,能不能把已故亲人的声音复刻进去,让机器人每天用这个声音陪他聊天。如果单纯从陪伴这个角度,这对老人来说肯定是好事,毕竟我们不能每天陪着他。但如果他的记忆已经错乱,机器人说的话他会认为是那个人本人说的,但实际上不是,这就涉及到一种欺骗性的问题。
所以这方面我们目前是比较谨慎的,倾向于把机器人定义为一个“第三方”角色,这其实是个挺重要的价值判断。不去模拟用户身边真实存在的人的声音和语态,也不会让机器人代替真人去打电话或者代发微信消息,我们今天尽量要把真假区分清楚。比如夫妻吵架,如果有一个客观、相对公正的第三方把这件事说清楚,事情往往就能解决。所以我觉得机器人应该是一个第三方的角色,不是要去取代某种已有的情感关系。
图片来源:乐享科技
从追觅到具身智能,什么是可复用的方法
CBNData:你离开追觅重新创业,你觉得过去的经验哪些是可以继续沿用的,哪些是需要根据新环境去调整的?
郭人杰:我觉得第一点是要相信高速测试迭代。当时追觅有两个情况和今天很像。第一个是我们当时也处在一个0到1的行业,我们做的第一个产品不是扫地机器人,是洗地机,那时候市面上只有添可一家,是个绝对0到1的行业。第二个特点是,那时候我们因为年纪小,什么都不懂。现在呢,我们因为这个行业本身太新,所以也是什么都不懂,只是那时候的无知来自年纪,今天的无知是因为这个行业里没有人知道答案。
面对这种未知和无知,我更相信高速的迭代试错,而不太相信武断的主观判断。我们更喜欢用更多的产品形态去测试用户到底会为什么样的产品、什么样的需求买单,而不是今天武断地判断说我认为用户会买单什么产品。这是我觉得最受用的一点,在面对未知和自己的无知的时候,把选择权交给用户,在可控的成本之下尽量多做测试。
第二点是保持高速迭代的体系。在一个0到1的赛道里,你出货的那一天可能只是找到了一个小需求,但因为你已经把产品卖出去了,用户用起来之后会反馈出更多需求。就像大疆从最早的航拍这个小需求,一路找到了影像这个级别的更大需求。所以高速迭代是必须的,我们内部要求硬件两周一迭代、软件一个半月一迭代。
用户卖出去之后会发现更多需求,这些需求很多其实是用户自己“教”给我们的:比如有家长建议,不用做别的功能,就把现有的检测能力用在孩子写作业的坐姿提醒上:孩子弯腰驼背了提醒一下,因为机器人是伙伴的角色,孩子不会有意见,但如果是父母提醒,孩子反而会有抵触情绪。
结语
面对早期市场,每个创业者都有自己对未来想象的图景,在郭人杰的想象中,它足够小,小到不会威胁家里的任何人;足够有陪伴感,能够真正理解家庭成员的个性化需求;也足够有性价比,价格不超过一台高配手机。它不追求解决所有问题,但能看到具体而微的需求:陪老人聊聊天、记录一下宠物、提醒孩子坐直。
这个想象谈不上性感,在行业主流叙事里甚至显得有些“小”。当所有人都在讨论AGI什么时候到来的时候,谈论一台身高一米二、价格不过万元的机器人能干什么过于具体。在具身智能这个充满不确定性的行业里,大多数问题的答案都指向“十年后”或“等模型突破那一天”,但“一个老人会不会愿意跟这台机器聊天”这件事,或许是能够最早被验证的那个切片。
在访谈中,郭人杰提到自己在商学院做的一份作业:老师要求每个人扮演自己的产品,站在十年后的视角给自己写一封信。他写下的一句话是:十年之后我可能也没有长大。产品形态没有定论,标准还在被书写,确定性的未来雏形尚未出现。“有人说机器人要做一米二,有人说要做一米六,我今天肯定会受到很多的环境干扰,但我心里一直有一个相信,机器人真正进入家庭的最终形态,可能就是这么大。”
参考资料:
[1] 钛媒体于2026年6月16日发布的《2026年上半年,460亿砸向具身智能》对话乐享科技郭人杰:不只有AGI才是产品,解决一个具体需求就是好产品
好文章,点个赞
版权提示
转载第一财经商业数据中心原创稿件,请于文首标明来源、作者,并保持文章完整性。非第一财经商业数据中心原创稿件,未经许可,任何人不得复制、转载、或以其他方式使用。如需转载或以其他方式使用稿件内容,请联系CBNData客服DD-4(微信ID:CBNDataDD4)







