具身智能,人形机器人的「试金石」
赋予人工智能以形体的「具身智能」,正在走红。
具身智能,这场机器人与人工智能行业的「双向奔赴」,让人们看到了想象中能够「在家打扫卫生、在工厂上班」的高智能机器人开始走入现实。
随之而来,国内外诞生了一批形态各异的双足、双臂机器人、四足机器狗。
站在聚光灯中心的,首推人形机器人。
那么,人形机器人是不是具身智能最佳载体?
2022 年之后兴起的具身智能机器人创业潮,特斯拉的擎天柱、Figure AI 的 Figure 02 成为人形机器人的典型代表。
这批硅谷创业者认为,在一个人类改造、创造的世界里,人形机器人是具身智能最佳载体。人形机器人将获取人类社会数据,为人服务为目的而出现。
做「人形」还是「非人形」,背后真正决定具身智能机器人赛道选择的是技术驱动或场景驱动。
肉眼可见的是,「不缺钱」的玩家高举高打,大多在做人形机器人,是为「技术驱动」;
而更多的是以尽快商业化为目的的「场景驱动」型玩家,进入了非完整人形(有手、有脚)机器人赛道,比如用技术更成熟、容易落地的「轮式」代替「双足」;
还有一类是打着人形机器人旗号,为了获取市场好感度,只是给机器人披上了一层人形外衣,徒有其「表」而无其「实」。
具身智能,成为人形机器人的「试金石」。
无论是「完整、非完整、假完整」人形机器人,智能化程度(大脑+小脑+本体)的高低,是判别机器人「成色」的最佳标准。
人形机器人站在具身智能技术金字塔尖。
具身智能赛道正在推开多模态大模型技术大门,打造充分利用人类行为数据、场景的机器人,释放出迷人魅力。
1、「非完整」和「完整」人形机器人之争:为什么国内机器人大多「缺胳膊少腿」?
今年 6 月,北京大学助理教授王鹤掌舵的银河通用机器人,获得来自美团等投资机构 7 亿元融资,打破了今年的天使轮融资记录。
与特斯拉等科技巨头打造的有双腿、能走路的一类人形机器人不同,银河通用的产品 Galbot G1 没有采用「双足」方案,而是运用可折叠的单腿+轮式底盘。
是否有完整人形,将人形机器人赛道里分出「非完整」和「完整」人形机器人两大板块。
(1)、「非完整」人形机器人之「双臂优先」派
以银河通用为代表的一派认为,研发双足耗费巨大成本,不是现阶段的重心,目前主要精力应放在双臂操作能力上。
其中最具影响力的,包括 Open AI 唯二投资的人形机器人之一的 1X,已在北美和挪威推出了轮式机器人 EVE。
明星公司 Sanctuary 在双足机器人产品经过六七代产品迭代后,宣布放弃「双足」转为「轮足」产品。
国内的由腾讯 RobticsX 机器人实验室前一号员工创办的星尘智能 S1、清华系的星海图 R1,以及顺为资本投资的飒智智能推出的移动双臂作业机器人「白猱」等,下半身均采用了轮式底盘。
即便都在重点发力上肢的机器人,但这些产品的手指数量及形态不一。
比如,银河通用 G1 有右夹爪+左吸盘组合,星尘智能 S1 采用双机械臂+二指夹爪,UniX AI Wanda 是三指手,而戴盟机器人的 Sparky 1 配备五指灵巧手。
(2)「非完整」人形机器人之「双足优先」派
与「双臂优先」派相反,更重视移动能力的双足玩家也有「非完整」一派,先给机器人发展出了跑、跳运动技能。
对比对应,上肢「五花八门」:
宇树 H1,双手为两个球体;
逐际动力 CL-1 的双手为两圆柱、双足机器人 P1 无上半身/机械臂。
更甚者,小鹏鹏行前总裁创办的众擎双足机器人 SA01,竟然没有安装手臂。
(3)「完整」人形机器人派
相比各有侧重的企业,这一派则是「全都要」,本体形态上从双足到双臂和智能上的大脑、小脑,被称为「全尺寸双足人形机器人」。
「完整」人形机器人产品也是最为瞩目、智能化程度最高的,有 Figure AI 的 Figure 02,特斯拉的擎天柱(第二代)等。
「技能点」加满、一步到位多条技术点并行研发,这一路线国内最具冲劲的是由前「华为天才少年」稚晖君(彭志辉)创立的智元机器人。
智元在一年内收获 5 轮融资,估值超 70 亿,可谓国内吸金最多的人形机器人创业者。
实际上,一些「非完整」人形机器人甚至不认为它们在做人形机器人,而是冠以「具身智能」机器人。
广东省具身智能机器人创新中心负责人、深圳市人工智能与机器人研究院常务副院长丁宁认为,人工智能和机器人结合,就是具身智能。
这一定义简单明了。
一般来说,具身智能(Embodied AI),指的是机器通过感知交互,像人一样感知周围环境变化并作出相应反应,具备敏锐而灵活的感官。
人形或非人形机器人只赋予了机器人以「形」,而具身智能却亮点了「智」。
对于具身智能产品而言,形态不是最重要的,关键是适应不同形态的足够智能的大脑和小脑。
因此,具身智能,也是人形机器人的技术核心。
人形机器人由本体和智能体组成
资料来源:特斯拉官网,机器人在线,中金公司研究部
顺其自然,具身智能的实现方式,不一定是人形机器人。
星海图 CEO 高继扬在一次公开采 访中提及,机器人现在面对的环境是人类改造过的社会环境,人形机器人对于高度特化的任务岗位未必是最合适的。
在他看来,具身智能的未来应该是「一脑多形」。
进入人形机器人更本质的存在——具身智能大脑,出现了一批备受关注的产品。
英伟达的多模态人形机器人通用基础模型 Project GR00T,专为人形机器人打造,支撑机器人学习技能、完成任务;
前阿里达摩院机器人实验室负责人陈俊波博士创办的有鹿机器人,专注于机器人通用大脑研发,目前,已经获得超千万元的具身智能通用大脑 Master2000 的订单,是具身智能领域商业化走得快的一家;
上海交通大学计算机科学与工程系教授卢策吾,重点切入具身智能大脑领域,身兼非夕科技联合创始人、穹彻智能 CEO。穹彻具身大脑 Noematrix Brain,能够赋能各种机器人或执行体,曾展示过叠衣服和削黄瓜技能;
具身智能大脑另一大优势是价格低廉。
据报道,相比于 15-20 万元的硬件本体,协作机器人的具身机器人大脑的价格只是零头。
那么,从双臂、双足到大脑,决定一家具身智能公司选择创业方向的关键是什么?
根本上来说,这取决于公司由技术驱动还是场景驱动。
曾任字节任飞书产品副总裁、人形机器人公司「加速进化」创始人程昊曾表达过他对人形机器人公司商业化路径的看法:
「最理想的养活自己方式是,先锻炼出几百台、上千台的量产能力就行了,积累期先卖给科研机构。产品形态一直保持通用人形,不需要中途去做垂类专用机,商业规模上慢慢扩大。」
对比起来,那些「不缺钱」的美国硅谷创业者们(如特斯拉、Open AI),则致力于直接啃下技术高地,甚至不必过多考虑商业化前景。
「不缺钱」的具身智能公司才做人形机器人,这一现象在国内同样适用。
融资最多、在资本市场融资多轮走得最远的,都在做人形机器人,比如:
创业企业智元机器人(2023 年 12 月,A3 轮,6 亿元),以及老牌机器人厂商优必选(2023 年 12 月,IPO)、傅利叶智能(2022 年 1 月,D 轮,4 亿元)、乐聚(2023 年 2 月,C 轮)、宇树科技(2024 年 2 月,B2 轮,10 亿元)等。
若要走得远,「缺钱」的玩家则须适配落地场景,实现小步快跑。
机器人界泰斗王田苗曾表示,面向大 B 端市场的机器人创业公司来说,第一个要素是场景背后的资源(大厂不仅能投钱,还能提供经验和数据)。
比如,小米汽车、美团物流都能为机器人提供场景数据。
第二要有产品技术;
第三要能整合资源、融资,「不然(机器人公司)融到 5 亿、10 亿之后,就融不下去了」。
接受美团融资的银河通用在场景驱动下,产品主要销售方向之一是美团的商业化的场景,其研发的「移动抓取放置」技术,希望做到在药房里拿药,机器人可以替代夜间值班人员,抓药交给快递员。
没有大厂背景的玩家,出货渠道还是以学校和科研所等科研场景。
人形机器人对大众形成的情感冲击力,让外界知道了具身智能,催生了又一硬科技创业板块。
1、「人形」不是具身智能唯一形态,但是最佳落地形态
文艺复兴时期,意大利画家、科学家达·芬奇在手稿中绘制了世界上的第一款人形机器人,机械感十足。
1973 年,日本早稻田大学的实验室里走出来世界上第一台真人大小的人形智能机器人——WABOT-1。
现如今,诞生了智能程度最高的人形机器人,波士顿动力的「Atlas」、特斯拉(TSLA.US)的「擎天柱(Optimus)」和初创公司 Figure 在今年发布的「Figure 01」。
人形,成为全世界对机器人最完美的想象,并被反复影视化,热情从未磨灭。
无论智能化程度高低,科技公司推出的机器人普遍希望做出具有亲和力的人形外壳。
我们生活的这个世界,由人改造和创造,是为人设计的。人形机器人,也是具身智能最佳落地形态,终极实现目标。
具身智能,正是对人类物理世界的「数字化」。数据,决定了人形机器人智能程度的关键因素。
ChatGPT 的 AI 大模型,只需要理解语意和人类交互,而具身智能机器人具备运动能力。
不同于 AI 大模型采用的文字、图像、视频等数据库训练数据,具身智能需要真实人类社会各个场景的数据——开门、做饭、清洁等居家场景,或会拧螺丝的工业场景,进而理解物理世界的运作规则。
能够成为具身智能终极形态,一是因为人形机器人能更好地利用人的数据来学习;二是具身智能硬件需要在现实场景中铺开,否则难以获得大量可靠数据,「在岸上学不会游泳」。
科学家(厂家)在机器人身上安装各类传感器,包括光、声音、温度、距离、压力、定位、接触等,让机器人形成「感官刺激」感知外界信息。
特斯拉部署端到端运行的神经网络,这个神经网络在为人形机器人 Optimus 打造的嵌入式 FSD 计算机上运行(特斯拉的全自动驾驶系统 FSD 直接被应用)。
通过机器人 2D 摄像头、机载本体感受传感器的视频,Optimus 能直接生成关节控制序列,模仿人类的 78 个关节进行活动。
为了获得足够多真实数据,特斯拉、Google 都选择用「遥操」方式采集数据,即真人戴上一些采集设备(全身运动捕捉设备),捕捉人体全身高精度运动关节的角度,进而训练完成机器人要学的多种技能,比如走、跑、跳、抓、拿、放等。
人为演示一个动作大约 50 次之后,机器人才能学会。
人形机器人在真实世界里很难获得十亿量级的数据,这是因为收集真实数据耗费巨大。
Google 做十几万条数据,花去了十多个月时间和大量经费。
为了提升收集数据的效率,2023 年 10 月 4 日,谷歌旗下著名 AI 研究机构 DeepMind 发布全球最大通用大模型之一 RT-X,并开放了训练数据集 Open X-Embodiment。
该训练数据集由全球 33 家顶级学术实验室合作,整合了 22 种机器人和近 100 万次试验数据。
此外,也有玩家在通过虚拟合成等形式在降低成本。
银牛微电子的 3D 空间计算解决方案,以「三维空间多模态大模型数据库」帮助人形机器人克服触觉等其他感知的不足,实现低成本、超高精细度的精巧操作能力,「帮助大模型的发展摆脱对算力和数据量的过度依赖」。
具身智能必须进入真实人类生活,与人为伴,才能够构建在新环境中的适应能力。现实场景可以帮助机器人更好的完成任务、适应人类社会。
在工厂「打螺丝」也应该进入真实的制造环境中,收集流水线上的场景数据。
还可能有一些意外情况出现,比如,当人和人形机器人共处一个场景,人类行为的随机性也增加了人形机器人「随机应变」的难度。
对人形机器人来说,关键的是数据、模型和场景。
基于「大脑」数据,类似 ChatGPT 的 AI 大模型植入人形机器人,可以理解语意和人类交互,发展。
而「小脑」让具身智能机器人都需要运动,也非常多数据进行综合训练,模仿学习到人类的轨迹。
实际上,人形机器人的落地需要有两套数据,满足物理世界的模型和机器人行为模型。
所以,迄今为止,具身智能因部署成本很高,泛化能力的提升尚有赖于大量部署产品收集数据之后的规模效应。
让人形机器人在真实场景「历练」,一次次摔倒、犯错,直到最终像人一样站起来完成任务。
这就是具身智能领域对人形机器人的愿景。
3、人形机器人,站在具身智能技术金字塔尖
具身智能技术发展至今,有两个最具影响力的事件。
一是 2022 年 11 月,ChatGPT 的问世展现了大型语言模型(LLM)的突破;
二是 2023 年 7 月,谷歌 DeepMind 推出了一款新的机器人模型 Robotics Transformer 2(RT-2),融合了视觉、语言、动作能力的多模态大模型。
嵌入大型语言模型(LLM)交互后,机器人能够开始理解人类需求;而多模态大模型能够根据用户的自然语言指令和环境的图像,操控机器人本体完成任务。
多模态大模型,突破了单一模态不足以应对复杂场景的限制。从大型语言模型到多模态大模型,具身智能大脑,初具雏形。
最近在一次行业论坛上,北航机器人研究所名誉所长、中关村智友研究院院长王田苗指出,目前具身智能创新研究的热点包括:
大脑、小脑、空间智能、肢体与上游核心部件。
大脑涉及到通用机器人大模型、数据模拟器、数据制造工厂、端到端算力芯片;
小脑包括运动、空间智能、视觉识别获取建模理解能力;
肢体有核心零部件研究。
这是一副具身智能研究领域的恢宏图景,集各项技术于一身的人形机器人,站在具身智能的金字塔尖。
而多模态大模型,正是具身智能机器人的核心,让本体机械装置拥有了智能,成为推动具身智能领域向前发展的关键动力。
国内外最受关注的多模态大模型技术,包括:
特斯的端到端技术的具身多模态大模型;
OpenAI 基于 GPT-4o 为 Figure 01 搭建的具身智能 AI 模型;
加州大学伯克利分校推出的融合了硬件本体、运动小脑、决策大脑三部分的 LM Nav。
在国内,各家具身智能创业者将多模态大模型朝着标配方向进化。
比如,智元机器人远征 A1 搭载了自研的 WorkGPT;达闼机器人推出了多模态大模型 RobotGPT。
值得注意的是,集成多模态大模型和大型语言模型(LLM),成为初创玩家获得具身大脑技术的一条捷径。
国家地方共建人形机器人创新中心打造的「朱雀」具身大脑共集成 3 个大模型(科大讯飞星火大模型、上海人工智能实验室书生·浦语大模型、上海人工智能实验室书生·万象多模态大模型)。
有行业观点认为,在多模态大模型技术推动下,机器人「大脑」进化速度远超机器人本体,或将在未来 2 至 3 年内驶入规模化产业。
在具身智能领域,「大脑」的技术发展比上肢领先,上肢比下肢领先。
机器人「大脑」需要准确规划任务,而「小脑」则要负责精确的动作执行。
目前,「小脑」控制的下肢(双腿)的运动能力发展不及「大脑」。
这也回答了一个问题:为什么将具身多模态大模型,集成于经过数十年的发展形成成熟的技术体系和产业链的机械臂技术,主攻「非双足」的人形机器人路线,有不少拥趸。
具身智能多模态大模型加上「大脑」,可以率先做出泛化能力较高的具身智能机器人。
具身智能技术仍在早期阶段,未来是否人形机器人会占据主流并未可知。
星尘智能投资方云启资本合伙人陈昱接受媒体采 访时表示:
「具身智能的技术路线尚未收敛,有端到端机器学习方案、大模型加强化学习的方案,还有其他方案。在技术早期我们也会多布局不同技术路线的公司,未来技术路线可能也未必收敛,可能每种技术路线都有存在价值,都有可能做出高性价比、高功能的具身智能。」
人们更熟悉的自动驾驶领域的 corner case 问题长期难以解决,特斯拉为代表的企业在推进端到端神经网络方式的大模型路线,依赖规模定律(scaling law)发展,是否能够在具身智能领域跑通?
从投资的角度来说,正如李开复不看好具身智能当下的发展,「我们肯定不能现在去投一个 10 年后才发生的事」。
作为一项美好愿景,人形机器人许诺了人类「星辰大海」。
人形机器人一旦成熟,可能会比碳基生命——人的能力更厉害,甚至超过人类。
人形机器人或许可以从单智能体到多智能体协作、机器与人类的协作,以群体智能完成复杂任务。
而对未来的想象,是推动了人类持续进行技术探索的动力。