最强「打工人」的崛起之路
人类对人形机器人的想象由来已久。
西周时期,周穆王西巡途中遇到一位名叫偃师的巧匠。
偃师向他展示了会唱歌、会跳舞的伶人。伶人是用木头、皮革等材料制作的。周穆王惊异不已,带上伶人一同回国。
这是约公元前三世纪《列子·汤问》中记载的民间传说。
在这个传说诞生的同一时期,亚欧大陆的另一端,也流传着发明家代达罗斯为克里特岛国制作了一个机械巨人「塔罗斯」,用以守卫宝岛的古希腊神话故事。
从想象到成功创造人形机器人,人类花了 2000 多年。
1973 年,第一个真正意义上的的人形机器人—WABOT-1 在日本早稻田大学诞生。
WABOT-1 每迈一步需要 45 秒,步幅只有 10 厘米左右,每走一步都需要停下来再走下一步。以现在的眼光来看,WABOT-1 身形笨重,步伐缓慢,但在当时是巨大的进步。
时间来到 52 年后,今年 5 月,特斯拉的机器人 Optimus 已经能够自如地行走并执行分拣电池,轻握鸡蛋等精细操作了。
马斯克认为,十年后 Optimus 还会为特斯拉贡献 25 万亿美元市值。
人形机器人,正在变得更加接近人类,展示出巨大的市场潜力。
它从古代的神话传说和民间故事中萌芽,历经机械构造的初始探索,智能技术、运动能力的逐级突破,成本与应用的权衡等多个阶段,又在 AI 大模型、大数据云计算等技术的发展下,迎来重要突破期。
1、从手动操作到第一次拥有「大脑」
早期的人形机器人,更像一个手动大玩具。
1937 年,美国西屋电器工程师温斯利团队研发了机器人 Elektro。
这台机器人高 2.1 米,重 118 公斤,能通过特定语音识别命令,行走,说话等等,甚至还有人宣称它能被远端控制。
但实际上,Elektro 并不具备任何控制和管理能力,甚至对外界刺激也无法做出自主的反应。
它不是真的会走路,而是通过弯曲左膝,拖着带滚轮的右腿沿轨道滑动。对话也是预先设定好的,通过藏在背后的唱片机发出声音。其他复杂行动,都需要人类助手来辅助完成。
Elektro 是 18 世纪到 20 世纪 60 年代的机器人的缩影。
这个时期,世界各地都陆续出现了具备基础人形外观的机器人,它们都只是一些机械元件的组合,通过简单的结构驱动,感知能力极弱,智力为零,体积庞大,实用性很低,远远达不到为人类服务的目的。
虽然 Elektro 只是一个人形机械组合体,但它激发了美国大众对机器人的憧憬与想象,促使后续的机器人研发者不断改进机械结构,带动了美国机器人技术与产业的快速发展。
第一台工业机器人 Unimate 和首台人工智能机器人 Shakey 就是在美国诞生。
人形机器人发展早期,美国处于技术领先地位,可第一台人形智能机器人却是诞生于日本。
这是因为在 Elektro 出现后,美国与日本出现了技术分野:
美国选择了实用性更强的非人形机器人,日本坚持发展人形机器人。
1954 年,美国发明家 George Devol 发明了 Unimate。
这是一款机械臂式机器人,通过事先编程,它可以轻松执行将液态金属倒入模具、焊接车身等危险工作,24 小时不间断。
Unimate 首先应用于美国通用汽车工厂,大大提高了汽车生产效率和质量,同时也彻底改变了世界制造业。
时至今日,以机械臂式机器人为代表的工业机器人在汽车制造生产线应用率达 90% 以上,在电子产品、金属制品、塑料及化工产品等行业的应用也十分广泛。
而与 Unimate 同时期的美国人形机器人仍然未能突破早期机器人的局限,它们既不能为生产带来价值,也无法将人类从工作中解放出来。
人形机器人相比工业机器人的优势就是其通用性,要实现通用性,需要在运动控制与智能化方面都得到提升,而这是当年无法攻破的技术难关。
于是,美国人形机器人在工业机器人的强大光环下渐渐式微。
日本在发展人形机器人方面,则有着文化、技术与经济的良好土壤。
由于《铁臂阿童木》动漫的风行,日本社会对人形机器人有着天然的亲和力。
与此同时,二战战败的日本对技术陷入狂热的迷恋,大量从国外引入先进技术,经济飞速发展。
在这样的背景下,1973 年,日本早稻田大学加藤一郎团队研发出世界上第一个全尺寸人形「智能」机器人 WABOT-1。
WABOT-1 的出现是人形机器人发展历程中的关键事件,它标志着人形机器人:
首次具备了基础的双足行走能力。WABOT-1 可以实现缓慢的静态步行,每步耗时 45 秒,步伐 10 公分。
首次具备感知能力。WABOT-1 搭载了人工视觉、听觉装置,手部有触觉传感器。
首次拥有了「大脑」。它的大脑是一台小型计算机,智力与一岁半的幼儿相当,可以根据人的指令规划路线,搬运物体。
在运动控制和智能化方向上,WABOT-1 实现了首次突破。它仍然具有体积庞大,动作缓慢,功能性不足等问题,但它展示出人形机器人执行任务的潜力。
此后,人形机器人开始被作为一个特定的领域研究重视。
2、机器人安上灵巧手,12 万只能租一天
不同于美国,日本在 WABOT-1 问世后的近半个世纪里,即便也引入了关键的工业机器人技术,却始终没有放弃对人形机器人的追求。
这既是由于前文提到的文化氛围的影响,也与日本人社会老龄化持续加重有关。
日本从 1970 年代初,便步入老龄化社会,人口老化速度高于其他欧美国家。
人形机器人在日本被视作能够为人类提供长久陪伴与照顾的优秀伴侣,这个理念贯穿日本人形机器人的发展历史。
日本车企本田首先注意到了人形机器人未来在日本的巨大成长空间,于 1986 年开启对机器人的研究,并率先在双足稳定行走、自主行动、人机互动等方面实现突破,领先世界。
最重要的是,本田为人形机器人装上了一双灵巧的手,使其能够执行细致的任务。
本田研发机器人的技术逻辑是「从足到手」,即从完善自主行走能力逐渐过渡到全身能力的扩展,最后到手部的提升。
1986 年到 1993 年,本田首先研发出只有双腿的 E 系列机器人,之后推出添加了手臂和躯体的 P 系列机器人。
这个过程中,本田逐渐开发出了特有的步行稳定控制技术,能够让机器人在适应各种不平坦路面行走并保持平衡。
解决了稳定行走与四肢协调平衡的问题后,本田在 2000 年推出了人形机器人 ASIMO。
ASIMO 进行了 2 次迭代。
最新的 ASIMO 于 2011 年推出,身高 130cm。体重 48kg,跑步速度可达到 9km/h,全身有 57 个自由度。
通过本田研发的 I-Walk 技术(智能实时灵活行走技术)与搭载的多种传感器,ASIMO 能够自主观察人的移动,预测人的行走方向,从而避免碰撞。
在人体识别、路径规划一类的人工智能技术的加持下,ASIMO 能够听懂三个人同时说的话,为人提供引导服务。
ASIMO 的双手分别有五指,双手自由度达 26 个,几乎占全身自由度的一半。手指内置传感器。通过物体识别技术,ASIMO 能够拧开瓶盖。此外,它还能用手语进行自我介绍。
不难看出,ASIMO 的技术研发理念的核心是与人互动,为人服务,在手、足、脑各个维度上均有较大提升。尤其是手部的设计,使它能够完成更加复杂的任务。
但它距离本田的「机器人与人共存」的愿景仍然很遥远——ASIMO 的造价十分高昂,达 300~400 万美元,功能也限于端茶倒水、搬运托盘等,续航时间仅一小时。
成本与所实现价值的不对等,使得 ASIMO 很难走入千家万户,实现规模量产与广泛应用。
2011 年福岛核事故发生,让本田真正意识到了 ASIMO 实用性较低。
面对日本民众希望使用 ASIMO 处理核事故的请求,本田回复:「很遗憾,现在还没有达到大家期望的技术水平」。
2011 年后,本田没有再对 ASIMO 进行迭代。
ASIMO 曾在日本的部分展览馆担任接待工作。
由于本田只提供 ASIMO 的租赁服务,而 ASIMO 一天的租赁费用高达 200 万日元(按照 2011 年汇率,约合 12 万人民币),这些展览馆止步于尝鲜,毕竟这个数额远高于人类员工的工资。
2013 年,ASIMO 在日本科学未来馆与游客交流
之后,成本更低,专注于接待、送餐等单一服务的智能机器人纷纷快速实现商业落地。
ASIMO 的竞争力不断降低,2018 年,本田宣布停止 ASIMO 的研发。
ASIMO 商业化过程中暴露的一个重要问题是,在成本较高的情况下,机器人的功能需要足够复杂、多样化,才能保持作为人形机器的竞争力,否则,它们极易被聚焦细分领域的非人形机器人替代。
以 ASIMO 为参照,人形机器人发展的两个制约因素逐渐显现:产品成本过高、智能化程度无法满足人类需要。
这两点导致彼时的人形机器人难以商业化。
在人形机器人业务上,企业无法获得反哺,实现可持续发展。本田的人形机器人研究落下帷幕。
3、能在空中劈叉,Atlas 独领风骚
福岛核事故后,人形机器人的接力棒,又回到了美国手里。
为了解决机器人在类似福岛核事故的灾难事件中无能为力的问题,美国国防部高级研究计划局(DARPA)决定开展机器人挑战赛。
DARPA 机器人挑战赛于 2013 年至 2015 年举行,吸引了世界各地的 100 多个团队报名。
参加 DARPA 机器人挑战赛的机器人
DARPA 机器人挑战赛将人形机器人的研发方向从办公、家用场景导向灾难响应、军事救援场景。
此后,以实现人机互动为目的的机器人智能提升进程暂时搁浅,提升人形机器人运动能力成为一大主流研究方向。
Atlas 便是在挑战赛背景下,由 DARPA 联合美国机器人企业波士顿动力研发而成。
6 台 Atlas 样机被提供给 DARPA 选定的 6 只优秀团队进行开源与训练,与其他机器人一同竞赛。
初代 Atlas
这让 Atlas 有机会接触到当时世界上最高端的几类运动控制技术。虽然它在最终的决赛中未能夺魁,但它的研发方向始终未曾改变,那就是对极致运动能力的追求。
得益于波士顿动力团队深厚的技术背景,Atlas 成为继 ASIMO 之后,世界上最先进的人形机器人之一。
Atlas 在最初就选择了和 ASIMO 截然不同的动力技术路线:ASIMO 是电机式,Atlas 是液压式。
液压式技术方案的优势在于,其能量输出密度是电机式的数倍,这意味着液压式机器人拥有更强劲的动力。液压设备还具有耐高温的特性,适合大负载、环境恶劣的场合。电机式则在精巧控制方面更优。
如果说 ASIMO「德智体美劳」均衡发展的好学生,那么 Atlas 就是专攻体育的运动健将,力量更强,更持久。
Atlas 能够单脚站立,搬运重物,做后空翻,空中劈叉跳,还能进行跑酷、体操、舞蹈表演。翻筋斗、倒立、360 度旋转跳跃等高难度动作不在话下。
然而,成也液压,败也液压。
液压系统让 Atlas 获得了优秀的运动能力,却也成为它落地实用场景的掣肘。
首先,液压方案的研发制作成本居高不下。
液压系统元件的复杂程度远高于电机,仅仅是一个执行器,就需要油缸、油箱、增压泵、分压阀、金属液压管路等精密元件。
Atlas 全身上下有 28 个液压驱动关节,每个关节的执行器都具有不同的特性,设计的复杂程度可想而知,制造成本难以降低——Atlas 的造价高达 200 万美元。
其次,液压元件维护难度大。
液压系统需要定期更换油液、滤网等消耗品,维护方式复杂,由于元件的精密度较高,通常需要定制,维护成本也较高。
Atlas 定位军事场景,运行中难免受到冲击和磕碰。即便是在训练场景中,Atlas 也容易因为摔倒漏油,元件破损而失去动力。
动力技术方案的改变,与运动能力的强大提升,也没能让人形机器人找到落地场景,走出商业迷局。
高昂的研发成本与落地商业的艰难,成了悬在人形机器人制造企业头上的达摩克里斯之剑。
波士顿动力也几经易主,先后被谷歌、日本软银集团、韩国现代汽车集团收购。液压版 Atlas 也在今年宣布退役。
不过,Atlas 还是给后来的人形机器人积累了宝贵的技术经验,为它们在运动能力上的快速迭代打下基础。
4、用上端到端,特斯拉把成本拉到最低
2022 年 10 月,特斯拉的机器人 Optimus 正式发布,人形机器人再次受到广泛关注。
初代 Optimus 重 73 公斤、高 1.72 米,可缓慢行走,挥手、摇摆。在演示视频中,它还能搬箱子、浇花、在特斯拉汽车工厂工作。
对比它的前辈 ASIMO 和 Atlas,初代 Optimus 功能并不丰富。
功能上尚无突破的机器人,为什么能够引发世界瞩目?
原因有三:
一是特斯拉自动驾驶技术与人形机器人技术的可迁移性,业界普遍对 Optimus 的未来有很高的期待。
特斯拉研发的 FSD(Full Self-Driving,即完全自动驾驶)算法在电动汽车领域已经获得成熟的应用。它能够让汽车识别真实世界中的物体,并对车辆发出控制指令。
通过嵌入 FSD 计算机,Optimus 可以识别和理解周围的物体和环境,规划行动路线。FSD 端到端的自动驾驶算法能够让 Optimus 直接通过观察人类行为来学习和掌握技能。
目前,特斯拉已打通 FSD 和机器人的底层模块。Optimus 在两年的时间内快速迭代,已能实现分拣电芯,放置鸡蛋等精细操作,较好地回应了业界的期待。
二是 Optimus 预期制作成本非常低。
回顾人形机器人的发展历史,成本是困扰人形机器人商业落地的最大问题。
以往的机器人造价均达百万美元,特斯拉则计划将 Optimus 的成本降低到 1 万美元左右,售价为 2 万美元左右。
特斯拉是怎么省下这笔钱的?
两个方法:复用技术和零件,减少部件数量。
特斯拉在自动驾驶领域的积累的技术与研发的设备都可以迁移到机器人身上,例如 FSD 系统与计算芯片,在最烧钱的方面省了钱。
此外,Optimus 在迭代中减少了自身执行器与摄像头的数量。执行器数量从 40 个降到 28 个,摄像头数量从 8 个降到 3 个。
通过降低成本,特斯拉 Optimus 成为最具性价比的机器人。
马斯克认为,在未来,一台家用机器人可能比一辆汽车更便宜。
购买门槛的降低,让人形机器人有机会得到更广泛的应用,在更多复杂的场景中学习,具备通用性。
三是 AI 大模型的赋能,机器人智能化有望迎来重大突破。
2022 年底开始,以 Chat GPT 为代表的大模型相继落地,展示出在理解和生成人类语言方面的强大能力。
在这之前,机器人行业有两大痛点:交互不便,无法理解人类的自然语言;不够聪明,无法对复杂任务自主拆解。
通过引入大模型,机器人可具备自然语言和视觉/触觉的多模态交互能力、适应多场景的泛化能力。人形机器人行业迎来风口,具身智能概念火热。
站在风口上的,不止特斯拉。
国外看,领先的企业有美国 Figure AI、挪威 1X Technologies、美国 Agility Robotics、波士顿动力等。
Figure AI 与 1X Technologies 都背靠 OpenAI。前者专注多模态大模型与人形机器人的融合,已发布 Figure 01、Figure 02 两代机器人。两款产品均已进入宝马汽车制造工厂「实习」。
后者推出的 EVE 机器人主要提供安保服务,已实现小范围商业化,还有通用机器人 NEO 正在研发中。
Agility Robotics 也具有明确的商业意识。其研发的 Digit 定位仓储物流服务,已进入亚马逊、全球物流巨头 GXO Logitics、供应链物流企业 Manhattan Associates 的工作场景中进行测试、执行任务。
今年 8 月,部署在 GXO Logitics 仓库的 Digit 完成了 10000 个订单的履约。商业落地初见成效
波士顿动力发布了电动版 Atlas,展示出超越人类的关节控制能力。波士顿动力表示,电动版 Atlas 将于明年初在韩国现代汽车工厂里开始试点测试。
英伟达、微软、OpenAI 等科技巨头则多以融资、合作或研发关键技术的方式入局。
国内看,优必选、傅利叶智能、宇树科技等较早布局机器人领域的企业引领行业,具有产品商业化与技术上的先发优势,星动纪元、智元机器人等一众新型初创公司在后追赶。
优必选在稳扎稳打,优化技术,旗下有 Walker 系列机器人,大约 1~2 年进行一次迭代,平均售价约 598 万元人民币。
2023 年底,优必选上市。今年,Walker S Lite 已进入极氪 5G 智慧工厂工作。
傅利叶智能在追赶量产进度,其人形机器人 GR-1 已实现量产并开始陆续交付。
宇树科技打起了价格战。它研发的 G1 机器人售价降低到了惊人的 9.9 万元起,是目前市面上价格最低的一款机器人之一。
星动纪元、智元机器人均在 2023 年成立,都在极短的时间里发布了多款人形机器人。
星动纪元已发布 3 款。智元机器人的机器人则多达 6 款,可覆盖交互服务、柔性智造、重载特种三类场景。
智元机器人曾表示会将人形机器人远征 A1 的售价控制在 20 万元以内。
腾讯、百度、阿里巴巴、华为、小米等大厂则分别走上了自研/入股/战略合作的不同道路。
总体来看,人形机器人行业整体呈现出「企业冲刺、巨头下注」的态势,对技术、价格、量产规划各有侧重。在应用落地方面,人形机器人纷纷进厂实训。
虽然多数企业宣称自己的人形机器人将具备通用性,但目前来看,新推出的人形机器人大多以汽车制造、物流仓储等工业场景为落地场景。
这是一个迂回的路线:通过找到一个特定的应用场景,实现初步的商业化再逐步考虑其他功能的突破。
问题是,在工业场景,人形机器人如果不能在环境感知、人机交互、适应复杂环境的能力上具备优势,尽快实现通用性,未来可能还会面临与工业机器人的竞争,陷入与 ASIMO 同样的困境。
要在通用性上具备优势,人形机器人企业还需要跨过两座大山。
一座是训练数据,另一座是 AI 大模型。
高质量的训练数据是人形机器人实现泛用性的基础,也是降低人形机器人研发成本的关键所在。
人形机器人的训练数据需要大量工程自主操作,或者由人类进行演示,这就导致数据收集效率较低且成本较高。
数据是人形机器人学习的素材,而 AI 大模型则是学习的大脑。
目前,AI 大模型还能未达到与人形机器人硬件相匹配的程度。比如,大模型的持续积累能力不足,积累的知识容易随着数据汇聚被遗忘。
针对特定领域的大模型训练不够充分,部署成本太高等等。
人形机器人还缺乏可表达的、可扩展的、足够快的实时推理模型。
此外,人形机器人也需要克服硬件成本问题。有报告显示,人形机器人的硬件总成本目前约为 5 万美元。
以色列智能机器人中心主席 Yosi Lahad 认为,人形机器人成本需要降到 2 万美元以下,才能够得到大规模采用。
尽管人形机器人的发展仍然面临诸多限制,但行业热潮不减。毕竟谁也不知道,人形机器人的技术奇点何时到来。
谁先占领高地,谁就掌握了在未来彻底改变人们生活方式的命脉。