大模型“点睛” 人形机器人加速“进化”
一年一度的世界机器人大会是洞察机器人行业前沿的重要窗口。刚刚在京落下帷幕的2024世界机器人大会现场,被视为最适应现实世界的人形机器人站上C位,27台整机同台竞技,数量、水准创历届之最。
与往届不同,在大模型“催化”下,从AI点缀、AI介入到AI驱动,从锁起来的展品,到动起来的产品,再到加速量产的商品,人形机器人正在经历由局部到整体的系统性进化。
从单一灵巧到系统协调
对一款人形机器人说:“我想喝杯拿铁。”两只灵巧手的默契配合下,不一会儿,一杯飘着香气的咖啡就递到眼前;
对着另一款人形机器人“盖博特”说一句:“盖博特,帮我拿一把雨伞。”接到指令的机器人伸出双臂,立马行动起来。它面向众多物品,从中眼手协调地抓取出雨伞,赢得现场喝彩……
这届大会,人形机器人之间的比拼已不止于单点的技术突破,以及单个“器官”技术参数之间的PK,而是“进化”到不同器官之间的配合与协调。
“别看只是简单的抓取、归置,这两个动作背后包含了多种核心技术。”“盖博特”的研发方、北京银河通用机器人有限公司联合创始人姚腾洲向记者介绍。
过去两年,单只灵巧手的核心技术,已逐步被多家企业掌握。例如,最新发布的智元机器人已替下去年6个自由度的灵巧手,换上19个自由度的升级版灵巧手。亮相本届机器人大会的优理奇人形机器人Martian,单只灵巧手的自由度已达到23个。
然而,如今人形机器人手部能力的“锻造”,已超越单个器官的灵巧,转向为局部协调的迭代。左右手的协同配合,一方面有赖于拥有像人一样自由转动的关节、更多的“自由度”,另一方面还需要多维度的环境感知、更加精密的控制算法。
“感知触觉与视触觉相结合的多触觉传感器,配合上持续优化的控制算法,能够处理更广泛的物体交互。比如能实现左手捏住纽扣、右手拿针完成穿针引线这样基于视触觉位姿估计的精细操作。”智元机器人联合创始人兼首席技术官彭志辉说,当机器人拥有了感知触觉与视触觉的能力,它就可以做到对力的精准定位与对力度大小的调节控制。
“我们采用了立体视觉系统,形成了手眼伺服系统、控制系统、运动系统,实现了人形机器人的‘眼到手到’。”北京伟景智能科技有限公司创始人董霄剑说。
从AI“点缀”到AI驱动
人形机器人加速“进化”,背后离不开AI这个“驱动器”。
“人形机器人与人工智能的深度融合,构成今年机器人产业的显著趋势。”优理奇机器人科技公司创始人兼首席执行官杨丰瑜做出判断。
早期的机器人仅能执行特定环境的固定指令。“过去,机器人没有自主的运动控制能力,只能在固定环境完成单一任务,换一个环境后就难以完成。”北京具身智能机器人创新中心有限公司总经理熊友军说,由于传统机器人基于Model-Based,即以数学模型求解方程的方式训练机器完成任务,当换一个陌生环境后,则需重新列方程、解方程,导致机器人的泛化能力很差。
如今AI驱动下,“大脑”与“小脑”的升级,牵引人形机器人不断“进化”。
大模型的一大功能,首先体现在人形机器人“脑力”的升级。熊友军说,人形机器人的“大脑”以多模态大模型增强人机交互,实现对人类意图的理解、对复杂外部环境的理解与认知。
科大讯飞人形机器人首席科学家季超举例说,例如星火大模型在复杂任务拆解、开放场景物体识别、多模态感知与理解等维度,显著提升了人形机器人的智能化水平。
“大模型的思维链推理能力显著提升了机器人对于复杂任务的理解能力,并提供了符合物理世界常识的任务拆解与规划。具身感知模型与具身决策模型的结合,进一步提升了机器人在真实场景下的多模态感知与理解能力。”季超说。
大模型的另一功能,体现在人形机器人“小脑”的增强。“也就是通过算法驱动人形机器人的运动控制,提升机器人的灵活性与协调性。全方位调动视觉算法、运动控制算法、语音算法、基于状态记忆的强化模仿学习算法,实现对机器人的运动控制。”熊友军说。
大模型对机器人的赋能,还体现在通用性与泛化性的提升。杨丰瑜说:“预训练大模型,使用大量数据集进行预训练,能使机器人具备更强的学习能力。迁移学习,意味着大模型能将特定任务上的学习能力迁移到机器人任务上,提高适应性、泛化性。另外是多模态学习,也就是结合视觉、听觉、触觉等多种信号输入,提升机器人对复杂场景的感知与理解能力,学会‘举一反三’。”
今年以来,人工智能正深度渗透到人形机器人“进化”的各个阶段。“一是感知系统,从基本的环境感知到复杂的多模态感知(视觉、听觉等)。二是运动控制,从站、走到跳、跑,手部从简单的抓取到完成复杂的精细操作。三是智能决策,从预定义行为到自主学习和决策。最后是交互能力,机器人与人、环境的互动,从单纯接受指令,到自然语言的理解,再到情感识别。”杨丰瑜介绍,前两者涉及机器人的“小脑”和“躯干”,后两者则深入到机器人的“大脑”层面。
大模型驱动下,人形机器人的演进路线什么样?“最初是传统自动化,即人工编排下初步的感知、执行。这一阶段的机器无法在不同场景下做迁移,不具备泛化性。第二阶段是基于基础模型的通用原子能力,也就是单个的任务编排,部分实现特定任务的能力迁移。第三阶段是数据驱动下的端到端操作,逐步经过认知推理规划大模型到端到端操作大模型的升级,实现更强的跨任务泛化能力。”彭志辉归纳。
从产品迭代到量产提速
站在2024世界机器人大会展厅门口,仿佛踏入一个未来世界——机器狗在行人的匆匆脚步间灵活避障、自由穿梭,有的机器人作揖、奔跑,有的机器人炫起球技,有的忙于为参观者准备可乐、冰激凌,还有机器人原地跳起“科目三”……场景的扩容,打开人形机器人新的可能。
技术构筑价值,落地检验价值。最近,随着多家国产人形机器人技术突破、产品上新、场景刷新,人形机器人正由小批量出货加速叩开量产之门。
几天前,智元机器人刚刚给出量产出货时间表:作为上海首座人形机器人量产工厂,智元机器人一期工厂已完成产线建设和人员招募,今年10月投产,计划月产规模达到百台以上、今年出货量达到300台左右。
随着加速规模化量产成为多家企业的发力方向,业内正加速挖掘场景,推进大模型与具身智能的融合,以开源等方式完善产业链生态,强化成本控制。
例如,北京具身智能机器人创新中心正吸纳更多海内外人才,攻克全球人形机器人关键共性技术等问题。科大讯飞通过“机器人超脑平台”方案深度链接420家机器人企业、1.5万名机器人开发者,并与优必选、智元机器人、银河通用、人形机器人创新中心(上海)等企业、机构探索多模态交互等方案的集成应用,协同推进技术迭代下的商用落地。
然而,人形机器人迈向量产的路上,还有诸多问题待解。
一个问题在于人形机器人的动作还不能像人类一样迅速敏捷,“进化”路上还存在运动的时延问题。“时延问题是一个系统性问题,需要操作系统、架构、算力、通信机制等方面的协同破解。”熊友军说。
另一个问题在于人形机器人的能耗问题,尚未实现不间断地为人类“出工”“出力”。普通的人形机器人处于待机状态可以维持5至8个小时,如果直立行走仅能维持2至3小时。
“能耗问题,与人形机器人的电池、电机、减速器、重量等参数息息相关。如何在研发高能量密度电池的同时提升电机效率、减轻重量以降低能耗,是接下来需要解决的另一问题。”熊友军说。
此外,想要让人形机器人成为真正为人所用的商品,还需不断提高智能化程度,提升它的“类人”水平。熊友军认为,人形机器人第一个阶段是“形式”类人:外形上长得像人;第二阶段是“行式”类人,行走、行动类人;第三阶段则是“神式”类人,即通过具身智能大模型,使人形机器人在理解、表达、思考等方面向人类看齐。
用户登录