努力让具身智能“知行合一”
本报记者 叶 子
参赛马拉松、进工厂“干活”……最近一段时间以来,机器人火热“出圈”,具身智能的概念进入大众视野。作为人工智能领域的前沿热点,具身智能是什么?发展情况如何?其中机器狗又有哪些优势?本报就此采访了北京大学工学院先进制造与机器人系助理教授刘珂。
记者:什么是具身智能?它的核心特点是什么?
刘珂:通俗地说,具身智能是指具有身体的智能。具身智能体本质上是一个机器,这个机器在物理世界中有一个真实的实体,还有一个先进的大脑。它的关键在于实体设备与智能决策的深度融合,能够学习并执行各种任务。
具身智能并不限于特定的形态。人类被视为目前已知唯一的通用具身智能体。然而,具身智能体也可以有其他形态,比如狗、机械臂、无人车等。
记者:比如让机器人去拿咖啡,这个任务如何执行?
刘珂:理想情况下,首先机器人要听懂这句话,提取关键词“咖啡”,找到咖啡在哪,然后运动到咖啡所在的位置,分辨桌子上哪个是咖啡,再把这个咖啡拿回来,路上要保证液体不会洒掉,最后放好。对人来说这是很简单的事情,但对机器人来说其实很难,因为需要机器人理解指令,然后自己做规划。
当下主流的处理方法叫视觉语言动作模型(VLA,Vision-Language-Action),输入文本和视觉数据,输出可以执行的动作。目前的问题是思考过程有了,即让大语言模型去思考和拆分指令,就像DeepSeek的深度思考功能,但后续机器人的本体如何去执行这个思考过程,还没有特别成熟的方法。因为大语言模型本身没有实体,不知道怎么去移动肢体,胳膊伸出去多远能拿到物体等。
现在我们把从思考到行动的整个流程连在一起去训练机器人,目前为止有一些突破,但无法达到理想中的泛化能力,也就是说,机器人学会了拿咖啡,相似地也会拿可乐、拿水,但还不会搬桌子,因为对它而言这又是另一种任务。
我们说“知行合一”,现在机器人有了“知”,在“行”方面还不太成熟,它无法处理现实生活中的一些问题,更像一个谋士,我们要努力让具身智能“知行合一”。现在的主要挑战还是机器人动作空间太大,我们现有的人工智能算法相较于生物,在探索效率上还非常低。或许除了高级算法之外,更应当关注底层算法和本体结构的设计,这也是我们团队现在重点关注的内容。比如动物有本能行为,还有植物神经,而现在的机器人没有,每一个动作都需要做大量计算。
记者:具身智能体有不同形态,相比其他类型,机器狗主要有哪些优势?
刘珂:四足机器狗的主要好处是兼具灵活性和稳定性。从动力学控制方面来讲,四足要比二足容易得多,因此机器狗的活动幅度比较大。相对于一米多高的人形机器人,机器狗的高度比较低,底盘更稳,运动起来能更好地保持稳定。此外,体积小也是机器狗的一个优势,能在相对低矮狭窄的空间里活动。
记者:当前,机器狗已经被应用到消防巡检、应急救援、搬载重物、娱乐教育等场景中,如何评价它们的表现?未来还有哪些应用可能性?
刘珂:机器狗可以帮忙搬东西、巡检,相对来说已经算比较有用的一种具身智能形态。但还是受限于重量和续航能力,现在机器狗的能量效率不是很高,只能用两三个小时。这其中有电池的限制,还有它本身结构设计的原因,相对于轮子来说,机器狗的四足更加费电。
相比人形机器人,机器狗的应用场景应该会更多。比如,机器狗可以在建筑工地帮忙搬砖、铺地砖等,机器狗还可以进行一些巡查、导盲的工作。如果是动物狗,每一只导盲犬都要经过长时间的专门训练,但如果是导盲机器犬,只要成功一次就可以大规模复制。在家庭服务方面,机器狗可以帮忙取东西。在娱乐教育上,机器狗陪伴老人、小孩,做一些简单的问答,有情感陪伴功能。
不论功能多么复杂的机器狗,它本质上还是一个机器、一个工具。人类使用工具是为了延伸自己的能力,替代人去做一些不想做或做不到的事情。以前的一些机器,比如纺织机只能纺织,车床只能切割,但机器狗更通用一点,能干好几种活。
记者:既然机器狗在未来会承担多种工作,要实现这些功能,技术研发上还面临哪些挑战?
刘珂:从运动控制角度看,主要还是让机器狗能适应复杂地形,能自主判断、决定应该采取什么动作。现在好多机器狗已经能翻跟头,能上、下楼梯,看起来很灵活,但是它的场景切换能力有限,不一定能够在未知的情况下去适应。所以我们需要提前想好机器狗可能会遇到的情况,预设好需要的动作,然后在仿真环境里做强化训练。
感知决策能力超出了训练的范围,必须在实际任务中,确保机器狗能将不同的动作衔接起来,还要提高反应速率。比如机器狗感知到50毫秒之后就要摔倒,可是大模型要100毫秒之后才能算出来下一步该如何行动,那就跟不上了。因此要让机器狗的思考过程和物理世界中的运动速率相匹配。
在电池续航方面,具身智能遇到的问题和电动车类似,即重量重、续航短,仍需要技术突破。
在材料上,其实人体的肌肉、关节里面有很多柔性的东西,来帮忙减震、缓冲,具身智能的身体也需要这种柔性的材料,如人工肌肉等,还有一些仿生的轻量化的材料,能够做到又轻又结实。
单从技术上看,目前具身智能行业还没有达到“涌现”的时刻。
记者:如今,消费级机器狗的价格最低已在万元以下,很多人买来“尝鲜”,离机器狗走进千家万户还有多远?
刘珂:消费级机器狗的推广普及和产量有关,就像汽车行业一样,当技术达到一定水平后,产量提上去,成本就会下降,生产得越多卖得越便宜,也就越容易被更多人购买使用。不过,影响机器狗产量的还有需求,这个赛道目前有很多尝试,但仍需要一个明晰的商业模式。现在随着关注度的增加,研发速度在进一步加快,希望能在不久的将来看到更加智能的机器狗和机器人。
此外,机器人的大量普及可能会引发一系列伦理和社会问题,如隐私保护、就业替代等,同样值得引起关注。
记者:从国际上看,在具身智能领域,中国的发展水平如何?
刘珂:我们国家处在第一梯队,和很多国家齐头并进,因为这个领域都是开源的,仍处在学术探索阶段,还没有到某一家公司去设置专利壁垒的程度。从硬件角度看,机器人本体方面我们应该是领先的,因为我国的产业链配套很完备,硬件价格较低,成本低对于整个行业的发展肯定是有帮助的。现在我们有很多优秀的学生愿意投入具身智能领域,并且留在国内发展,这一定会带动中国未来人工智能和机器人产业的发展。
(钱一苇参与采写)


