如果要我给「想要机器人替我做的那些事」划分一下层级的话,那么做晚饭的级别还应该在洗衣服、代驾汽车和代写所有文稿之上。就我们现有的机器人而言,可以做到的最好的程度,也只不过是依照预设的步骤把任务勉强完成而已。我们已经见识过了很多款会做饭的机器人,但总的来说,它们都只是遵循提前编程好的命令进行操作而已。告诉机器人要做什么以及怎么去做,是机器人技术中最棘手的环节,特别是针对我们这些终端用户而言,要是我们只需要坐下来,让机器人自己看 YouTube 上的视频来学做饭的话,可就太好了。
一项旨在实现这一愿景的项目,已经由 Maryland 大学立项成功并着手研究了。而在本文中谈到的研究内容,都来源于一篇论文,名为《机器人复杂操作学习计划——以网络视频为来源渠道》。这篇论文切实地论述了机器人的视觉工程进展:机器人首先观察视频中的人处理各项物品的方法,再思考得出那个人正在做什么、以及该怎么去做,最后通过机器人的复杂操作学习能力,将之前看到的动作复原出来。
Michigan 大学有一套名为 YouCook 的数据集,涵盖了 88 段在 YouTube 上完全公开的烹饪视频。每一段视频都添加有一段描述性的自然语言、每一帧都拍摄到了烹饪所需的各种物品、每个动作都配有注解。利用这些数据,Maryland 大学的研究人员就开发出了两种卷积神经网络:一种是对视频里的物品进行辨识和分类,另一种则是对视频中厨师的动作进行辨识和分类。
当物品被辨识为相似的类别时,对动作的辨识就显得尤为重要了,因为机器人可能会设计具有不同的终端执行装置,用以进行不同目标的操作行为。此外,不同的动作也可以提示机器人下一步该做什么。下面的这段话摘自论文:
动作不仅涵盖了纯意义上其代表的信息,还可以被用来预测接下来的动作,或是作为辨识其他动作的特征之一。此外,动作还涵盖了这一小段动作的开始信息和终止信息,从而可以被用来切割视频。如果我们想让机器人实施一个动作,机器人就必须要习得「怎样处理物品」的知识,这样才能设计出自己最终的执行动作。比方说,想象一个机器人,它有一对平行方向的抓握手和一只具有真空吸附技术的抓握手。如果命令是力性抓握的话,那么机器人应该选择真空吸附的抓握手以确保能稳稳抓住物品;但如果命令是精确抓握的话,那么平行方向的抓握手应该是个更好的选择。
在这个设定下,动作就被分为六种类别:力性动作和精确动作,再按动作的对象细分为小型物品、大型物品和球面物品。物品则同时被划分为 48 个层级,从「苹果」到「打蛋器」不等。基于 YouCook 数据集的测试显示,机器人系统的对所有动作和物品的辨识精度达到了 80%,而 68% 的动作和物品成功地被整合成了能让机器人执行的命令。
在未来的工作中,研究人员打算开发出更细化的分类方式(优越于上述 6 种只按力性、精确性河物品大小进行的分类法),并且利用新的分类法更好地预测视频中的下一步操作。如此一来,我们以后就只需要在 YouTube 上找好视频,就可以坐享其成,让机器人为我们做饭了。
编辑:张海云