本周于预印服务器Arxiv.org上发表的一篇论文中,来自Google Brain,Google X和加州大学伯克利分校的研究人员组成的团队描述了对现有AI方法的扩展,这些方法使诸如代理人之类的代理人成为可能。决定执行上一个动作时要采取的动作。其思想是,模仿人或动物行为的行为模型将在将来导致更健壮,更不易发生故障的系统。
研究人员指出,尽管AI算法已经在视频游戏,机器人抓取和操纵任务中取得了成功,但大多数算法都使用了阻塞性的“观察-思考-行动”范例-代理假定其环境在“思考”时保持静态,因此其行动将在计算它们的相同状态下执行。这在仿真中是适用的,但在现实世界中则不然,在现实世界中,环境状态随着代理程序处理观测结果并计划其下一个动作而变化。
团队的解决方案是一个可以在机器学习上下文中处理并发环境的框架。它利用标准的强化学习公式-通过奖励推动代理人达到目标的公式-其中,代理人从一组可能的状态中接收一个状态,并根据策略从一组可能的操作中选择一个操作。环境返回从过渡分布和奖励中采样的下一个状态,以便代理学习从每个状态最大化期望的收益。
除了上一个动作之外,还有两个附加功能-动作选择时间和走动向量(VTG)-有助于封装并发知识。(研究人员将VTG定义为在测量环境状态时立即执行的最后一个动作。)并发动作环境在执行前一个动作时以及捕获状态之后捕获状态。并且该策略将选择一个操作并执行该操作,而不管先前的操作是否已完成-即使必须中断先前的操作。
研究人员在真实世界的机械手臂上进行了实验,他们的任务是抓取并移动垃圾箱中的各种物体。他们说,他们的框架取得了与基线阻止模型相当的抓取成功,但是就策略持续时间(衡量策略的总执行时间)而言,它比阻止模型快49%。此外,并发模型能够执行比基线更平滑的轨迹。
共同作者写道:“并发方法可能允许在动态环境中进行机器人控制,在这种环境中,机器人无法在计算动作之前停止环境。”“在这些情况下,机器人必须真正地同时思考和行动。”
这项工作是在Google领导的一项研究之后进行的,该研究描述了一种AI系统,该系统从动物的动作中学到了东西,从而使机器人具有更大的灵活性。合着者认为,他们的方法可以促进机器人的发展,该机器人可以完成现实世界中的任务,例如在多层仓库和履行中心之间运输物料。