根据英国《自然》杂志12月3日发表的一项计算机科学最新突破,加拿大科学家团队报告:完全由人工智能控制的气球,成功实现自主导航,在平流层一连数周待在原地。这一成果标志着深度强化学习向现实应用迈出了重要且非常难得的一步,同时提高了人类全自动环境监测的可能性。
人工智能在气象领域的应用,正在爆发式增长,并且呈现出由传统的机器学习向深度学习发展的趋势。通常,填充氦气的超压气球常被用于高层大气实验,如气象监测,但如果被风吹偏了航道,它们必须要返回原驻点,而深度强化学习可以训练人工智能系统进行决策——对于超压气球来说,这些主动决策就包括采取哪些行动来保持它们的位置不变。
此次,加拿大谷歌研究院科学家马克·贝尔麦尔及其同事,训练了一种人工智能控制器,能根据风的历史记录、预报、局地风观测和其他因素(如氦气损失和电池疲劳),决定是否要移动气球。
研究团队利用一种数据增强算法来解释数据中的空白。他们将这一新成果——名为“StationSeeker”的技术应用到分布在全球各地的“Loon气球”上,包括一项在太平洋上空进行的为期39天的受控实验。“Loon气球”原本是一个互联网项目,团队将高空超压气球发放至平流层,组成空中的无线网络。而贝尔麦尔的实验证明,受到“StationSeeker”控制的气球能成功实现自主导航,一旦被吹偏航道,它们能比传统控制器控制的气球更快地回到原驻点。
深度强化学习的应用此前已在受控环境——如电脑游戏中得到了演示,但在受控环境中,拥有完整的数据集和明确定义的参数。而在现实世界中,可预测性变得更差,比如关于环境中风的数据就不完整,因此很难采取最优调整而让气球保持在原位。
在一篇同时发表的“新闻与观点”文章中,英国牛津大学科学家斯科特·奥斯佩尔表示,正是由于这一理由,此次最新成果可以说代表了增强学习在现实世界应用的一次巨大进步。