一、深度强化学习定义及其应用
深度学习(Deep Learning,DL)和强化学习(Reinforcement Learning,RL)是机器学习的两个重要研究领域,在学术与工业界有着深刻的学术价值与广泛的应用场景。随着深度学习相关研究的兴起,其与强化学习的产物——深度强化学习(Deep Reinforcement Learning,DRL)在棋类、多智能体对抗游戏和复杂机器人控制等应用领域表现卓越。DL利用深度神经网络模型,能够组合底层特征,形成抽象的、易于区分的高层表示;RL通过最大化智能体从环境中获得的累计奖赏值,以学习完成目标的最优策略。DRL将具有强大感知力的DL方法和具有优秀决策力的RL方法相结合,形成了人工智能领域新的研究热点。
二、DRL研究方法(算法)/研究方向
-
单智能体深度强化学习(Single agent DRL)
(1)基于值的方法(Value-based methods):深度Q学习算法(Deep Q Network , DQN),即深度学习与强化学习中Q-leaning算法相结合的算法;
(2)策略梯度方法(Policy gradient methods):REINFORCE算法、近似策略优化算法(Proximal Policy Optimization , PPO)、深度确定性策略梯度算法(Deep Deterministic Policy Gradient , DDPG)、信赖域策略优化算法(Trust Region Policy Optimization , TRPO)以及演员-评判家算法(Actor-Critic , AC)等。
- 多智能体深度强化学习(Multi-agent DRL)
(1)突发行为分析(Analysis of emergent behaviors),主要侧重点是分析和评估单智能体中的DRL算法;
(2)智能体通信(Learning communication),智能体用通信协议共享信息,比如一些直观消息或一个共享内存;
(3)智能体合作(Learning cooperation),主要应用在合作场景或混合(既有合作也有对抗)场景;
(4)智能体建模(Agents modeling agents),不仅有助于智能体之间的合作,还有助于建模对手智能体的推断目标以及考虑其他智能体的学习行为。
三、主要研究方向
-
单智能体深度强化学习(Single agent DRL)
强化学习作为人工智能领域的重要分支技术,能够帮助机器人完成在与环境的自主交互过程中,探索与学习。但强化学习目前面临着学习速度慢,奖励函数设计困难,探索效率低等诸多问题,因此难以在复杂任务中得以应用。我们提出一种基于事后经验的信赖域策略优化方法(HTRPO),通过使用目标条件下策略训练过程中所采集的经验数据,将经验数据中已到达的目标点作为虚拟目标点,生成虚拟的事后经验数据;同时我们引入二次KL散度去减小临近分布KL散度估计的方差,提供准确的KL散度估计值。实验表明在稀疏奖励的环境中智能体能够基于少量的交互数据和简单设计的奖励函数对环境和任务完成有效的探索过程,并对行为策略进行高效的学习和更新。
-
多智能体深度强化学习(Multi-agent DRL)
游戏是探索人工智能(AI)的理想环境,在游戏中可以开发和评估解决问题的技术,并将其应用于更复杂的现实世界问题。过去十年间,人工智能被广泛应用于多种不同的游戏,取得令人瞩目的成就,如Atari,DOTA2,poker等。随着能力的不断提高,研究者一直在寻求复杂度更高的游戏,以捕捉解决科学和现实世界问题所需的不同智能元素。《星际争霸》被认为是最具挑战性的实时战略(RTS)游戏之一,是当前我们的主要研究方向。游戏要求玩家与对方进行即时对抗,选择合适的策略,通过资源采集、基地建造、科技发展等形式,击败对方。为了赢得比赛,AI需要学会实现多种不同的策略,以适应具体的游戏环境,是我们研究的一大难点。
1. 博弈论:游戏不存在固定不变的策略,AI需要根据实际场景,选择合适的策略。
2. 部分观测信息:与象棋围棋等游戏不同,在星际争霸中,AI只能观测到部分环境信息,需要手动控制单位通过“侦察”来获得关键信息。
3. 实时性:AI需要在游戏中根据实际环境,做出实时的操作。
4. 更大的行动空间:智能体数目增多,带来了更大的动作空间,AI要在更大的行动空间中找到合适的策略。
我们在微观控制场景中进行了多次实验,实验证明,我们的算法可以控制游戏单位实现“集火”、“风筝”、保护己方单位等策略,达到与人类玩家相似的水准。