西安交通大学兰旭光老师课题组万里鹏同学论文被ICML会议收录
发布时间:2022-05-19
点击次数:
- 发布时间:
- 2022-05-19
- 文章标题:
- 西安交通大学兰旭光老师课题组万里鹏同学论文被ICML会议收录
- 内容:
论文Greedy based Value Representation for Optimal Coordination in Multi-agent Reinforcement Learning被2022年机器学习国际会议(International Conference on Machine Learning, ICML)收录。
由于联合动作值函数的表征能力不足,具有线性值分解或单调值分解的多智能体强化学习方法无法解决相对过度泛化问题。具体体现在这些方法无法保证最优一致性(即独立贪婪策略与最优团队回报之间的对应关系)。兰旭光老师课题组万里鹏同学提出了一个基于greedy值的多智能体联合动作值函数表征方法(GVR),通过次优目标重塑和更优经验回放使算法能稳定收敛在最优点。理论证明和实证结果表明,GVR 在充分探索的情况下能够实现最优一致性,并在多个任务中的表现都超过了当前的sota算法。




