分享到:
西安交通大学兰旭光老师课题组张翰博同学论文被IJCAI-21收录
发布者: 兰旭光 | 2021-04-29 | 8392

稀疏奖励问题是强化学习领域中的一项重大挑战,兰旭光老师课题组张翰博同学提出了一个新的强化学习算法——HTRPO,通过hindsight对TRPO算法进行扩展,一应对稀疏奖励的挑战。论文被2021年第三十届国际人工智能联合会议(IJCAI-21,the 30th International Joint Conference on Artificial Intelligence )收录