• 学术研究 • 下一篇
邓亚男,王秋红,李俊杰,顾晶晶
DENG Yanan,WANG Qiuhong,LI Junjie,GU Jingjing
摘要: 在多智能体系统中,智能体通常只能观察到部分状态信息,导致每个智能体在做决策时缺乏对其他智能体行为和环境动态的完整理解,进而增加了协作的难度。虽然基于值函数分解的多智能体强化学习方法对解决局部可观测性问题有一定的优势,但由于状态-动作空间维度高、模型结构复杂等问题,多智能体系统中仍然存在着协作不确定性的影响,从而导致奖励分配不公平的问题。针对此问题提出了一种基于隐式通信的值分解多智能体强化学习方法(Value Function Factorization for Multi-Agent Reinforcement Learning based on Implicit Communication,VFRL-IC),通过挖掘智能体之间的局部关系,缓解环境不确定性问题带来的影响:首先,提出隐式通信框架,在训练阶段使智能体共享局部观测信息以训练局部策略;其次,基于局部观测信息构建全局影响的评估模型,求解智能体间影响值;最后,设计了一种类多头注意力机制的网络结构,融合智能体间影响值,求解包含全局信息的局部动作值模型。在星际争霸环境中进行实验验证,结果表明,VFRL-IC在各场景中的平均成功率优于基线算法15%∼40%,效率提高18%。