博弈学习(game learning),工学-控制科学与工程-网络系统控制分析与设计-博弈论-博弈学习,关注博弈个体进行策略学习和策略调整的方法和规则。在博弈学习和演化理论中,有3个特定的动态调整过程最受关注。①在虚拟行动中,参与个体仅观察到他们自己匹配的结果,并且能对行动的历史统计结果做出最优反应。②在部分最优反应动态中,群体中存在固定比例的参与个体,在每一阶段这些参与个体都将他们当前的行动调整为对前一阶段总体统计结果的最优反应,此处假设参与个体具有计算最优反应所需要的全部信息的能力。③在复制动力学中,使用某一策略的参与个体在群体中所占的比例与该策略的当前收益呈一定的比例增长,所以相对于前一时期总体统计结果而言,采用最大效用的策略使用者数量通常增长最快,而采用最小效用的策略使用者数量则下降最快。通常在群体数目较大和参与个体与策略之间的匹配是随机的环境中考虑这种动态过程。基于以上宏观假设,学者提出了一些具体的基于个体策略调整层面的规则,包括莫兰过程、灭生过程和模仿过程等。