「强化学习可解释性」最新2022综述

2.2 对“解释”的定义

解释:知识体系之间的简洁映射.简洁映射是在不引入新知识的条件下对目标知识进行表达;

完全解释:待解释的知识完全被目标知识体系表达.其中,被解释的知识属于目标知识体系是其必要条件;

部分解释:待解释的知识的部分被目标知识体系表达.

具体来说,完全解释和部分解释描述的是知识体系之间的包含情况(图 2).只有当待解释的知识体系完全被目标知识体系所包含时,才可能进行完全解释,否则只能进行部分解释.在 XRL 中,完全解释通常是不必要的.

一方面,待解释知识体系和目标知识体系的边界难以确定,导致完全解释难度高且耗费巨大;另一方面,实现对模型的解释通常不需要建立在对模型完全掌握的基础上.因此,部分解释是大部分可解释性研究中采用的方法, 即只描述算法的主要决策逻辑.

2.4 可解释性的程度划分

(1) 数学表达: 通过理想化的数学推导解释模型.数学表达是使用数学语言简化模型的表达.由于强化学习模型建立在数学理论的基础上,因此通过数学表达可以准确地描述和重构模型.虽然数学理论体系是人描述世界的一种重要方式,但其与人的普遍直觉之间存在较大差异.以深度学习为例,虽然存在大量文章论证了其在数学上的合理性,但深度学习方法仍然被认为是不可解释的.因此,数学的表达能够在微观(参数)层面对模型进行描述,但难以迁移至人类知识体系;

(2) 逻辑表达: 通过将模型转换为显性的逻辑规律解释模型.逻辑表达是对模型中主体策略的提取,即忽略其细微分支,凸显主体逻辑.一方面,逻辑表达保留了模型的主体策略,因此与模型真实决策结果相近,解释本身可以部分重现模型的决策;另一方面,逻辑表达简化了模型,符合人的认知.逻辑表达是较为直观的解释,但需要人具备特定领域的知识,是面对人类专家的解释,而对一般用户尚不够直观;

(3) 感知表达: 通过提供符合人类直觉感知的规律解释模型.感知表达基于模型生成符合人类感知的解释,由于不需要人具备特定领域的知识,因此易于理解.例如,可视化关键输入、示例对比等解释形式都属于感知表达的范畴.然而,感知表达通常是对模型策略的极大精简,因为无法重现模型的决策,导致其只解释决策的合理性.

在可解释性的三个层次中,数学表达作为第一个层次,也是构建强化学习算法的理论基础.在已知模型所有参数的情况下,数学表达通常可以较为准确的推断出模型的结果,然而,数学上的合理性不意味着能被人所理解;逻辑表达介于数学表达和感知表达之间,是对模型策略的近似,但逻辑表达方法产生的解释通常要求用户具备特定领域的专业知识;感知表达对模型决策的重要因素进行筛选,并使用清晰、简洁的形式进行呈现,虽然结果易于理解,但已经不具备重构策略的能力.总而言之,不同的解释在接近模型和接近人类感知之间存在着平衡,难以兼顾.

3 强化学习可解释性的独有问题

4 强化学习可解释性研究现状

在可解释性领域中,分类通常基于获取解释的时间和解释的范围两个因素[31] .具体而言,根据获取解释的时间,可解释性方法被分为固有(intrinsic)解释和事后(post-hoc)解释.固有解释通过限制模型的表达,使模型在运行时生成具备可解释性的输出.例如,基于较强可解释性的原理和组件(决策树、线性模型等)构造模型,或者通过增加特定过程使模型生成可解释性的输出;事后解释是通过对模型行为的分析,总结模型的行为模式,从而达到解释的目的.通常而言,固有解释是策略产生过程中的解释,特定于某个模型,而事后解释是策略产生后的解释, 与模型无关.根据解释的范围,可解释性方法被分为全局(global)解释和局部(local)解释,全局解释忽略模型的微观结构(如参数、层数等因素),从宏观层面提供对模型的解释,局部解释从微观入手,通过分析模型的微观结构获得对模型的解释.

文章知识点与官方知识档案匹配，可进一步学习相关知识算法技能树首页概览34530 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

「强化学习可解释性」最新2022综述

相关推荐