万字长文了解可解释AI工具及技术的最新进展

机器之心分析师络

1 背景

近年来，学术界、工业界以及政府部门对 AI 伦理的重视程度日益加强，从 AI 伦理监管政策到 AI 伦理技术手段，提升 AI 伦理合规性和打造 AI 伦理技术工具、产品服务成为不断提升 AI 市场竞争优势的一个核心点。从工业界的具体实践角度看，国外的主流科技公司，包括 IBM、微软、Google 等，以及国内的腾讯、微博、美团等，都持续加大对 AI 伦理的研究和实践，腾讯研究院还发布了业内首份《可解释 AI 发展告 2022—打开算法黑箱的理念与实践》。

可解释 AI 是一个非常庞杂的领域，除了涉及 AI 算法 / 模型等技术，还涉及伦理、法律法规等问题。同时，追求可解释 AI 还需要平衡 AI 的效率和性能的问题。因此，可解释 AI 是一个有待进一步探索的长期问题，也是迫切需要解决的关键问题。从可解释 AI 研究的切入点角度来说，目前主要可以分为两类，一类是关注如何促进模型透明性，例如，通过控制或解释 AI 模型 / 算法的训练数据、输入输出、模型架构、影响因素等，提高模型的透明性，使监管部门、模型使用者以及用户能够更加容易理解 AI 模型；另一类则是研究和开发可解释性工具，即利用工具对已有的 AI 模型进行解释，例如微软的用于训练可解释模型、解释黑盒系统的开源软件包 InterpretML、TensorFlow 2.0 可解释性分析工具 tf-explain、IBM 的 AI Explainability 360 toolkit 等。

在刚刚过去的 AAAI-2022 中，有一个专门的 tutorial 介绍交互式机器学习的可解释性。整个 tutorial 由四名专家分别介绍了动机和挑战、通过局部解释进行交互、通过基于规则的解释进行交互和通过基于概念的解释进行交互四部分内容[2]，聚焦于可解释性工具，即从技术角度上提升 AI 模型本身的可解释性，使其对于用户来说更加“透明”。

2 通过局部解释进行交互

通过局部解释进行交互的方法是最常见的可解释 AI 方法，即给定一个预测器和一个目标决策，输入属性确定哪些输入变量与决策 “最相关”，我们比较熟悉的 SHAP 解释模型（SHapley Additive exPlanation）、LIME 解释器（Local Interpretable Model-agnostic Explanations）都属于这一类方法。

基于局部解释方法的特点包括：

使用户能够建立个别预测的心理模型；

较难获取足够多的样本来获得模型决策过程的概况；

可能会根据用户观察到的样本而产生偏见。

FIND: Human-in-the-Loop Debugging Deep Text Classifiers

LRP 是一种基于深度泰勒分解的解释方法，利用输入特征的重要性分数来解释神经络预测。LRP 利用深度泰勒分解技术，通过预先训练的络，将输出的相关性向后分配，并确定节点对分类的贡献。根据激活度和络权值，通过在下一层传播相关性来获得每层的相关性。解释器给出了与输入图像具有相同维数的像素级热图，从而可视化了输入图像中对所选类别有贡献的重要区域。

现代 NLP 模型通常是端到端的，没有显式编码语义特征，理解和分析它们的工作都不直观，所以人们很想知道模型到底都学到了什么。如图 1 所示，NLP 黑盒模型很难清晰的表征单词 (x) 和类别概率 (p) 之间的关联关系：

图 1. 单词 (x) 和类别概率 (p) 之间的关联难以映射 (图片来自 Tutorial slides, https://sites.google.com/view/aaai22-ximl-tutorial)

图 2. FIND 调试框架概述

考虑一个包含 | C | 个类别的文本分类任务，其中 C 是所有类别的集合，V 表征语料库（词汇）中唯一的词汇集合。给定训练数据集 D = {(x_1, y_1), …, (x_N, y_N)}，其中 x_i 是第 i 个文档，包含 L 个词的序列[xi1, xi2,…, xiL]，y_i 为 x_i 的类别标签。使用一个在数据集 D 上训练的深度文本分类器 M 将一个新的输入文件 x 归入其中一个类别 M(x) 。M 可以分为两部分—特征提取部分 M_f 和分类部分 M_c:

其中，f 为 x 的特征向量，W 和 b 为 M_c 的层参数。最终输出为预测概率向量 p。

z_ij 为神经元 i 神经元 i 与神经元 j 之间的权重

把所有神经元到神经元 j 的 z_ij 合起来加上 bias term 偏置项，得到上一层所有神经元到神经元 j 的向量 zj

经激活函数 g 处理得到下一层神经元 xj

了解特定神经元与分类决策函数 f(x)的相关性 R_j ^( l + 1 )，希望根据发送到前一层的神经元的消息来获得这种相关性的分解，将这些消息记作 R_ (i ← j)。

l + 1 层的某个神经元 j 的相关性 = l + 1 层的神经元 j 给 l 层所有神经元的相关性之和。

x_j 和 f_i 的相关性向量 r_ij 可以依上式计算得到。

在对训练样本的所有 d 个特征执行上述操作后，可以生成词云来帮助用户更好地理解模型 M。这样就做到了：不清楚潜在特征是什么意思，但清楚它是如何映射到每个类别的，即模型的可解释性。

图 3. 来自 CNN 的一个特征的词云（或字面意思是 n-gram）

如前所述，我们想知道学到的特征是否有效，是否与分类任务相关，以及它们是否从下一层获得适当的权重，可以通过让人类考虑每个特征的词云并告诉我们该特征与哪个类别相关来实现。

Q 是一个掩码矩阵，⊙是一个元素相乘的运算符。最初，Q 中的所有元素都是能够实现特征和输出之间所有连接的元素。为了禁用特征 f_i，将 Q 的第 i 列设置为零向量。禁用特征后，冻结 M_f 的参数并微调 M’_c 的参数 (除了掩码矩阵 Q) 在最后一步用原始训练数据集 D 进行微调。

图 4 显示了来自 Yelp 数据集的三个 CNN 样本之一的平均特征分数的分布。图 5 给出了每个等级的词云的示例。我们可以清楚地看到这三个特征的不同质量。一些参与者回答说，图 5 中的等级 B 特征与正面类别相关（可能是由于 “delicious” 这个词），W 中这个特征的权重也是如此（正面：负面 = 0.137：-0.135）。有趣的是，图 5 中的等级 C 特征得到了负分，因为一些参与者认为这个词云与正面类别有关，但实际上模型将这个特征作为负面类别的证据（正面：负面 = 0.209：0.385）。

图 4. 在 Yelp 数据集上训练的 CNN 模型的平均特征分数的分布

图 5. 排名 A、B、C 的 CNN 特征的词云示例

3 通过基于规则的解释进行交互

通过基于规则的解释可以看做是一种基于全局解释的方法。基于全局解释方法的特点包括：

能够提供一个概述图；

能够避免表述性偏见；

这种全局简化的概述处理是以忠实性为代价的。

规则可以直接从数据中学习（白盒模型），也可以从模型的替代物中学习（黑盒模型）。现有基于规则的解释方法的区别主要在于“规则的复杂性、准确性、非重叠性” 这三方面。此外，他们在展示规则的方式上也有差异（决策列表、决策集）。为了准确反映决策边界，规则必须涵盖越来越窄的数据片 / 集，而这反过来会对可解释性产生负面影响。我们也从 tutorial 给出的方法中选择一篇进行深入解读。

Machine Guides, Human Supervises: Interactive Learning with Global Explanations

令 H 表征一类黑盒分类器 h，即神经络或内核机。我们的目标是从数据中学习一个分类器 h。最初我们可能只能获得一个小的训练集 S_0，随后可以通过 supervisor 获取更多的样本。为了便于理解和控制，还要求机器以专家 supervisor 可以理解的方式解释自己的信念（belief），这将有助于识别预测器逻辑中的错误。解释式主动学习（explanatory active learning，XAL）就是这一类代表方法。在 XAL 中，机器从一个未标记的样本池中选择 queries x，并要求 supervisor 对其进行标记，此外，XAL 还给出对 queries 的预测结果以及对预测结果的局部解释。这些解释揭示了生成这些预测结果的原因，例如特征相关性，并与预测结果一起构建一个 narrative。此外，supervisor 还可以通过对解释提供反馈来控制 predictor，例如，可以指出 predictor 错误地依赖了哪些特征。

不过，由于局部解释侧重于 queries，XAL 输出的 “narrative” 忽略了未知数（unknown unknowns，UU），根据定义，机器在这种情况下表现得很差。UU 可能会诱使机器向用户过度推销自己的性能，特别是当它们与高成本相关联时。这就导致了叙述性偏见（narrative bias，NB）。直观地说，NB 衡量的是 queries x1,…,X_T 传达给用户的性能与真正的风险 R_T。用户感受到的性能是 XAL 的 narrative 随着时间推移所暴露的损失的函数。图 6（左）具体展示了这个问题，合成数据的设计是为了诱发未知的 UU。将红色的样本分组为间隔均匀的集群，而蓝色的样本则均匀地分布在其他地方。主动 RBF SVM 经过 140 次不确定性采样迭代后选择的 queries 被圈在黄色的地方，背景是决策面。queries 明显集中在已知的红色集群周围，在这些区域中分类器的预测和解释（如特征相关性或梯度信息）性能都较好。queries 完全忽略了模型在未知的红色集群上的糟糕表现，因此也被 XAL 的输出 narrative 所忽略。

AL（active learning）在存在未知数（unknown unknowns，UU）的情况下，也就是分类器会犯高置信度错误的区域，工作效果很差。这在类别偏移和概念漂移的情况下是很常见的，而当与高错误标记成本相关时，尤其具有挑战性。图 6（左）说明了这个问题，合成数据的设计是为了诱发未知的未知数 UU。将红色的样本分组为间隔均匀的集群，而蓝色的样本则均匀地分布在其他地方。主动 RBF SVM 经过 140 次不确定性采样迭代后选择的查询被圈在黄色的地方，背景是决策面。查询明显集中在已知的红色集群周围，该区域中分类器在预测和解释（如特征相关性或梯度信息）方面都已经表现良好。模型在未知的红色集群上的糟糕表现完全被查询所忽略，因此也被 XAL 的表述输出所忽略。

图 6. 左图：基于不确定性的 AL 查询已知红色聚类周围的点（黄色圈出）而忽略了未知的聚类；中图：XGL 发现了大多数的红色集群；右图：HINTER 从肝炎数据集中提取的规则样本（类别为活体、死体）：医生只需花费很少的精力就能理解和（验证）这样的规则

其中，P 是 ground-truth 分布，M 为损失函数，Ω用于衡量解释的复杂度，λ>0 控制忠实于 h 和简单性之间的权衡。期望值通常由一个经验性的蒙特卡洛估计所取代，该估计使用来自 P 的新的 i.i.d. 样本或使用任何可用的无标签样本。

XGL 的伪代码如 Algorithm 1 所示。在每次迭代中，在当前训练集 S 上拟合一个分类器 h，并使用全局解释 g=π(h)进行概括。然后，将 g 提交给 supervisor。每条规则都被翻译成 visual artifact 或文字描述，并与它所涵盖的样本一起展示。按照规则对样本进行标注。然后要求 supervisor 提供一个或多个解释有误的样本，将这些样本添加到训练集 S 中。循环往复，直到 h 足够好或查询 budget 用完。

在实践中，supervisor 可以通过以下方式查找错误：

扫描样本，每个样本都与预测和规则一起显示，并指出一个或多个错误；

搜索错误的规则，然后为其提供反例。

图 7：在三个有代表性的数据集上，当查询次数增加时，所有竞争者的 F1 得分（上）和表述偏见（下，越低越好）：合成任务（左），banknote（中）和 german（右）

4 通过基于概念解释进行交互

本节重点讨论基于概念解释的交互方法，包括基于概念的模型（Concept-based models，CBMs）和神经符模型（Neuro-symbolic models），这些模型注重模型解释的更高语义水平的优势。前述的局部或基于规则的方法难以访问模型内部、概念层面的原因，特别是对于黑箱模型而言。而基于概念解释的方法则试图从概念和语义的角度分析 AI 模型的工作机理。文献 [5] 为 tutorial 中提及的一篇文章，我们对其加以解读。

Interactive Disentanglement: Learning Concepts by Interacting with their Prototype Representations

图 8. 一个经过训练的模型（左）询问人类用户（右），如果它从数据中提取的概念与用户的知识相吻合。随后，该模型可以接受来自用户的修改意见

图 9. 用于学习新概念的人机互动。用户查询一个对象，并在必要时引导机器的原型建议

iCSN 的完整框架见图 10。

图 10. 交互式概念交换络。iCSN 基于一个确定性的自动编码器结构，提供一个最初的 entangled latent encoding（1）read-out 编码器；（2）从潜在空间中提取相关信息，并将其提取的概念编码与一组原型插槽进行比较；(3)通过一个加权的、基于 softmax 的点积；(4)生成一个离散代码，表明每个概念编码的最相似的原型插槽。iCSNs 是通过简单的重建损失、通过匹配配对的弱监督和交互方法来训练的；(5)共享概念的潜在概念表征，强制将语义信息与特定的原型表征结合起来

假设编码器 – 解码器结构，定义一个输入编码器 h(·)，它接收图像 x 并将其编码为潜在表征 h(x)=z。iCSN 没有像许多基于自动编码器的方法那样直接从 z 重建，而是首先将几个 read-out 编码器 Mj(·)应用于潜在表征 z，从而生成 Mj(z)=φ_j。将编码φ_j 称为概念编码。每个 read-out 编码器的目标是从纠缠的潜在空间 z 中提取与上位概念（例如颜色）相对应的相关信息。我们将在下面讨论如何强制提取特定于概念的信息。iCSN 的一个核心组件是一组代码本，每个代码本包含多个原型插槽（prototype slots）。将这个集合定义为Θ:=[p_1,…,p_j]。其中，p_j 表示代码本，每个代码本包含一组有序的可训练、随机初始化的原型插槽。

为了将每个概念编码φ_j 分配给 p_j 的一个原型插槽，将相似度分数 S_dot(·,·)定义为其两个输入的点积上的 softmax。通过这种方式，得到概念编码φ_j 和特定原型插槽(p_j)^k 之间的相似度：

得到的相似度向量 s_j 包含类别 j 的每个原型插槽的相似度得分，对应的概念编码为φ_j。为了进一步离散化和将概念绑定到各个原型插槽，引入第二个函数 Sτ(·)，将加权 softmax 函数应用于相似度分数：

这种交换过程具有直观的语义，它迫使 iCSN 从第一幅图像中提取信息，用于表征第二幅图像的类别 v 的属性。

训练目标。iCSN 最终通过在大小为 N 的批次中每对图像的单像素重建损失进行训练：

该损失项与之前关于原型学习的几项工作形成对比，之前的这些工作会通过额外的一致性损失来加强语义绑定。iCSN 则通过将语义绑定隐式地包含到络体系结构中，减少了引入额外超参数以及对多个目标进行更复杂的优化过程的需要。

与 iCSNs 交互。iCSNs 的目标，尤其是与 VA

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

万字长文了解可解释AI工具及技术的最新进展

相关推荐