从现状到论文《公平性测试：针对歧视的软件测试方法》解读

微软首席执行官萨蒂亚·纳德拉说：“人工智能必须防范偏见，确保正确的、有代表性的研究，以便不能用错误的启发方法来区分”。

同时，信息成本降低，信息不对称，以及相关行业的市场能力都是造成歧视的重要原因。大数据处理和AI算法的不断进步，极大降低了厂商和服务商实现这些条件的难度。海量的个人信息数据在上流转并被收集，在不同的地方，被用于生成不同的用户画像，用于针对性投放广告，产品和服务。

摘要

智能化发展和大数据算法升级，使得软件自身做出决策的场景越来越多。决策的重要程度也越来越高。此时，软件的公平性和非歧视性已经和软件质量具有同等重要性。但遗憾的是，公平性在软件生命周期中的重要程度被大大低估。业界目前的软件歧视测试方法仍然存在一定的缺陷。

1. 定义软件公平性和软件歧视。

2. 提出用于判断和度量软件歧视的方法：Themis，该方法基于测试，并着重关注输歧视行为中的因果关系。

3. 给出了Themis理论基础的形式化分析，包括证明歧视的单调性，这对于测试套件有2-3个数量级的巨大提升。还有公平定义之间关系的证明，以及Themis在表现出更多歧视的系统上更有效的证明。

4. 在20个软件系统实例中对于Themis进行了评估。

背景：软件歧视度量

之前的相关研究集中于群体歧视，即：在不同的组合中，对于相同输入的输出分布应当是均衡的。这种衡量方法易于理解，但是存在两个明显的局限性：一是有无法检测到的歧视行为，比如只要存在着有相反歧视行为的两对用例，歧视得分仍然为0；二是软件算法可能会规避歧视检测。而如今高效的软件测试为新的基于输入输出因果关系的测试提供了可能：我们完全可以方便高效地在所有输入中仅仅只改变某个特征（比如性别）去查看输出是否产生区分。值得注意的是，以上的我们都是假设输入是全输入区间取值，但是现实中更多的是存在着局部输入，比如银行贷款系统可能仅仅针对他的客户发布特定服务。另一个例子，因为老年人一般具有较高的经济储蓄，即使不关注性别和其他的特征，在年龄分布上也会天然具有明显的差异。我们也十分关注这类“显式歧视”。

概念和定义

两个假设前提：软件是输入到输出的黑盒映射，所有用户动作和环境变量都视为输入，而所有软件效果都被建模为输出特性，并可以扩展到多输出情形；每组输入和输出特征都是可分类的变量，具有可能的取值集合。

Themis解决方案

在了解了重要的几个定义后我们来研究一下它的工作原理，使用Themis，需要用户提供一个软件可执行文件、一个期望的可信度、一个可接受的错误范围和一个描述有效输入格式的输入模式。Themis支持的3种使用方式如下：

①自动生成测试套件计算群体或因果歧视分数

②给定一个歧视阈值，计算所有特征集用于判断超过阈值的软件群体或因果歧视。

③给定一个人工或自动生成的测试套件，或者一个描述输入分布的操作配置文件，计算特定特征集下的显性群体或者因果歧视。

图 1 Themis的两种歧视计算算法（1）

图 1 Themis的两种歧视计算算法（2）

图 2 Themis基本框架

同时Themis为了规避不现实的大量测试，使用了3种优化方法：一是测试缓存，重用已完成的测试结果，减少储存开支和提供运行时增益。二是采用自适应、置信度驱动的抽样方法，使用进行中的计算分数去判断是否已经到达具有期望置信度的指定误差范围 ?。Themis使用输入模式随机生成一致的输入，并维持使得输出为真的样本数量sample(p)（在群体歧视中）或者软件变更输出（在因果歧视中），p对应的错误数范围为：

评估和总结

在8个系统的20个系统实例上的测试结果和性能评估如下：

图 3 针对不同系统实例下的歧视测试结果

图 4 采用剪枝算法后计算量对比

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

从现状到论文《公平性测试：针对歧视的软件测试方法》解读

摘要

背景：软件歧视度量

概念和定义

Themis解决方案

评估和总结

相关推荐