论文摘要
众包是目前许多人工智能和信息检索应用中数据管理、注释和评估的一种流行方法。其中在设计有效的质量控制机制方面已经有了很多成果,这些机制能够识别并阻止作弊的提交,以提高众包参与者判断的质量。除了故意作弊,还有另一个经常被提及但研究不足的质量干扰源:认知偏见。
关键字
众包,人力计算,相关性评估,认知偏见
认知偏见
论文提出了四种认知偏见。
1.模糊效应(Ambiguity Effect)
当缺失信息使决策看起来更加困难并因此缺乏吸引力时,就会出现歧义效应。
2.锚定(Anchoring)
描述了参与者不成比例地关注一条信息(通常是第一条信息)的情况,即使附加的矛盾证据变得明显。
3.从众效应(Bandwagon Effect)
当参与者放弃他们自己的推理以支持遵循现有群体的行为时,就会出现从众效应。
4诱饵效应(Decoy Effect)
诱饵效应,有时也称为非对称优势效应,发生在选项C出现时,选项A和B之间的参与者的偏好有利于选项B,参与者会更倾向于选项B 。
论文实验
论文进行了一系列实验,其中认知偏见的影响是根据标签准确性,检索系统评估和机器学习排名的有效性来量化的。
1.标签准确性
首先建立由有偏见和无偏见的人群标签流程,以提供的相关标签的并排质量比较。我们将衡量各种众包方法再现NIST专家判断时的准确性。设计了6个众包相关标签收集过程:
AE:在模糊效应(Ambiguity Effect)的影响下获得的人群标签。
A: 在两阶段判断过程中锚定(Anchoring)的影响下获得的人群标签。
BE:通过揭示以前参与者投票的真实分布,获得从众效应(Bandwagon Effect)的影响下获得的人群标签。
D: 在从众效应(Bandwagon Effect)只考虑相关的单个最高排名的文档的影响下获得的人群标签。
BC: 通过聚合所有先前列出的过程而获得一般偏见人群标签。
UC: 一个基本的众包过程,其目的是触发之前讨论过的偏见。
2. 检索系统评估
首先,使用前面讨论的各种有偏见众包的过程产生的相关性判断,根据检索性能对各种检索系统进行排序。然后,我们将这些系统排名与从NIST专家(NE)获得的标签诱导系统排名进行比较,并测量被检索系统的相对排序受认知标签收集认知偏见干扰的程度。
对于这种比较,将所有历史性数据提交给相关的TREC adhoc,Web和CDS轨道,并根据nDCG对它们进行排名。我们现在可以计算由各种众包标签集合和实际NIST排序系统产生系的排序之间的等级相关系数ρ。如下表列出了所有三个语料库及其各自的版本,历史运行的数量,可用的NIST相关性评估的数量以及ρ的结果值。
3. 派生排序系统
实验最后是使用收集的相关性评估来训练一系列数据驱动器并比较三个实验条件:
实验条件为:基于偏见人群(BC)的随机参与者,基于无偏人群(UC)的随机参与者和基于NIST专家标签(NE)的随机参与者。认知偏见条件又细分为之前提到四组认知偏见。在每种情况下,我们使用一系列标准的学习基于特征的和基于神经 络的排序训练的LambdaMART分类器。此外,作为额外的参考点,实验还包括一个静态BM25检索模型助手,不需要任何训练数据。整个实验可用数据主题被分成10个不重叠的片,每个模型在9个不同的片上进行训练,并以交叉验证方式对剩余的片进行评估。绩效评估始终基于NIST提供的专家判断。下表显示了该实验nDCG结果。总体趋势是两种机器学习系统的性能都优于在NIST或UC标签上训练的简单BM25助手。其中,LambdaMART在大多数情况下优于DRMM,但是在有偏见的人群标签上训练,其性能急速降低,并且经常低至非参数精确匹配模型(例如BM25)的质量排名水平。同时,在锚定(Anchoring)或者从众效应(Bandwagon Effect)的影响下产生的人群标签众包中观察到这种趋势最严重。可知认知偏见对衍生系统(如机器学习者)的性能具有显着的负面影响。
论文结论
致谢
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!