基于工人行为的方法在 QoE 人群测试中检测低质量工人

摘要:

关键字:众包,作弊者检测,QoE 人群测试,QoE,员工行为

1. 介绍

QOE 人群测试在研究人员中越来越受欢迎,以进行主观评估。通过众包平台(例如 Amazon Mechanical Turk(MTurk)或 CrowdFlower),可以评估视频流,VoIP 和 IPTV 等不同 络服务的体验质量(QoE)。还可以评估多媒体材料的质量,包括图像,音频或语音。实验人员可以通过将评估汇总为众包平台中发布的 站来轻松部署实验。

与传统的实验室实验相比,使用人群测试的优势在于成本更低,并且工人群体更大且更具多样性。但是,在没有任何监督的情况下,从人群测试中获得的作品质量令人怀疑。先前的研究表明,某些工人的精度可能非常低。一些作弊者仅打算通过快速提交评估以最小的努力来最大化他们的 酬。即使工人可能不想作弊,他们也会分心或不适合做这项工作。两种工人都可能导致测量不可靠。因此,识别这些工作人员可以帮助大大提高基于众包评估的可靠性。

分析工人的行为是推断工人素质的最新趋势。基于工人行为的机制与现有的方法相比具有三个主要优点。首先,由于对工人行为的监视是在后台进行的,因此工人几乎看不见它。因此,欺诈者逃避反欺诈的企图将被挫败。第二,可以减少进行实验的时间和成本,因为监控不会给评估带来额外或多余的问题。最后,我们的机制与评估结果无关,因此不需要测试项目具有任何隐式排名或绝对答案。

现有的基于员工行为的方法着重于事件的时间安排,例如合并时间或完成时间。这些指标很有用,但是我们认为鼠标光标的移动对于衡量工作人员的质量也非常重要。先前的研究表明,鼠标光标的移动可以揭示认知过程。因此,这些行为可以为工人的可靠性提供隐含的措施。

我们通过提出一套新颖的十项工人行为指标来应对第一个挑战。这组度量标准可以有效地从从浏览器捕获的工作人员行为数据中提取信息。在度量的设计中,最具挑战性的部分是系统地分析光标轨迹。我们通过其微动和定时信息来量化光标轨迹。通过精心设计评估任务可以缓解第二个问题。采用了多种现有的反作弊技术,例如保留的代码项。此外,我们还包括人工检查。因此,我们可以撰写质量得分,作为工人素质的基础。通过仔细调整系统中的参数以平衡性能和接收反馈的频率,可以缓解第三个问题。

在我们的评估中,我们从通过 MTurk 和 CrowdFlower 众包的自适应视频质量评估中收集了工人行为数据集。工人行为跟踪用于计算工人行为指标,而评估结果用于计算质量得分。我们采用多类朴素贝叶斯分类器来建立预测模型,以根据工人行为指标估算工人的素质。我们进一步研究了四种适合对李克特量表进行评分的评分方法,包括单选按钮,星 ,滑块和数字步长。

我们的结果表明,十分之四的指标可以有效地推断出工人的素质。 对于所有评估方法,训练模型的错误率约为 30%。 这些指标包括子移动次数,时间延迟,光标速度和额外点击次数。 我们还发现,在四种评级方法中,星 和单选按钮在检测低质量工人方面比其他两种方法更有效。 通过结合多种评估方法,发现低质量工人的准确性可以达到约 80%。 在先前工作的基础上,我们进一步将我们的方法与 CrowdMOS 进行了比较。 我们的方法显示出比 CrowdMOS 更好的精度,召回率和 F1 分数。

2. 相关工作

除了分析员工的行为外,许多研究都集中在员工完成任务后处理数据。 Buchholz 和 Latorre 建议将数据与实验室实验中收集的金标准数据进行比较。 CrowdMOS 计算了每个方案的工作人员提交的结果的平均值和偏差。提供与平均值明显不同的结果的工人将被视为低质量的工人。 Wu 等人并没有直接给出评分,而是只要求工人对哪种情况更好做出二元决策。然后在工人之间比较排名以发现异常值。但是,这些方法通常无法应用于没有绝对答案或排名的调查或评估。 Joglekar 等人提出了一些技术,用于为工人的错误率估计值生成置信区间,从而评估工人的素质。但是,他们的方法仅支持二进制问题。

在完成整个人群测试活动后,他们并没有发现作弊者,而是提出了一些更好的逃避作弊者的工作设计。使用验证码或使用已知答案提问可以有效地阻止自动完成任务的软件机器人。将任务重新设计为游戏可以吸引寻求娱乐的工作人员,事实证明这些工作人员比金钱驱动的工作人员更可靠。另一种方法是采用两阶段方法在进行实际评估之前筛选出伪可靠人群。首先部署鉴定任务。通过任务的工人被认为更可靠。然后邀请他们进行实际评估。但是,这两种方法很容易被作弊的作弊者发现,它们也不可避免地增加了评估时间。

除了筛选出低质量的工作人员外,用户行为和鼠标光标移动对于研究搜索引擎结果页的性能也非常有用。 Guo 和 Agichtein 提出了一些有关使用鼠标轨迹推断用户对 SERP 意图的初步结果。 Huang 等人表明,即使没有单击 SERP,光标的位置和移动也有助于理解搜索者的行为。 提出了一组单击后行为(PCB)功能,例如搜索停留时间,光标移动和滚动行为,以估计 SERP 上显示的文档相关性。 Guo 等人通过一组细粒度的会话行为(FSB)功能预测了搜索成功,这些功能还包括搜索停留时间,鼠标滚动,点击和光标移动。 还分析鼠标光标信息,以预测用户在搜索引擎上的体验,用户对 Web 内容的参与程度以及在 SERP 上的直接显示。

3. 实现方案

我们的方法是分析工人在 QoE 人群测试任务中回答问题时产生的行为。完成 QoE 人群测试活动后,我们将处理行为跟踪以检测低质量的工作人员。检测机制的基本思想是将评估过程中捕获的工人行为量化为工人行为指标。之后,我们应用多类朴素贝叶斯分类器来建立与工人素质相关的预测模型。质量得分用于通过工人在任务中提交的评估结果和人工评估者的评级来估计工人的质量。最后,我们获得了训练有素的模型,该模型可用于通过工人行为来预测工人的素质。

经过训练的模型可以帮助实验人员自动确定工作人员是否可靠。在工作人员提交任务之后,我们可以为每个工作人员计算工作人员行为指标,并将其输入到经过训练的模型中,以估计工作人员的素质。接受或拒绝他们的工作的决定可以通过其 API 发送到众包平台。

与其他作弊者检测方法相比,采用工人行为具有三个主要优点。首先,捕获工人行为几乎是工人看不到的。此功能很重要,因为复杂的垃圾邮件发送者可以轻松地找到并逃避反作弊检查,例如合理的问题或一致性测试。这些检查还可能无法对攻击进行分组,而攻击者会在作弊者之间共享任务的答案。其次,对工人行为的监控不会给工人带来任何额外的工作量。获得训练后的模型后,可以减少甚至取消反作弊检查。因此,任务的长度可以减少。由于进行实验的费用通常与任务的长度成正比,因此我们的方法可以节省实验人员的费用。最后,我们的方法与实际评级无关。这对 QoE 评估特别有用,因为某些主观指标(例如期望或享受程度)可能没有绝对答案或排名。因此,工人之间的等级差异是可以接受的,并且可能无法揭示工人的素质。

使用工人行为来检测低质量工人主要面临三个挑战。首先,很难系统地分析工人的行为并找出能够发现低质量工人的因素,因为他们的行为也会受到他们的反应或他们自己的使用行为的影响。我们通过设计十个工人行为指标来量化相关行为,例如整个评估过程中的光标轨迹的微动和时序信息,来应对这一挑战。特别是,我们使用人机界面区域中常见的子运动分析来研究定点设备的性能和准确性,以从光标轨迹中提取微运动信息。此外,我们采用了 Hwang 等人提出的部分游标措施来量化游标轨迹,例如游标的速度和加速度。在我们的分析中,我们应用统计工具从模型中选择四个指标。第二个挑战是获得有关工人素质的基本事实,以使其与工人行为相关联。尽管众包平台提供了单个工人的历史接受率,但我们发现工人的素质可以是多种多样的。例如,一组工人或机器人可以使用共享问题答案字典(SQAD)方法来提高其接受率。 因此,我们在 QoE 人群测试任务中精心设计了问题,其中包括反向编码的问题和跳过逻辑。 我们还将分析开放式响应和评估结果。 通过检查违反这些逻辑,响应的复杂性和人工检查,我们可以推导出质量得分来估计工人的质量。最后一个挑战与捕获工人行为的实际设计有关。必须仔细设计评估系统的实施,以减轻因捕获行为而造成的性能影响,而行为可能会干扰正常行为。因此,我们会仔细调整工人行为反馈的频率,从而可以减少浏览器中缓冲的条目数。

3.1 方法框架图

3.2 评估工作人员质量

QoE 人群测试的主观性使其难以衡量工人的准确性,因为与以前的工作不同,QoE 人群测试任务没有模型答案。我们通过在评估中包含多种作弊检测策略来解决此问题,从而可以自信地推断出工人的素质。除了用于单项度量之外,我们还使用 15 个多项选择题和 1 个开放式问题来度量 QoE。要求工作人员从不同方面对刚刚观看的 QoE 进行评分,以提高测量的鲁棒性,包括图像/声音质量,视频内容和回放的平滑度等。在设计问题时,我们采用了许多策略来帮助我们评估工人的素质。要求工作人员指出他们是否注意到任何视频质量适应。设置了三个反向编码的问题来衡量工人的可靠性。我们还实施了通常用于对李克特量表进行评分的四种评分方法。在每次评估中,为工人随机选择一种方法。

3.2.1 质量得分

质量得分用于总结工人的答案并量化工人的素质。它由七个措施组成,这些措施是根据所有四个视频评估和手动检查的响应计算得出的。 我们假设工人的素质在整个任务中不会改变。 因此,我们为每个工人而不是每个评估分配质量得分。 这套措施可以根据其性质分为三类。 第一类重点是分析开放式问题中文本输入响应的复杂性。其他两类,分别是违反软性规则和对立矛盾,分别侧重于检查意识和对指令和问题的关注。这些技术通常用于过滤低质量的工人。

?文本输入响应中的复杂性:我们的评估中有一个悬而未决的问题,要求工作人员输入 3 个用逗 分隔的单词,以表示他们刚观看的视频的内容。 这个问题类似于图像/视频注释任务。 根据他们的回答,我们可以检查工作人员是否对视频和问题给予了足够的重视。

我们通过三个指标(qwc,qww 和 qw f)来分析响应,这三个指标与使用的唯一字符的数量,使用的唯一单词的数量以及响应的格式有关。 我们还手动检查响应的内容,并对每个 qct 进行评分。 为了计算 qwc,我们首先将响应转换为小写大写字母,然后计算所使用的唯一字符的数量。 我们通过将该指数除以 26 个英文字母的总数来对其进行归一化。

另一个度量 qww 考虑响应中唯一单词与单词总数之比。 通过将由非字母字符分隔的相同子字符串分组,可以找到唯一的单词。 我们观察到,一些工作人员对所有四个具有不同内容(例如“好”和“有趣”)的视频做出了相似的回应。

由于字符或单词的计数不能检查答复的内容,因此我们还使用人类评分者对答复的评分(从 1 到 5)进行评估(qct),这些答复与 NBA 篮球比赛有关。要求工人每次评估输入三个词,评级标准主要侧重于回答的准确性而不是描述性。

?违反软规则:为确保工人达到一定的质量,说明中规定了一些规则。 例如,工作人员必须观看整个视频,而不能快速转发。违反这些“硬性”规则可能会导致其工作被拒绝或阻止其继续进行下一次评估。 另一方面,“软”规则不会导致拒绝,但它们可以反映出工人对使用说明的意识。 我们的评估有两个软规则。 其中一个是在一个问题中实施的,要求工人指出他们是否注意到任何视频质量适应问题。 如果工人没有注意到任何质量变化,则指示他们跳过下一个问题。但是,我们发现一些工人没有按照指示跳过该问题。 qjp 是在整个任务中正确遵循四个评估中的规则的平均计数。

另一个软规则是关于文本响应的格式,这要求工作人员输入三个逗 分隔的单词。 尽管在工作人员提交答案之前在浏览器上实施格式化策略是可行的,但我们不限制输入。 因此,我们可以捕获随便输入的低质量工人。 我们发现,大约有 18%的工人在所有四个评估中均未输入正确的格式。 与 qjp 相似,此度量 qwf 是使用正确格式化的输入的平均数量计算的。

?对立矛盾:一些低质量的工人倾向于对所有问题提供随机评分或相同评分。 通过应用反向编码的问题,可以轻松地筛选出这些工作人员。 这些问题在语义上与另一个问题相反。 例如,“初始图片质量太低。” 与“初始图片质量符合我的期望”。 在我们的评估中,三个问题被反向编码。 我们编写了一个度量 qrc,该度量计算所有四个评估中正向和负向编码问题之间等级的平均差异。

最后一项度量 qcn,检查工作人员是否可以正确识别视频流是否具有任何视频比特率自适应。由于工作人员很容易确定视频质量是否已改变或保持恒定,因此我们认为该措施可以向评估揭示平均水平。此度量计算了平均任务中正确识别的评估数。

3.3 量化工人行为

我们介绍了使用工人行为指标系统地量化工人行为的方法。 在介绍指标的详细信息之前,我们首先通过展示在我们的 QoE 人群测试任务中收集的典型案例,来提供一些使用鼠标光标轨迹来推断工人质量的直觉。

3.3.1 观察

我们相信隐藏在鼠标光标轨迹中的信息也可以帮助推断工人的素质,因为光标的移动与眼睛的移动密切相关。我们的原始行为跟踪包括与光标和鼠标相关的事件的全面集合。此外,我们为每个评分对象(例如单选按钮或文本字段)安装了回调函数,以区分随机点击和对评分对象的点击。还记录其他浏览器事件,例如大小调整或失去焦点。每条记录都在用户侧加了时间戳,时间分辨率为 1 ms。在本研究中,我们不限制工人使用的指示设备。但是,我们的 QoE 人群测试任务仅允许 Windows 和 Linux 用户参与。这排除了运行 Android 或 iOS 的平板电脑。因此,我们相信,大多数参与其中的工人在笔记本电脑中都使用了鼠标或触摸板。

我们提出了一组十个工作人员行为指标,用于从原始跟踪中提取时间和鼠标移动信息。 除了整个任务的平均行为外,我们还分别分析了启动阶段和询问间隔。 我们认为,这些指标可以从不同方面捕捉工人的认知过程。 评估页面完成渲染并在时间 t0 开始捕获工作人员行为。 工人在时间 t 单击 ath 问题。 启动时间段定义为从页面渲染到第一次单击答案的时间段,而询问时间段定义为工作人员回答问题与下一个问题之间的时间段。

每个光标移动记录都包含坐标 xj 和 yj 以及其时间戳记 tj,其中 j 是轨迹中的第 j 个光标移动记录。带有阴影的纯色区域是记录鼠标连续移动且光标间移动小于 50 ms(即 tj-tj-1 <50 ms)的时间段。否则,我们将移动视为停顿,并以垂直笔触绘制阴影。我们使用 t(k)p 和 τ(k)p 分别表示第 k 个暂停事件的开始和结束。我们让光标移动记录和点击的总数分别为 N 和 C。我们使用这些符 来计算工作人员行为指标。

3.3.2 特征工程

?总体子移动计数,暂停次数和暂停中位数:前三个指标量化了整个评估任务中员工的行为。 子运动的总数可以量化评估过程中工人产生的微小运动,并揭示出工人是否采取非常直接的途径来完成任务。

子运动只能显示运动方向。 为了获得时间量度,我们考虑了暂停次数 P 和中位暂停持续时间 mtd。 我们认为只要光标停留在同一位置的时间超过 50 毫秒,就会发生暂停事件。 因为我们的任务相对简单,工人可以快速回答,我们使用的时间比以前使用的时间短。

?

启动时间和子移动计数:以下两个指标特别关注启动时间,即工人在回答问题并移动鼠标光标之前可以先浏览问题。 我们通过测量长度并计算启动周期的子移动来量化这种行为(分别由 mst 和 msc 表示)。

?

额外点击次数:我们计算工作人员产生的额外点击次数,以 mtk 表示。我们从跟踪记录的点击数中减去完成任务所需的最小点击数。例如,我们假设只需要单击一次即可通过单选按钮回答多项选择题。我们考虑使用此指标,因为低质量的工人倾向于以最小的努力完成任务。但是,额外的鼠标单击是该任务的附加功能。因此,我们认为此指标可以帮助筛选出低质量的员工。

?

中间询问时间和子移动时间:除了总体和启动期间统计信息外,我们还考虑了询问期间的行为。 安装在每个评估对象中的回调函数使我们能够识别工作人员回答的问题。 我们可以在工人回答问题时轻松地将迹线切成薄片。之后,我们可以计算出平均时间长度 mit,以及产生的子移动次数 mis。

?

中值光标速度和加速度:从我们的观察中,我们发现鼠标移动的动态性对于检测低质量的工人也很重要。 因此,运动分析被用作我们指标的一部分。 光标速度的中位数 mcs 和加速度 mca 是坐标的一阶和二阶导数。这两个指标是表征光标轨迹的重要度量。

4. 结论

我们的结果表明,具有三个指标的模型的错误率小于 30%。我们还发现,应将不同的指标集用于不同的评分方法。通过结合四种评级方法的预测,发现低质量工人的成功率约为 80%。我们进一步表明,我们的方法在准确性和查全率方面优于 CrowdMOS。

未来,我们将研究此方法对其他类型的调查任务的可推广性。我们还将介绍针对触摸屏和移动设备的新指标。

致谢

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年1月8日
下一篇 2021年1月8日

相关推荐