集群众包移动测试告使用图像理解的应用

引用

Di Liu, Yang Feng, Student Member, IEEE, Xiaofang Zhang, James A. Jones, Member, IEEE, Zhenyu Chen.Clustering Crowdsourced Test Reports of Mobile

Applications Using Image Understanding

摘要

导言

众包测试一般是由众包者在众包平台上发布微任务，并要求众包者以测试告的形式提供反馈。因为众包技术本质上依赖于大量的劳动力，请求者自然会收到大量的告，因此，检查和理解这些测试告成为一项乏味但不可避免的任务。

对此我们提出了一种利用文本和图像信息的测试告优先级排序方法，并提供了一个利用图像理解的全自动测试- 告聚类技术。此外，为了帮助用户将该技术应用到实际中，我们不仅研究了聚类的准确性，还考虑了在实际场景中的实用性和参数选择。为了实现这个目标，我们从文本描述和屏幕截图中捕获信息，然后计算用于聚类的每一对告之间的距离。在图像分析方面，我们采用空间金字塔匹配(SPM)技术和卡方度量来衡量截图之间的相似性。对于文本分析，我们使用经典的自然语言处理技术来衡量告之间的文本描述的相似性。然后，我们利用多目标优化算法的平衡公式，为所有测试告生成混合距离矩阵。最后，在距离矩阵的基础上，采用分层凝聚聚类方法进行表聚合。

方法

本节详细介绍我们的技术的设计。该框架主要包括四个阶段:(1)文本处理，(2)截图处理，(3)平衡距离计算，(4)测试告聚类。每个主要阶段都包含几个步骤。

1.文本处理

在文本处理中，我们专注于应用现有成熟的自然语言处理工具，从测试告中提取 bug 描述的文本特征。该过程由两个步骤组成:(1)关键字向量构建，(2)文本距离计算。

关键字向量构建：我们使用了 Jieba8，一个轻量级的基于 python 的分词系统来标记文本描述。在分词后，我们只保留动词和名词，过滤掉其他单词。类似地，我们还根据 ICTCLAS 停止词列表过滤出停止词以获取关键字。然后，将该方法应用到每个文本描述中，并在其中添加关键字，就可以建立测试告集 R 的语料库 V。

文本距离计算：在计算这些文本描述之间的距离时，我们使用 TF-IDF 对关键词进行加权。在实现过程中，我们使用其加权关键字向量之间的欧氏距离作为文本距离 DT(ri,rj)。

2.截图处理

直方图特征构建：我们采用空间金字塔匹配(SPM)技术从截图中提取尺度不变特征变换(SIFT)的描述符。

截屏距离计算：我们采用卡方距离度量法，这是一种常用的计算两个归一化直方图之间距离的方法。然而，每个测试告可能包含不止一个截图。对于每一对测试告(ri,rj)，我们使用 Jaccard 距离测量两组截图之间的距离。

3.平衡距离计算

根据以上距离计算，我们将文本距离 DT 与截屏距离 DS 组合为平衡距离 BD，下式中定义的平衡距离 BD 表示测试告 ri 与 rj 之间的总距离。

4.测试告的聚类和抽样

使用前面的方法来获得所有测试告的平衡距离矩阵，我们可以将这些告分组。我们使用分层聚集群集(HAC)，来对这些告进行分组。凝聚层次聚类可以看作是一个自下而上建立数据实例树形图的过程。HAC 首先将每个数据实例分组到一个集群中。然后，它根据距离测量凝聚最接近的一对簇。整个聚合过程重复进行，直到集群之间的最小距离达到用户定义的阈值 ε。

实验

为了验证我们的技术，我们对工业数据进行了全面的实验。我们通过三个方面来评估我们的技术:有效性、有用性和潜力。此外，我们还分析了参数敏感性，以帮助用户在不同的设置下应用我们的技术。

1.实验设置

在采样过程中，我们设置采样比参数 ρ= 5%。特别地，对于只包含一个测试告的集群，我们在第一轮中采用所有单一的测试告。需要注意的是，除了为了考察参数敏感性而设计的 RQ3 实验，整个实验中我们都没有改变这些设置，以确保结果的一致性。

2.结果分析

[RQ1.有效性]：表 2 中展示了这四种技术的同质性(H)、完整性(C)和 V-Measure(V)结果。较高的 V-measure 分数和 SC 分数表明，基于图像理解的测试告聚类技术能够改进一起描述类似 bug 的测试告。另一方面，我们发现屏幕截图的信息可能会对这些包含有限数量活动视图的应用程序的测试告集群产生负面影响。

表 2:不同距离指标聚类检测告的

表 3:不同距离度量下聚类测试告的轮廓系数

[RQ2.可用性]

根据表 4 第三列中显示的 APFD 值，我们观察到，在不同程度上，所有这些聚类技术在所有项目(除了 p2(Game-2048)中的表现都优于随机检查。在此基础上，我们从聚类结果中抽取测试告，采用随机抽取策略，重复实验 30 次，并根据 APFD 得分进行 Wilcoxon 符秩测试，分析 TXT&IMG 与其他四种技术的差异。表 4 的第四列显示了我们的策略与理论理想之间的差距，可以得出以下结论:1.与随机方法相比，这些聚类技术可以提高检测告的效率。2. 基于图像的方法很明显改进了传统文本聚类技术的性能。3.在具有大量特定于应用程序的视图的项目中，集群技术比优先级划分技术更适合于告检查。与其他策略相比，TXT&IMG 与理论理想结果的差距较小。然而，在改进用于测试告检查的聚类抽样技术方面，未来的工作仍有空间。

表 4:Wilcoxon 的 APFD 符秩评分测试

[RQ3.参数敏感性]:

本研究有助于使用本方法的使用者在不同的使用场景下设置适当的参数。分析了影响聚类-抽样过程三个基本步骤的三个关键参数:均衡因子 β、聚类阈值 ε 和抽样百分比 ρ 的参数灵敏度测试。

?参数 β 控制平衡距离计算作为一个谐波权重。我们分析了 β 值在 0.5 ~ 1.5 范围内，增加 0.1 时的聚类结果

?使用参数 ε 控制分层聚类的停止点。当最近的聚类对之间的距离大于 ε 值时，聚类过程终止。在本研究中，我们讨论了 ε 值在 0.5 ~ 0.9 之间的 APFD 得分，ε 值的增量为 0.1。

?参数 ρ 控制从每个簇的告抽样的数量，它影响测试告检查的效率。分析了随着 5%的增加，ρ 值在 5% ~ 30%之间时 APFD 分数的变化趋势。

图 1 显示了在 ε=0.8 和 ρ=0.1 的条件下，聚类结果对参数 β 的敏感性。表 5 给出同质性、完备性和 v-measure 在同一设定下的平均值。表 6 显示了在 β = 1.0 和 ρ = 0.1 条件下，APFD 得分随 ε 参数变化的平均值。。表 7 中变化在 0.004 ~ 0.012 之间，图 6 中的曲线相对平滑。这个事实证明了我们的技术在不同的设置下是相对稳定的样本百分比 ρ

总结:虽然这三个参数在不同程度上影响我们技术的表现，我们的技术性能对于它们的变化大体上是稳定的。由于实验结果表明，将文本描述和截图的权重设置为相等值可以使我们的技术表现良好，因此我们建议我们的技术用户从 1 开始调整到 β。同样，我们建议使用我们技术的用户将 ε 的默认值设置为 0.8，将 ρ 的默认值设置为 0.1。

图 1:聚类结果对参数的敏感性 β (ε = 0.8， ρ = 0.1)

表 5:不同 β 设置下 30 次执行的聚类结果比较(ε = 0.8， ρ = 0.1)

表 6:ε (β = 1.0， ρ = 0.1)设置下 30 次执行 APFD 平均值的比较

表 7:不同设定 ρ (β = 1.0， ε = 0.8)下 30 次执行 APFD 平均值的比较

结论

感谢

国家自然科学基金项目(no.61772263, no.61772014);苏州市科技发展计划新型软件技术与产业化协同创新中心(重点产业技术创新-前瞻性应用研究项目 SYG201807);江苏省高校重点学科建设项目。

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

集群众包移动测试 告使用图像理解的应用

相关推荐

集群众包移动测试告使用图像理解的应用