移动应用众包测试 告的自动化质量评估
论文:X. Chen, H. Jiang, X. Li, T. He and Z. Chen, “Automated quality assessment for crowdsourced test reports of mobile applications,” 2018 IEEE 25th International Conference on Software Analysis, Evolution and Reengineering (SANER), Campobasso, 2018, pp. 368-379.
https://ieeexplore.ieee.org/document/8330224
技术介绍:
随着移动设备的急剧增长和移动应用程序的迅猛发展,移动应用测试面临着巨大挑战。移动应用的典型特征包括有限带宽、不可靠 络和不同操作系统等,这些特征注定桌面和Web应用的传统测试方式不适合移动应用。随着群体智能的发展,众包测试(Crowdsourced Testing)受到了学术界和工业界的广泛关注。与传统测试相比,众包测试摆脱了测试人员地理位置的约束,测试者能随时随地进行测试,从而极大的提高了测试效率。
表1
表2:测试 告评价指标分为四类:Morphological、Lexical、Analytical、Relational,每个类别细分若干指标,其中X表示指标与理想属性之间是直接关系,表示间接关系
表2
(3)Classifier阶段:使用阶跃变换函数将数值指标转换为标准值之后,通过分类器聚合所有指标的标准值来评价测试 告的质量。由于众包工人专业水平有限,高质量测试 告数量明显要低于低质量数量,因此我们认为测试 告只要有超过60%的指标为Good,此 告即为质量好的。
图1:TERQAF框架
图2:四种阶跃变换函数
我们选择了CUEZILLA(一种衡量测试 告质量的自动化工具)作为基线方法,此外我们还跟WORST方法(预测测试 告质量好坏的方法)对比。表3显示了在所有数据集上不同方法的预测准确率结果。明显可知,TERQAF方法优于其他两种方法。TERQAF准确率高于CUEZILLA的原因,可能是TERQAF使用更多指标来评价测试 告的质量,获得的预测结果不受单一指标的影响。相比之下,CUEZILLA仅使用几个理想指标预测测试 告的质量,单个指标可能会对其结果其产生很大影响。TERQAF准确率高于WORST的原因,可能是WORST在预测测试 告质量时的定义导致:如果优质测试 告的数量小于质量不良的数量,则所有测试 告都被预测为坏质量的,否则所有测试 告被预测为好质量的。显然,多指标的TERQAF准确率会更高。
表3:TERQAF、WORST、CUEZILLA三种方法在五个数据集上的预测准确率,总体来看,TERQAF的准确率最高。
表3
总体而言,本研究做出了以下贡献:
(3) 我们在五个真正的工业移动应用众包测试集上进行实验,结果表明TERQAF能准确预测测试 告的质量。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!