图像查重软件：真能肃清学术造假之风？

据2016年发表在Nature上的一篇文章统计，每25篇生物医学论文中就有1篇包含存在图片造假。图片造假包括抄袭以及加工他人或自己论文中的图片，但很难被读者们识破。这些造假图片歪曲了实验结果，把学术界搅得乌烟瘴气，令许多学者深恶痛绝。

日前，来自纽约雪城大学的计算机科学家 Daniel Acuna 研发了一种能对学术论文造假的图片进行标记的图片查重软件，他在全球的冠状病毒相关的研究论文中试运行了该程序。截止目前来看，这个软件在解决论文造假这个大难题上，不失为一种开拓性的进展，但准确度仍有待提高。

“我很遗憾无法帮助应对这场流行病ーー但也许我可以用我擅长的算法帮助科研界肃清学术造假之风。” Daniel Acuna 如是说。2018年，Acuna发明了一种图片查重软件，这种软件能在成千上万的论文中挖掘出存在图片造假的论文，也包括那些将图片加工，如翻转后、大小变换后以及旋转后重复利用的论文。这个软件非常具有开拓性，但也有一定的不完善之处，比如存在错判的可能。软件筛选出可能存在造假的论文后，还需要专家们认真审视，检查这些论文里的图片到底有没有造假。

Acuna表示，目前这个软件还处于试验阶段，正在接受期刊和研究机构的检验。这次新冠病毒大规模的相关论文研究是一个很好的试验机会。今年6月，他从 bioRxiv 和 medRxiv 服务器下载了3500篇相关论文， bioRxiv 和 medRxiv这两个服务器几乎载录了所有的新冠病毒研究论文。他用查重软件提取并比较了这些论文里的图片，图片数量非常巨大，总共约21000张。

经过四个小时后，该软件识别出了约400张可能存在造假的图片。经过进一步人为审查之后，大部分最后被发现并没有存在造假，少部分图片依然被认为可能存在造假。7月份，他把可能存在造假的24篇论文公布在个人站上，并在论文讨论站PubPeer 上公开标记了这些问题。

但也有一些学者认为这个软件的正确度有待提高。Elisabeth Bik是学术界著名的“打假”高手，她经常在PupPeer公开一些存在图片造假的论文。她在PupPeer写道，这个软件“仍然需要人的监督，以确保它不过度识别。” Acuna也接受这个建议。

还有一些学者认为这个软件完全不对，标记出的图片只是与其他论文类似但完全不一致。例如，杜克大学的Priyamvada Acharya要求Acuna在这个造假论文清单中删除他的论文。Acharya表示，他的这篇论文对同一种分子表达了类似的观点，所以可能和前人的论文有类似之处。“我们感谢你的意图，并强烈支持这种举动。然而，这个软件算法可能还需要进行调整。截至目前来看，人为审查依然是必不可少的，”他和论文合著者写道。收到这样的意见后，Acuna 从他的站上删除了大约三分之一的论文，并将站列表设置为私人访问。

德国的著名图像分析师Jana Christopher指出，总的来说，这种自动软件仍然不够完善，而且“需要一位专家来仔细审查和解释”。她说，软件标记的部分造假图片是有问题的，部分是正确识别。她表示，这种自动软件过于注重寻找重复图片，而且目前还不能识别所有的数据格式。

迄今为止，新冠病毒领域已经有数以万计的预印本、综述和论发表，许多研究人员担心部分论文质量低下、存在错误甚至存在欺诈。而许多期刊为了推动相关论文数量的增长，大大缩短行评审时间，导致审查过程不够严格。科学家们警告说，“滥竽充数的研究已经开始泛滥”。

参考：
https://www.nature.com/news/problematic-images-found-in-4-of-biomedical-papers-1.19802 ；

https://www.nature.com/articles/d41586-020-02161-3

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

图像查重软件：真能肃清学术造假之风？

相关推荐