7月21日,《Nature》发布了一篇重磅新闻:论文图片查重软件研发成功。该软件的研发者是美国Syracuse大学的机器学习研究者Daniel Acuna。
众所周知,在目前的论文查重系统中,一般只能对文字部分进行查重,无法对图片部分查重。
因此,除了文字抄袭外,最常见“撤稿原因”就是图片“错误”。当前,仅靠人工检查,就已经发现了大量造假的图片。
曾供职于美国斯坦福大学的伊丽莎白?毕克(Elisabeth Bik),多次揭露中国科研人员涉嫌“学术不端和造假”,其中大部分原因是图片“错误”。
2019年8月28日,Bik博士在 PubPeer 和其 Twitter上质疑该一篇刚发表不到24小时的Nature论文,存在学术不端,图片内容重叠问题。该文章由哈佛大学医学院吴旭教授团队完成,2020年6月17日,Nature正式对该论文进行撤稿。
除此之外,Bik博士也曾公开质疑北京大学药学院院长周德敏至少有6篇论文涉嫌学术不端,主要是这些论文涉嫌图片造假或是一图多用。
图片查重软件应运而生
在Acuna递交了第一批图片查重结果后,立刻引发了学界关注。
这款软件之所以具有开创性,是因为它试图大规模识别重复图片,而这种“重复”,可能是无心之失,也可能是学术不端。
其基本原理是,将提取图片放大以获得特征性图片数字“指纹”,从而即使图片做了旋转、大小调整、截取、改变对比度或颜色,该软件仍然能够识别出其相似度。
根据之前的检测结果,研发团队推测数据库中1.5%论文包含有可疑的图像,而0.6%论文包含有欺诈性图像。
今年6月,这款软件首次应用于新冠病毒病(COVID-19)论文的识别,在bioRxiv和medRxiv(冠状病毒研究的两个关键资料库)下载了3500篇预印本论文后,对里面约21000张图像进行了提取和比较。
但也有一些研究人员说,Acuna的软件完全搞错了,标记了类似但并不是重复的图像。例如,杜克大学的Priyamvada Acharya要求Acuna删除其 站公示,因为Acuna软件对其论文图片做了错误识别。
基于上述反馈,Acuna已经将其识别出来的“造假图片”由 站公示改为私下访问。只有收到他邮件通知的学者,才能凭密码进行访问。
针对该软件,伊丽莎白·比克(Elisabeth Bik)表示赞许,同时建议在正式公布软件识别的造假图片之前,可以让她做鉴定。Bik在PubPeer的帖子上写道,该软件“仍然需要人类的监督,以确保它不会错误地将适当的复制标记为不恰当的”。
Acuna对此表示同意。他表示,软件标记的内容总是需要一个人来审查,而且它还不能确定它所识别的内容是否有问题。“我仍然认为它是有用的,因为它可以捕捉人类难以捕捉的东西。”
芬兰赫尔辛基大学病毒学家Giuseppe Ballistreri更是建议将该软件应用到PubMed数据库。
参考链接:
https://3g.163.com/news/article/FI569TB6053296CT.html
https://www.nature.com/articles/d41586-020-02161-3
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!