打假神器来了?论文图像查重软件研发成功,4小时筛查3500篇论文

该软件在4小时内筛查了3500篇论文,并最终发现了400个可能重复的图像。

“实验图像重复”是论文被质疑的常见问题之一。此前,已有数起论文打假瞄准了生物医学领域,其中的一个关键靶点就是“实验图像重复”。

近日,Nature 道了美国计算机学者研发的一款图像查重软件,似乎为快速解决这一问题带来了希望。该软件在4小时内筛查了3500篇论文,并最终发现了400个可能重复的图像。

不过,有学者认为,这款软件的缺点也很明显,因为图像重复不一定是错误。而且,软件甚至会将相似的图像标记为重复。

知名学术打假人Elisabeth Bik评价称,该软件“仍需要人工监督,以确保它不会出现标记错误”。

新冠论文大筛查:4小时、3500篇论文、2.1万张图像

今年6月,雪城大学计算机学者丹尼尔·阿库纳(Daniel Acuna)利用开发的图像查重软件,提取和比较了预印本 站bioRxiv和medRxiv上的3500篇论文,共2.1万张图像。

根据Acuna研究团队之前的检测结果,他们推测数据库中1.5%论文包含有可疑的图像,而0.6%论文包含有欺诈性图像。Acuna的公司Resis使用这一软件为期刊和研究机构提供服务,但目前还未公开使用。

他说,在4个小时内,该软件就发现了约400个可能存在重复的图像。不过,Acuna认为大多数都没有问题。他选择了24篇包含“有趣”重复图片的论文,同时公布在他自己创建的 站和PubPeer上。

芬兰赫尔辛基大学病毒学家Giuseppe Ballistreri对Acuna所做的工作表示感谢。他写道:“如果这个软件的运行结果是准确的,我认为应默认在PubMed中实施。”

帮助出版商筛查造假

荷兰出版业巨头爱思唯尔科研诚信负责人IJsbrand Jan Aalbersberg说,为发现图像重复使用问题,出版商需要创建一个包含所有已出版图像的共享数据库,以便进行比较。

需要人工调整结果

不过,也有人表示,重复不一定是错误。Bik认为,该软件“需要人工监督。”

Acuna同意她的观点。他说,该软件尚无法根据上下文判断重复图片是否存在问题,需要人为审查。

“但这仍然是有用的,尽管Bik擅长在论文中查找重复的图像,但计算机可以通过比较数十万、数百万篇论文,来找到两篇论文中的重复之处,这对人类来说是不可能完成的任务。”Acuna说。

一些研究人员则反映,Acuna的软件将相似的图像也标记为重复。同时,软件无法兼容广为流行的PDF文件格式,也是一个问题。

来自德国海德堡的图像完整性分析师Jana Christopher说,从更广泛的意义上讲,重复图像查重软件过于专注查找重复项,从而忽视了图像的全貌。例如,两个被判定为重复的图像,其实只有很小的重复区域,在其他方面完全不同。Acuna认为,改进细微差别是机器学习进步的关键。

图像分析在持续,造假者要小心

即便该软件存在诸多问题,但Acuna表示,他将继续分析COVID-19预印本论文。目前已经分析了5500篇,这个数字还在持续上涨。

他还会将预印本中的图像与数据库PubMed中的研究论文进行比较,这可能还会引发其他图像的重复使用。

参考资料:

5.https://ischool.syr.edu/people/directories/view/deacuna/

6. https://acuna.io/

8. https://mp.weixin.qq.com/s/99t2qTQ7L_HguJpTb4mHdw

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年6月26日
下一篇 2020年6月26日

相关推荐