编译 | 晋楠
用计算机软件“炮制”论文、骗过同行评审,最终还能浑水摸鱼成功发表?近日发表于《自然》的一篇文章显示,法国科学家通过检测数百万篇论文,发现了243篇这样的“垃圾”文章。
一些涉事出版商已经表示将撤下这些论文,但让更多人质疑的是,一些期刊的同行评审难道是“吃素”的?为何会让如此多计算机生成的论文成为漏 之鱼?
“垃圾”文章如何生成?
早在2005年,出于“玩心”,美国麻省理工学院3位计算机博士生Jeremy Stribling、Daniel Aguayo 和 Maxwell Krohn,创造了一款叫作SCIgen的论文生成软件,以了解一些会议是否会接收毫无意义的“垃圾”论文。
SCIgen能把单词拼凑在一起,生成带有随机标题、文本和图表的研究文章。它们很容易被人类读者发现是胡言乱语。
结果,出于“恶作剧”让计算机写的一篇文章Rooter: A Methodology for the Typical Unification of Access Points and Redundancy,竟然被当年7月在佛罗里达举行的第9届世界系统、控制论和信息学多学科大会(WMSCI)接收了。
事情到此并未结束。
由于SCIgen软件可免费下载,任何人都可以使用,类似的“恶作剧”还在继续,并逐渐发展为一种论文造假的手段,让科学文献中涌现出一批“垃圾”文章。
到2012年,法国计算机科学家Cyril Labbe发现,美国电气和电子工程师协会(IEEE)出版的会议论文中有85篇出自SCIgen的伪造论文。他还找到了120多篇被IEEE和施普林格(现为施普林格·自然的一部分)发表的假SCIgen论文。
Labbe表示,目前还不清楚这些论文是谁撰写的,以及为什么这样做。随后其中一些文章被撤销,有的则被删除。
如何防范这些计算机“发明”的论文呢?
为此,Labbe注册了一个 站,可以让任何人上传手稿,检查它是否为SCIgen编程的“发明”。
Labbe发起的 站
施普林格也赞助了一个帮助发现SCIgen论文的博士项目,产生了一个叫作SciDetect的免费“侦查”软件。
SciDetect的免费“侦查”软件
为了简历“好看”发“垃圾”文章?
最初,Labbe需要在论文手稿中搜索SCIgen的典型词汇。后来他和法国图卢兹大学计算机科学家Guillaume Cabanac提出了一个新想法:寻找SCIgen输出短语的关键语法特征。2020年5月,他们在Dimensions数据库收录的数百万篇论文中搜索了这些短语。
在近日发表于ASIS&T的一项研究中,他们表示,在对每篇文章进行人工检查后,发现了243篇完全或部分由SCIgen撰写的“垃圾”文章。
每年由出版商生成的包含SCIgen文本的论文数量。2020年不完整,因为数据截止日期为2020年5月20日。
这些论文发表于2008~2020年,出现在各种期刊、会议论文集和预印本上,大多数属于计算机科学领域。还有一些论文则出现在开放获取的期刊上,甚至是付费阅读期刊上。其中,46篇已从最初发布的 站上被撤销或删除。
自去年以来,Labbe的清单上又增加了20篇论文,其中包括用MATHgen(生成数学论文的软件)和SBIR提案生成器(生成无意义的拨款提案)编写的乱七八糟的文章。
Labbe指出,最新一批的SCIgen论文大多数由来自中国(64%)或印度(22%)的研究人员撰写,尽管这些手稿可能是在他们不知情的情况下被他人以其名义提交的。
“我认为,这些论文绝大多数都是为了充实简历,以满足发表论文的需要。”Labbe说。
同行评审是“吃素”的?
在最新一批论文中,除了IEEE等知名会议或机构出现问题,还出现了若干计算机生成论文的“重灾区”。发布SCIgen内容排名前三位的分别是:
瑞士的跨技术出版 (Trans Tech Publications),共发表了57篇相关论文;
印度的蓝眼睛智能工程与科学出版 (Blue Eyes Intelligence Engineering and Sciences Publication,BEIESP),发表了54篇;
今年3月被施普林格·自然收购的法国出版 亚特兰蒂斯(Atlantis),发表了39篇。
被科学界奉为圭臬的同行评审难道是“吃素”的?为何对这类计算机炮制的论文防不胜防?
对于这一问题,以WMSCI为例,Stribling认为,这是因为这类会议比较“水”,没有科学功能,只会通过发邮件等各种方式推销自己而获利。
此次,英国伦敦物理研究所附属机构IOP出版 也撤回了 10 篇论文,并在调查为什么在同行评审阶段没有发现这些计算机生成的论文。
该出版 诚信和内容经理Kim Eggleton表示,“我们有合理的证据表明,这些论文的同行评审过程不合格。”
你能想象自己看过的某篇论文其实是计算机软件生成的“垃圾”论文吗?它们之所以能被最终发表,是因为这些会议或期刊比较“水”,还是因为同行评议容易被操纵?
你有什么看法?欢迎讨论。
参考文献:
https://www.nature.com/articles/d41586-021-01436-7https://www.nature.com/articles/nature03653
http://scigendetection.imag.fr/main.php
https://asistdl.onlinelibrary.wiley.com/doi/10.1002/asi.24495
https://link.springer.com/article/10.1007/s11192-012-0781-y
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!