他想挖全世界的论文，可能吗？|赛先生

一个巨大的数据库正在印度悄无声息地建立，有望让免费的论文挖掘成为可能——但是，这合法么？

Carl Malamud身后的数据库储存了7300万篇论文，他打算让科学家用来文本挖掘。（图源：Smita Sharma）

从文档库里阅读或下载论文是不被允许的，因为这会侵犯出版商的版权。按照Malamud的设想，研究者可以使用计算机软件抓取其中文本和数据，在不阅读文字的情况下扫描全世界的科学文献，提取他们想要的信息。

这一前所未有的项目让许多人为之激动，因为这是第一次在文献付费墙上开了一大条口子，让它们能被用于简单的程序分析。目前，已经有几十个研究组从事着类似的数据挖掘工作，并在此基础上构建了基因和化学物质的数据库、寻找蛋白质与疾病之间的关联、生成有意义的科学假设。但是，出版商通常会对这类挖掘的速度和范围加以限制，只允许挖掘摘要部分，而非全文。为此，印度、美国和英国的研究人员正计划改用JNU数据仓库。Malamud和Lynn会去印度各个政府实验室和大学举办讲座，解释他们的想法。Malamud说：“我们会请一些教授来听我们的计划，他们听了之后都很激动，说‘天啊，这太赞了’。”

不过，数据仓库的合法性尚待明确。在建造仓库前，Malamud联系过几位知识产权律师，希望能避开不必要的官司。他说：“我们的立场是，这种做法完全合法。”目前，他的每一步都迈得小心翼翼——他为JNU数据仓库加了物理闸，让数据库无法通过因特访问。用户必须亲身前往数据仓库，而且只有进行非商业数据挖掘的研究者才能获准进入。Malamud的团队打算将来支持远程访问。“但我们希望能慢慢推进这个项目，而不是立刻对外开放。”

挖掘技术哪家强

数据仓库的建立可以为研究论文的软件分析扫清障碍，加州大学圣克鲁兹分校（UCSC）的生物信息学家Max H?ussler说，“如今对学术论文进行文本挖掘几乎不可能。”即使是像他这样能够通过学校获得付费文章的人也办不到。

自2009年以来，H?ussler和他的同事们就开始构建在线的UCSC“基因组浏览器”，将人类基因组DNA序列直接链到提及该序列的论文段落。起初，研究者联系了超过40家出版商，请求允许使用软件来筛查提到DNA的具体论文。但有15家出版商不是没有回应就是拒绝了他们的请求。H?ussler自己也不确定在无授权情况下的数据挖掘是否违法，不敢轻易尝试。过去，曾有出版商发现他用软件爬数据库后封锁了他的访问。“我90%的时间都在联系出版商，或是写程序来下载论文。”H?ussler说。

在柏林QUEST转化生物医学研究中心兼任职务的统计学家Chris Hartgerink现在只在允许开放获取的出版商那里做文本挖掘，因为“和不开放的出版商打交道太麻烦了”。几年前，当Hartgerlink还在荷兰读博时，他试过批量下载论文来做挖掘，随后被三家出版商取消了访问权。

一些国家已经修订了法律，确保非商业项目的研究人员可以在没有著作权人许可的情况下，对他们能合法获取的任何内容进行挖掘。英国在2014年就通过了这类法案，欧盟也在今年投票通过了类似条款。但这无助于落后国家的状况，那里的学术人员根本无法以合法的形式获取论文。即使在英国，出版商依然有权施加一些“合理”限制，例如以确保服务器不拥堵为由，让研究人员使用出版商专用界面并限制搜索和批量下载的速度。曼彻斯特大学国家文本挖掘中心副主任John McNaught认为这种限制是个很大的问题：“每5秒下一篇文章，对人来说好像挺快的，但是对机器来说就慢得要命。下载600万篇论文需要一整年的时间，单单下载生物医药的所有已发表论文就要整整五年。

McNaught说，不差钱的医药公司通常会多付一笔钱来获取专门的文本挖掘访问权限，因为他们的工作是出于商业目的。一位来自医药公司的研究员（由于无权接受媒体采访，该研究人员拒绝透露身份）说，有些情况下，出版商会允许这些公司批量下载论文，以避开此类速度限制。但是，高校研究人员常常只能从PubMed一类的数据库里对文章摘要进行挖掘。摘要确实能提供一些信息，但远不及全文来得有用。2018年，丹麦技术大学计算生物学家S?ren Brunak的团队指出，搜索全文比搜索摘要能找到更多基因与疾病的联系 (D. Westergaard et al. PLoS Comput. Biol. 14, e1005962; 2018)。

Carl Malamud和Andrew Lynn在尼赫鲁大学监督一个从7300万研究文献中提取文字和图片的项目。（图源：Smita Sharma）

挖掘论文还有不得不克服的一些技术壁垒。由于不同出版商使用不同的排版方式，从中提取文字本身就是一项挑战，而JNU团队就遇到了这个问题。例如，从PDF转换成纯文本的工具常常无法区分段落、脚注和图片。不过，只要JNU团队解决了这个难题，后人就可以“乘凉”了。Malamud说，团队从7300万篇论文中的首轮提取工作已经接近完成，但下一步还要检查错误。他预计数据库最快也要到今年年底才能建成。

打开无限可能

JNU数据仓库的拥护者早已迫不及待了，其中包括印度国家植物基因组研究所的计算生物学家、剑桥大学的讲师Gitanjali Yadav。2006年，Yadav带领研究所的团队，为植物分泌的化学物质构建了一个数据库——EssOilDB。如今，从药物开发团队到香水制造商都在从这个数据库中寻觅线索。即将建成的“Carl的百科全书”——用Yadav的话讲，可以让她的数据库更上一层楼。

构建EssOilDB的时候，Yadav的团队需要从PubMed和谷歌学术（Google Scholar）上细筛相关论文，尽可能从全文中提取数据。如果这些还不够，他们就要实地拜访图书馆，从罕见的期刊中把图表摘抄下来。Yadav认为数据仓库可以快进这项工作，她的团队正在为将来的数据挖掘编写查询语句。

印度基因组学与综合生物学研究所的生物信息学研究员Srinivasan Ramachandran对Malamud的计划也很激动。他的团队有一个2型糖尿病相关基因的数据库，并一直通过爬PubMed的摘要来寻找论文。他希望数据仓库可以拓宽他的挖掘。

麻省理工学院的“知识未来小组”（Knowledge Futures Group）想藉由挖掘数据仓库，研究学术论文的发表形式随时间的演变。团队成员之一、MIT媒体实验室的博士生James Weis说，团队希望能预测即将出现的新研究领域，并找出衡量研究影响力的替代方法。

解锁版权的一生

Malamud不久之前才萌生了将他的解锁版权运动扩大到学术出版界的想法。Malamud是加州一个非营利组织“公共资源”（Public Resource）的创始人，该组织会买下政府所有的法律文件并公开发表，其中包括佐治亚州的注解法典、欧洲的玩具安全标准，以及从建筑、杀虫剂到手术设备在内的逾1.9万项印度标准。

不过，Malamud也胜诉过。2013年，他向美国联邦法院起诉美国国家税务局，要求税务局公开税务豁免的非营利组织的税表——这些数据可以用来追究这些组织的责任。这一次，法院判Malamud胜诉，并要求美国国税局将数千个非营利组织的财务表以机器可读的形式公开。

2017年初，在倡导开放获取的伦敦慈善组织阿卡迪亚基金（Arcadia Fund）的协助下，Malamud将目光转向了科研论文。根据美国法律，美国联邦政府雇员的研究不受版权保护，而“公共资源”找到了数十万篇由美国政府发表的学术文章都违反了这条规定。Malamud要求取消对这些文章的版权保护，但法院究竟会如何判决仍然未知。他已经将初步结果发布到了上，但决定暂缓进一步的宣传计划，因为这件事让他想到了一个更大的使命：开放所有科学论文的访问权。

印度的机遇

这项使命源于2016年德里高等法院的一项裁决。那次案件的中心是德里大学的Rameshwari复印店。多年来，这家复印店一直在为学生复印昂贵的课本作为教材。这些课本的价格从500到19000卢比（合人民币50-1860元）不等，对很多学生来说是无法接受的高价。

2012年，牛津大学出版、剑桥大学出版和泰勒-弗朗西斯出版集团（Taylor&Francis）联合起诉了这所大学，要求它为每份复制的书籍购买许可。但德里高等法院驳回了诉讼请求。在判决书中，法院援引印度1957年《版权法》第52节，其中允许以教育为目的复制有著作权的作品，同一节的另一条款还允许出于研究目的的复制行为。

Malamud与印度的渊源很深：他早在1980年代就以游客的身份拜访过印度，并在斯利那加的船屋中写下了一本关于数据库设计的书，是他的早期作品之一。当听说Rameshwari复印店一事时，他刚刚获得了（他拒绝透露详情）8个装有Sci-Hub数百万篇期刊文章的硬盘。Sci-Hub是一个将付费论文免费向所有人开放的盗版站。Sci-Hub曾因侵权问题被出版告上美国法院，并在两起诉讼中败诉；尽管如此，它的一些域名至今依然有效。

于是，Malamud开始思索是否能以合法的途径使用这些Sci-Hub的硬盘，为印度学生做些什么。在他2018年与印度技术企业家Sam Pitroda合写的关于他工作的《自治法典》（Code Swaraj）一书中，他想象自己驾驶一辆类似美式快餐车的汽车空降印度校园，把论文分发给需要它们的学生。

合法吗？

又或者，数据仓库在美国是否合法根本无关紧要，因为这些内容全部来自位于印度的数据库——即使可以远程访问。美利坚大学华盛顿法学院的教授Michael W. Carroll因此认为，这个数据库是否合法，可能还得印度法律说了算。

而在印度，法律很有可能对Malamud有利——这也是他把数据库设在新德里的另一个原因。第52节允许的研究豁免让JNU数据仓库不会触犯印度法律，德里国家法律大学的助理教授Arul George Scaria说。但是，不是所有人都同意这种解读。第52节允许研究者复制期刊文章做个人使用，但不一定允许JNU数据仓库的大批量复制，Vidhi法律政策中心的法学研究员T. Prashant Reddy说。不让用户访问全文确实会让数据库相对有利，但是通过批量复制论文来构建数据库的做法却会使其陷入“法律灰色地带”，Reddy说。

高风险行业

原文以 The plan to mine the world’s research papers为标题

发布在 2019年 7月 17日《自然》新闻特写上

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

他想挖全世界的论文，可能吗？|赛先生

相关推荐