2020 年 3 月 17 日,在超千人同时在线的“智源论坛·论文写作专题 告会”上,三位智源青年科学家分别进行了精彩的在线分享,题目分别为:中国科学院计算技术研究所研究员兰艳艳《论文写作小白的成长之路》、中国人民大学副教授赵鑫《谈如何写一篇合格的国际学术论文》、北京大学研究员施柏鑫《计算机视觉会议论文从投稿到接收》。
今天,我们将介绍智源青年科学家、中国人民大学副教授赵鑫《如何以初学者的身份写好一篇国际学术论文》。
赵鑫 智源青年科学家、中国人民大学副教授
本次 告中,赵鑫从一篇国际学术论文的通常逻辑布局入手:引言、相关工作、模型、实验、参考文献等,通过大量的实战示例,详细解析了它们的写作方法、技巧和注意事项等,此外还分享了他本人对于一些国际期刊的投稿经验。
需要说明的是,本次 告的示例主要以信息检索,自然语言处理以及数据挖掘的论文展开。同时赵鑫认为,国际论文不同领域的基本方法和思路都是相通的。写作堪称一门学术内功,需要时间加以修炼, 告人也在修炼途中;而且写作千人千面,没有绝对的正确和错误。本次 告仅作为他个人写作经验的一次交流分享。
下面让我们进入赵鑫演讲的精华要点部分。
第 2 篇发表在 SIGIR 2018 上,是基于知识属性的序列推荐算法。赵鑫指出,为了帮助论文初学者们快速入门,他接下来的内容风格可能会有点像“八股文”:按照论文的撰写顺序,介绍每一个部分该怎么写,有哪些规范、技巧或教训等。
引文:论文必须装点的“门面”
一般来讲,摘要部分只要不出现太大的失误就不会成为拒稿的因素,但引文部分如果把握不好就容易成为文章被拒的理由,或者让读者难以提起兴趣阅读该论文。引文部分主要具有以下作用:
2.阐述研究现状总结不足,说明目前状态,为读者提供研究背景的铺垫,带出论文研究的挑战和难点,如果论文需要解决的技术挑战重大,可以单独列出?段进行描述。但切忌单纯罗列工作,而不突出难点;
3.提出解决的新思路,主要是用来引出论?的解决思路;
4.给出新方案的设计,较为详细地介绍所提出思路的实现;
5.总结论?的贡献以及实验结论,这部分需要总结并且强调论?的贡献。
在引文中也特别需要注意讲究逻辑性,逻辑错误是目前许多同学都会出现的问题。常见的逻辑错误有以下几个方面:
1.因为模型 A 好使,所以用 A 做某任务。这是机器学习学生前期论文经常出现的错误。典型的错误如“因为 Deep Learning 好用,所以就可以用来完成某个任务”;
2.因为任务 B 没有人做,所以我做了。没有人做的事情很多,并不能体现出意义;
3.之前的人做了什么工作,我做了什么工作,我的比前人做得好。这种情况很容易出现缺乏解释性,强迫进行衔接;
4.这个任务很难,这篇论文我们这样解决了这个挑战。没有突出解决过程中的思路描述;
5.夸大自己模型的贡献、忽略别人的工作。这一定要和 related work 建立联系,不能夸大贡献。
引文的确需要适度的包装,不能够进行过度包装。过度包装是对于学术的很大不尊重,如随意给出主观的意见;随意给出一些非常泛化的词汇;随意夸大自己的模型,放大自己的贡献。例如”significantly improve”这样的副词+动词结构是较为不切实际的,需要慎用这样的词汇,所以需要就限定范围与条件进行说明。
引文的作用就是让大家容易读懂全文,从而起到一个铺垫的作用,包括:解释清楚“主要术语”;解释清楚模型的主要涉及思维以及技术路线。避免面面俱到,自我沉浸,可以通过多画图举例来说明解决方法;强调主要创新点,放在显眼位置。
综上所述,赵鑫对引文(Introduction)的写法“六句扩展法”进行了如下总结:
第一句写任务介绍以及研究意义
第二句概述研究现状以及存在主要的问题
第三句写解决这些问题的研究挑战
第四句写当前方法的主要出发点以及解决思路
第五句写当前方法的主要技术方案
第六句写总结、强调贡献
写出这六句话后,可以分别按段进行拓展,用以完成 introduction 的写作。
除此之外,在引文写作中还需要注意过渡词的使用,例如 yet、although 等。
在更高层级上去理解引文写作,这是一门讲故事的艺术。通过讲清楚故事让大家明白所做的事情,说清楚工作的重要性,让大家觉得结局思路好,工作有不可或缺性,甚至达到如沐春风的感觉。这需要把握引文写作的节奏感,需要交代背景,做好铺垫,解析细节,总结重点。
相关工作:分类整理,覆盖全面
论文写作中相关工作部分的要求,主要包括这四个方面:
尽量覆盖所有相关工作,其中可以匹配一些特定排版风格;多读论文;
进行细致的分类整理并突出相关之处;
强调差异与不同之处,例如主要任务,数据,算法的归纳与整理,这样可以写的非常高瞻远瞩并且浓缩;
兼顾长写与短写,铺垫好足够的内容再展开相关工作。
在这个过程中,以下几点错误是较为常见的,我们需要特别避免:
简单罗列阅读文章,并没有在平时读论文的过程中做到分类总结;
没有讲清楚区别与联系,这体现了对论文进行分类总结的重要性;
语法错误,论文的时态可以选择过去时或现在完成时,但切忌混乱使用时态;
套用与滥用模板。
定义:清楚明晰是关键
通常来说,定义部分主要具有以下三个作用:
介绍清楚所有术语,让符 符合人的直觉与常用思维(如首字母命名法);
给出所有符 的含义以及使用方式,好看、好记、成体系并活用上下标(推荐花书的符 参考,避免黑白式符 );
形式化地描述清楚任务。
在定义的写作中,其中需要注意或避免的问题有以下几个方面:
?个符 多次使用,又代表不同意思
全部使用未加粗的 notation 表示集合、矩阵等
符 不遵照习惯使用
频繁使用?些单词的缩写用于 notation (src,dest)
频繁使用上下角标都存在的符
符 的数量过多
log,expmin……这些数学符 都有规范的用法,不能直接写“log”之类,需要前面加一个斜杠代表数学公式。
模型部分:注重逻辑与收尾
模型部分的写作一定要强调逻辑,这对论文最终呈现出的质量极其重要。其中,最基本的逻辑形式分为总-分式和总-基础-增强式。总-分式的逻辑是指模型有若干个部分并对其分别加以介绍,各部分联系紧密且 title 比较清晰;总-基础-增强式是指首先概述一个基本模型,并在基本模型之上进行拓展。
在对模型进行收尾即在总结模型训练的过程中,可以通过加入模型分析、模型训练和模型学习等方面的介绍,用以对于模型进行完善、升级以及延伸。”可以将讨论主要放在以下几个方面:
? 正确性证明
? 时间复杂度
? 完整的算法流程
? 参数汇总+学习算法
? 与之前工作的区别(突出创新性)
? 与之前工作的联系(增强泛化性)
? 模型可扩展的地方(堵漏)
实验部分:注重对比实验
在文章的实验部分,往往遵循如下的一般流程:数据集合(包括:评测指标和评测流程)、对比方法、主干实验分析、模型细致分析、定性实验,下面是各流程节点写作的详细方法:
2.对比方法时首先要简略的介绍 baseline,若有特殊实现或者重要参数需要指明。而后需要对 baseline 进行整体总结。最后可以利用表格的形式对不同方法的性能进行对比。
而在文本描述中,也是先交待了故事整体,然后针对图的不同部分进行阐述,对文章的 motivation 进行验证,最后总结了文章提出模型的作用。
摘要和总结:整体把握
写摘要应该是时间花费最少的,建议在文章完结后进行摘要写作。因为此时论文已经成型,方便你直接借鉴或者改动论文中一些已经很成熟的重要语句。摘要部分要注意讲清楚任务、方法和创新点,不要提实现细节,不需要代入,而是要直接了当地写。
总结也是一样,简要总结工作,不要再埋包袱、打伏笔,具体流程可以这样写:具体任务、解决方案、实验结果、未来扩展。需要注意的是,语法上,现在完成时和过去时都可以,但是不能混着用。
写作习惯:如何安排写作顺序
对于论文写作、修改时的流程,一般来说,我首先会花费半天时间写相关工作,之后会对问题定义和模型细节进行足够了解并且进行写作,随后将写作重点放在引言和实验部分,一般会在 2-3 日内完成初稿。初稿完成后会花费一天时间在引言和其他部分反复进行迭代修改,全文定稿,最后完成摘要和结论部分及修改相关工作(如下图)。
对于论文写作、修改,推荐的方式如下图:
在论文写作中应该避免的问题上,除了下图列出的一些问题,还涉及到了不同 section 题目之间要有关联性和逻辑性,同时要避免无意义的长句子,对于自己文章的贡献,应该在几句话内讲明白,不要舍本逐末罗列太多创新点。此外,要注意英语词汇的正确用法,避免缩写。
此外,要使用英语词汇习惯的正式用法,避免缩写等(如下图)。
建议:最快、最稳的论文写作学习法
演讲最后,赵鑫提纲挈领提了一系列“high level”的建议。
首先,是论文写作中一些“固定而正确”的实践建议,赵鑫解释说,“只有学会跑之后才能考虑飞翔”,初学论文者首先要像学习八股文一样进行论文写作。具体建议如下:
1.学一手好的 LaTex,建议模板化、流程化、标准化。同时观念上将写论文作为科研的一部分——只有做好了科研,才能写出好论文。
2.学会一些固定转折、承接、突出、总结、代入、发现、介绍等固定语句。
3.重学四级单词或者学术论文常用单词,了解这些词的准确用法。(可以写个程序,找出来最频繁的词汇,以及它们的搭配,对于自己使用的新搭配要小心)
4.建议学会一套好的画图技术、做表技术
5.相关工作应该平时准备好,对于 bib 提前找好
6.自己做拼写检查。
对于论文写作,最快的学习途径,赵鑫认为是不断地复盘:多写论文,然后找师长修改;赵鑫强调:“要珍惜每一次老师给你的修改。作为中国人,尽管老师难免可能会出现语病,但他毕竟写过的论文比你多,一定要好好琢磨他为什么这么做”。
对应的,对于论文写作最稳妥的学习途径,赵鑫建议寻找一些科普的文章,如一些大组的工作,从头到尾去学习写作、背诵甚至默写;此外还有一种“廉价”的方法,是读论文的时候不看 abstract,从而根据论文写 abstract,然后进行对比,这在本质上相当于是写论文然后找人修改的过程。
对于期刊论文的写作,赵鑫的建议包括如下要点:
1.学会把论文写长、但又看起来也不冗余。所以如何使用图表、公式,如何组织十分重要。
2.尽量把参考文献写全。
3.尽量把实验做全。
Q&A
Q:先写中文还是翻译全英文?
A:如果英语不好,可以先写清楚中文的六句话然后再翻译。
Q:Related work 和 Introduction 的研究任务有什么区别?
A:Related work 是要突出覆盖性,Introduction 主要是强调现在已有的工作为什么解决不了当前的任务,没有必要面面俱到去介绍。再就是 Introduction 里面所有相关工作的介绍,都是为了突出你要自己的工作。
Q:论文比较时用自己复现的代码还是别人原始代码?
Q:先写内容还是先排版?
A:先写内容再排版,但是提前一定要做好模板,比如图应该怎么放,表怎么放,然后比如说哪个章节应该怎么写。
Q:写论文的时候一边看文献一边写,还是先看很多文献再写?
A:如果文献没看到足够多的时候,不建议写论文,因为文献不足够多的时候,可能你现在做的工作别人已经做过了。
Q:画图做表用什么软件更专业一些?
A:Visio、PPT。对于画图一定要留时间,画图最后一定要留出一天或者半天时间。
Q:读论文数学推导如何看?
A:建议大家都去看一下国外机器学习课程的数学推导 note。
Q:Note 要有什么模板?
A:随便去上一门国外的机器学习的课上,一般可以找到相应的作业 LaTex 模板,或者直接搜 note+tex+template。
Q:写 Related work 的时候,可以借用之前别人的句子或者微小的改动吗?
A:不建议完全去抄别人的,但是可以变一些句式,可以去做一个基本的命名。
Q:与 baseline 比较的时候,可以取人家的结果可以吗?
A:在通用的比较环境下,可以;如果使用了不同的实验设置,例如数据变动了,不要这么做。
Q:Reject 到 Resubmit 的文章,没有说出具体截止时间,一般多久结束?
A:半年。
Q:Note 有什么地方可以分享?
Q:怎么 follow 相关的研究的最新进展?
A:Google Scholar;大牛主页。
Q:怎么做论文分类汇总?
A:建议做重写摘要,或者试着对每一篇看过的论文用一两句话说清楚 contribution,然后再去做论文分类。
Q:博士期间应该注意数量和质量?
A:数量保证毕业,质量代表实力。
Q:如何找出大牛?
A:把现在领域的顶会论文,近五年的 paper 拿出来,然后做引用排序的 author list。
Q:Related work 可不可以不特别相关?
A:可以拓展,但不是不要故意占用空间。
Q:会议改期刊需要什么注意的?
A:一定要做有意义的增量。
Q:读论文的时候可以从哪些方面去找可以改进的地方?
A:只能多去思考。
Q:论文放在文件夹里有的时候会乱怎么办?
A:记在脑袋里。论文不多的时候,应该清楚地记得每一篇论文讲的什么东西。
Q:怎么增强理论基础?
A:建议先系统看几本书,或者做一些 note。
Q:模型中用的理论都是别人的还用写出来吗?
A:加一些引用。
Q:Sota 论文太多,怎么选 baseline?
A:大概归类,每一类都覆盖一些。
Q:实验效果好,但是没有理论支撑怎么办?
A:一定是没有想清楚整个模型的 contribution 是什么,建议多和交叉领域的同学去做一个结合,或者让老师去帮你想想。
此外 QA 环节中,赵鑫还提到以下几点:
1、建议大家读论文的时候,一定先有一个大概的 topic,把论文量首先积累到 50 篇,然后开始做一个分类的操作,然后做一个重写摘要的操作,这两个事情做完以后,论文基本上确定了。不要硬写论文,一定想清楚自己的 contribution 是不是已经足够了,或者自己是不是已经做好了写论文的准备,做好文献阅读的情况下才可以写论文。
2、论文中相关术语的缩写一定要和原始论文中的一样,比如 BERT 不是 Bert 或者 bert。
3、不要把图画得复杂,把故事说清楚,就是图要画得越简单越好,很多情况下是因为要讲的故事复杂它才复杂,千万不要把模型图画得太复杂。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!