机器之心整理
作者:刘洋
机器之心编辑部
研究生期间,毕业论文的选题最重要。
天气渐暖,很多因疫情未能返校的同学,或许正在家中与论文艰难搏斗,而大学教授们则已推出了不少在线课程。
清华大学计算机科学与技术系长聘教授、人工智能研究所所长刘洋的在线报告《浅谈研究生学位论文选题方法》最近几天成为了朋友圈刷屏的内容。
很多人可能都会看过刘洋老师的论文写作 slides《机器翻译学术论文写作方法和技巧》,它已经成为学术圈内公认的高质量写作指导,甚至成为了很多老师编写指导方法参考的标准。这次他有关论文选题的报告,已被刘知远、马少平等很多学者公认为是「有关这一话题最好的报告」。
刘洋老师的报告是清华大学近期推出的官方在线课程《清华大学云上课堂》的一部分,读者可以搜索该话题获取更多课程内容。
以下是刘洋老师在本次直播中分享的主要内容,机器之心进行了整理:
学位论文顾名思义,是为研究生学位、博士学位而撰写的科学论文。各所大学对于学位论文都有不同的要求,但基本都会要求论文的作者掌握坚实宽广的基础理论和系统深入的专门知识,具有独立从事科学研究工作的能力,在科学或专门技术上做出创造性的成果。
对于硕士学位来说,作者需要掌握坚实的基础理论和系统的专门知识,具有独立从事科学研究工作或独立担负专门技术工作的能力。
例如在清华大学,一般在博士生、硕士生的第二年期间就应该开始学位论文的选题工作。能否毕业的关键在于学位论文的水平,而在学位培养过程中,选题是最关键的环节——这是你未来几年的主要工作,它的影响力甚至还会超越研究生阶段。
想要做到正确的选题,必须要树立正确的「科研三观」。
什么是科研的三观?可以这样理解:
这对于我们的选题和研究产生很大影响。学术界是一个推陈出新的世界,个人的努力对于成功的影响非常重要,你能力的上限基本上等于成功的上限。这意味着你应该积极创新,努力将人类的知识体系向前推进一步。虽然每个人读研、读博的目的不一样,但这一期间也是人最具创新能力的时期,我们应该充分利用好时间,全面锻炼自己的能力。
所有的科学研究都围绕着「提出问题」和「回答问题」而展开。我们应该在读研的过程中保持好奇心,并愿意为之付出努力。在科研过程中,最重要的是不要停止提问。
什么是有价值的研究?
但如何判断我们提出的问题是否具备研究价值呢?这就涉及到「选题的十大标准」。
重要性和创新性
刘洋老师提醒大家,在选题的时候,首先要考虑的是选题的重要性,要评估该问题在学科发展主脉络上的地位;其次是创新性,研究的这个问题应该要能够突破人类知识的边界,创造新的知识。
以人工智能历史上发展的脉络为例,可以看出研究选题必须要遵循重要性的标准,重要问题应该是学科发展过程中在主脉络上的关键问题。重要的方向在于悬而未决的重要挑战,以及制约发展的关键瓶颈。
下图中的外圈代表人类知识的边界,内圈代表个人知识的范围。上到大学之后,我们开始在某个方向上积累知识,研究生阶段的选题也是在这一基础上进一步选择一个方向。
在读研过程中,你会达到人类知识体系边界的某个点,这是通过阅读某个细分领域的大量文献完成的,也是读研第一阶段,即学习知识的阶段。
第二阶段是创造知识,要通过突破边界来实现,产生新的知识。如果你创造的知识非常重要,也就认为你达到了研究生毕业的标准。所以,创新性是在读研阶段非常值得强调的一个要素。
前沿性
第三个要素是「前沿性」。学科发展总在动态变化,如大海中的潮流。在下图中,纵坐标代表关注度,即学术界有多少人在关注这一主题;横坐标代表成熟度,即该主题目前被研究得有多么透彻。
超一流学者往往会研究一些关注度和成熟度都很低,但在 5 到 10 年之后可能会成为主流方法的课题。由于成熟度很低,这类课题往往风险很高,所以不是所有研究者都敢去做,也不是所有人都能意识到其重要性。
一流学者往往会研究一些「已经有人发现可能有用」的主题,他们会在前人的基础上进一步扩展。二流学者会选择当前最热门的一些方向。三流学者则会选择已经处于衰落期、成熟度很高的方向。最后剩下的是不入流的学者,他们往往会选择一些非常过时的主题。
学术大潮浩浩荡荡,如果顺应大潮(图上左半部分),就会事半功倍,你的工作就很容易产生巨大影响力;反之,如果你选择的问题非常陈旧,即使你再拼命、再努力,你做的工作也不可能产生太大的影响。
以人工智能领域为例。20 年前,最热门的研究话题还是最大熵模型等,深度学习则备受冷落。
到了 2010 年,深度学习已经开始受到关注(Hinton 和他的学生在 2006 年发表了利用 RBM 编码的深层神经网络的 Science 论文:《Reducing the Dimensionality of Data with Neural Networks》)此时进入深度学习方向一定能够做出非常一流的工作,因为有大量的空间有待探索。相比较而言,之前一些比较热门的方向已经走向衰落期。
到了 2020 年,深度学习正处于当红阶段,如果此时你还在追逐深度学习方向,可能做出的工作会是二流的。目前或许有一些一流、超一流的工作正在开展,只是我们还无法确定是哪些方向。可能是量子计算,也可能是认知科学或其他交叉学科等。
任何学科都有这样一个大潮。重要的是,你要把当前能够想到的所有方向按照上面的方法进行分类,把它们归到这五个区间内,以此来区分前沿问题和非前沿问题。
在这种选择问题上,「『势』很重要,要顺势而为」。就学术界而言,研究生需要关心的是哪些问题处于「一流」的区域(「超一流」难度太大,研究生三五年解决不了;二流区域创新性较弱)。
探索性
研究问题的「探索性」即目前问题的解决程度和未来可能的创新空间。如果你发现一个问题已经被解决地很好了,即已经跳出了学界的范围,走向了工业界,那么这个问题的探索空间就会小很多。所以,大家一定要保证自己选择的方向有足够的空间施展手脚。
基础性
「基础性」指的是,我们希望自己的选题是这个学科中非常基础的问题,它能对本学科和相关学科产生广泛而深远的影响。以树为喻,我们选择的问题应该尽可能在「根」或主干上,这样一来,后面生出的枝叶、成果都会受到你的影响,直接体现就是你的文章引用量非常高。
以人工智能领域的最优化问题为例。如果你能提出一种非常好的最优化算法,几乎所有人都会引用你的成果,这就是一个非常基础的研究方向,也是刘洋老师鼓励大家选择的方向。
复杂性
「复杂性」是指你选择的问题要有足够的体量和复杂性,能够支撑你做三年、五年的研究。这个问题要能够拆分成几个创新点,即若干个子问题。通常,每个创新点要对应一篇论文,三篇(或两篇)论文对应一篇学位论文。
系统性
前面讲到,你选的问题要能够拆分成若干子问题,但这样还不够,这些子问题之间还应该密切关联、有机衔接、浑然一体。也就是说,你做的问题要有系统性。
此处,刘老师给了一个博士论文的反例:《xx 方向上的若干问题研究》。「若干」表示你研究的几个子问题是割裂、孤立的,写出的学位论文也是非常糟糕的。
所以,你在选题的时候就要做好顶层设计,想好未来几年要做的工作,这些工作要分为几个方面。同时,你还要保证未来三年这几个子问题不过时。
除了学生之外,导师在选题方面也扮演着非常重要的角色。许多 CMU 的导师将帮学生选题视为最重要的职责,这样才不会耽误学生,浪费学生的才华。
可行性
「可行性」是指你选择的问题应该具备在短期内被解决的可能性。
「我们不会做时间旅行(time travel)、teleportation 和反重力的研究,因为它们不是重要的问题,我们想不到该怎么解决。」
一个重要的问题必须是 reasonable 的,是必须有解决方法的。在科研工作中可以雄心勃勃,但是要在起步阶段将其拆解成三年之内可解决的问题。千里之行,始于足下。
承接性
「承接性」是指你所在的课题组有良好的工作积累,能够提供最大的助力。
牛顿说过,我们要「站在巨人的肩膀上」。你可以尽可能地站在课题组的积累之上,也许你的导师、前辈对这个问题很熟悉,同时实验室也有大量的仪器设备,有各种数据,都可以帮助你更顺畅地进行研究,更快地进入角色并且取得成果。
当然,这个东西并不是一个必要的,只要你足够勤奋,一样能够通过自己的努力,在新的方向上做出新的工作。尤其是对于机器学习领域来说,很多数据、研究工作都是开源的,它的承接性并不像其它学科那么强,例如生物学科所需的大型设备。
适合性
最后还要提一下适合性,即自己对该问题感兴趣,能够充分发挥出自己的优势。成功取决于能否将自己的特长发挥到极致,要学会扬长避短。
做科研和打游戏一样,有各种能力上的要求,比如表达能力、逻辑思维、自我管理能力、反思能力等。找到自己的优势所在,才会如鱼得水。
如何进行选题?
讲完了选题标准,接下来要讲的是具体的选题步骤:
毛主席说过:「指挥员的正确部署来源于正确的决心,正确的决心来源于正确的判断,正确的判断来源于周到的和必要的侦察,和对于各种侦察材料的联贯起来的思索。」
这段话来源于《中国革命战争的战略问题》,是毛泽东 1936 年 12 月在延安的中国抗日红军大学的一次演讲。我们完全可以把这个军事理论套用到学术论文选题上,如下图所示:
这个过程里面,有三件事很关键,一是调研,二是思索,三是判断。
但现在有一个问题,我们在调研过程中,是先提问题,然后带着问题读文献;还是先读文献,再思索并提出问题?
刘洋老师说:「这两种方法各有优势,先读文章,然后根据批判性思维提出自己的 Idea,是非常好的一种方法。很多人说,如果你没有 Idea,那么读到 100 篇、300 篇论文时一定会有新思路。而如果先针对问题仔细思考自己的见解,再看他人的研究,就会有非常高的独立性,通过自己 Idea 与文献的碰撞,能有更好的思路。」
所以,这两种选题思路都是可行的,它们各有优劣。
学术第一步:多读文献
勤读文献,及时更新知识结构,站在领域前沿,包括但不限于经典著作、期刊杂志、会议文集、学者主页、社交媒体和预印网站,这些渠道都有各自的特点:
但问题在于:论文这么多,我们怎么读?
论文那么多,刘洋老师表示我们一定要权衡好粗读与精读之间的关系。可能 80% 的论文只要看论文标题就行,只需要有一个印象,回头遇到了某些问题再找出来就行。
因为只需要阅读 20% 的论文,差不多就能获得 80% 所需的信息,所以后面重要的一步就是加深我们对这些知识与研究成果的思考。根据已有的信息,刘洋老师表示我们需要构建自己的知识体系,加深理解程度,并形成个人观点。
想象一下,我们的知识体系就是一个知识图谱,每篇论文是一个节点,不同节点之间可能存在连接,这些连接表示论文之间的联系。可能某些节点的边非常多,这表明由它延伸的研究非常多,它们就是关键论文。
对于如何找到那部分该详读的 1%,我们可以把读论文看作是一个漏斗的形状,我们先看 80% 的论文标题,再看 20% 论文的摘要,这样最后「漏出来」1% 的论文就需要搞懂全部细节了。这是一个自然的筛选过程,而不是直接选定那 1% 的文章。
此外,我们也可以找师长询问某领域的必读论文,并把它们作为入口。一般而言,论文的阅读顺序可以表示为:必读论文、领域先驱发表的论文、前沿论文。
独立与勇气
定选题肯定是需要独立思考的,不能把希望寄托在他人身上。尤其对于国内的很多同学,我们不应该太依赖于导师的建议,还要发挥自己的观点与思路。当然,独立思考并不意味着封闭,听取导师、学长和同学的建议也是非常重要。
国内科研工作者相对而言会比较保守,因为高回报一般意味着高风险,我们不太敢尝试一些全新、有重要价值的探索。因此,在独立思考后,我们还要不畏风险,有勇气去做一些具有挑战性的新研究。这些新研究正因为风险比较高,其门槛也比较高,当然竞争也就会少一些。
有勇气挑战新问题的人是很难得的,他们要面临着各种压力。
最后,确定选题
不论前面是做文献调研还是构建自己的知识体系,最终我们也是需要确定选题的。在找到一些候选研究主题后,我们可以通过简单地打分来理性判断。
如下刘洋老师给出了他个人的权重设定,他认为重要性、创新性和前沿性这三个指标是特别重要的。候选 1 最后的综合得分最高,它代表着创新性与前沿性非常高,但同时风险也比较大;候选 2 与候选 3 表示更为平庸的一类研究主题,但它们非常安全,能保证做出成果。
作为个人建议,刘洋老师还是非常提倡选择创新性高的研究问题,这样才不会浪费年少时光。
学位论文的选题是重大决策,它越早确定越好,同时确定了就不要更换,不然的话研究会更为紧凑且读研花的时间更长。正因为选题的重要性,所以弄懂什么是好的研究主题就显得特别重要,这个标准并不一定取决于上表 10 条量化准则,同时还取决于自己的知识体系与观点等各个方面。
在视频演讲的最后,刘洋老师对同学们的疑问做了在线解答,机器之心也将部分问题与回答加到了文章具体位置。
刘洋老师简介
清华大学计算机科学与技术系长聘教授、人工智能研究所所长,国家杰出青年基金获得者。研究方向是自然语言处理,在自然语言处理和人工智能领域重要国际刊物和国际会议上发表 80 余篇论文,获得 ACL 2017 杰出论文奖和 ACL 2006 优秀亚洲自然语言处理论文奖。获得国家科技进步二等奖、中国电子学会科技进步一等奖、中国中文信息学会钱伟长青年创新一等奖、北京市科学技术奖二等奖等多项科技奖励。担任或曾担任国际计算语言学学会亚太分会执委兼秘书长、Computational Linguistics 编委、ACM TALLIP 副编辑、中国中文信息学会青年工作委员会主任。
推荐阅读:
刘洋:《机器翻译学术论⽂写作⽅法和技巧》
http://nlp.csai.tsinghua.edu.cn/~ly/talks/cwmt14_tut.pdf
本文为机器之心整理,转载请联系本公众号获得授权。