专栏首页深度学习自然语言处理刘知远:NLP研究入门之道(三)如何通过文献掌握学术动态

刘知远:NLP研究入门之道(三)如何通过文献掌握学术动态

阅读大概需要9分钟

跟随小博主,每天进步一丢丢

作者 刘知远

编辑 zenRRan

地址 https://github.com/zibuyu/research_tao

要成为自然语言处理某个领域合格研究者的基本要求就是,掌握坚实的基础知识和了解全面的学术动态基础知识,如高等数学、概率论、人工智能、机器学习、语言学等,这一般是在大学本科或研究生期间通过选修相关课程和教材自学来完成;现在大规模在线教育(MOOC)风靡全球,国内外著名高校的课程资料在线唾手可得,是自学成才的重要资源,然而从统计来看,能够坚持完成在线课程的同学比例并不高,可见学习氛围也是很重要的成才因素。这里,主要面向在校学生(包括本科生或研究生),介绍如何阅读学术文献、了解学术动态,努力站到巨人的肩膀上,为创新研究做好准备。

阅读学术文献是掌握学术动态的主要方式。计算机技术日新月异,科技文献也汗牛充栋,如何查阅和选择领域重要文献,是需要在实践中不断磨练的技巧;即使精心选择,NLP每个课题也都至少有几十篇论文需要读,实际没有必要平均用力,可以泛读和精读相结合,快速掌握课题的学术脉络。接下来,分别介绍在这些方面的一些建议。

如何选择文献

研究者应该具备"T"型知识体系,一方面要有对NLP和机器学习学术动态有全面及时的了解,主要是保持知识更新,为创新思想做好知识储备;另一方面要对从事的研究课题已有代表工作有地毯式的掌握。面向这两种不同的目标,有不同的选择文献的技巧。

面向特定主题的文献选择

有时候,导师突然找到你,说xx课题很有前景,让你调研一下看有没有研究的价值;有时候,你参加学术会议或听学术报告,突然听到xx课题,觉得很有意思;或者某门课程或某项实习工作给你安排了一个课题,需要你尽快调研相关工作,了解来龙去脉。这时候你会发现,搜索引擎是面向特定主题查阅文献的重要工具,尤其是谷歌提供的Google Scholar,由于其庞大的索引量,是我们披荆斩棘的利器。Google Scholar不仅可以查阅学者学术信息、被引用情况,还提供引用格式文件。

Google Scholar还提供高级检索功能,我比较常见的功能包括:

  • 按作者搜索:author:"DM Blei",可以搜索指定作者的相关论文;
  • 按发表期刊/会议搜索:source:"Nature",可以搜索发表在指定期刊/会议的相关论文;
  • 按标题出现关键词搜索:allintitle:"latent dirichlet allocation",可以搜索在标题出现某些关键词的论文;
  • 搜索引擎常用的and、or和""均支持,其中""表示按引号中的字符串完整搜索。

特别是按标题出现关键词的搜索功能,对于确定某个研究思想是否已经有发表工作,非常有效。例如,假设你在从事自动问答课题研究,某天想到是否可以将Transformer技术用于该任务,那你最好先用Google Scholar搜一下 allintitle:"question answering" and "transformer" 来确认是否已经有其他研究者发表了类似想法的成果。千万不要等到做完实验开始写论文了,才想起做这个确认工作,会非常被动。

为了了解某个课题,如果能找到一篇该领域的最新研究综述,就省劲多了。最方便的方法,是首先在维基百科等权威在线百科全书中查询该主题的科普综述介绍。在此基础上,可以在中文知网(CNKI)中搜索"课题名称+综述"或在Google Scholar中搜索“课题名称 + survey / review / tutorial / 综述”来查找。也有一些出版社专门出版各领域的综述文章,例如NOW Publisher出版的Foundations and Trends系列,Morgan & Claypool Publisher出版的Synthesis Lectures on Human Language Technologies系列等。它们发表了很多热门方向的综述,如文档摘要、情感分析和意见挖掘、学习排序、语言模型等。

一般而言,热门的研究方向总会有比较及时的综述论文。如果方向太新,还没有相关综述,一般还可以查找该方向发表的最新论文,阅读它们的“相关工作”章节,顺着列出的参考文献,就基本能够了解相关研究脉络了。当然,还有很多其他办法,例如去各大学术会议或暑期学校上找Tutorial报告,或者直接咨询该领域的研究者,都是比较有效的办法。

面向知识更新的文献选择

在除了面向特定主题的文献查阅外,研究生(特别是博士生)需要锻炼的重要能力,就是常年坚持对最新学术动态及时全面的了解。为了实现这一点,需要同学建立全面且及时更新的信息源,我理解一般有以下几个方面:

  • arXiv.org 上定期发布的论文;
  • 相关国际顶级会议每年发表的论文集;
  • 相关国际顶级期刊定期发表的论文;
  • 国际顶尖高校研究组或企业研究机构发布的新闻或学术报告;
  • 科技媒体和社交媒体集中报道或讨论的学术成果;等等

一般而言,研究生可以通过订阅相关RSS Feed或者邮件列表来保持更新。另外值得一提的信息来源是,Google Scholar支持学者建立个人学术主页,不仅可以查阅最新的发表论文列表,还有最全的引用计数。而在访问著名学者的Google Scholar学术主页时,同学可以通过右上角的Following来关注该学者的最新发表论文情况。例如,下面就是著名学者Geoffrey Hinton的学术主页:https://scholar.google.com/citations?user=JicYPdAAAAAJ

一般,为了建立对NLP全面的了解,我们监测的信息来源提供的论文每年以数千计。近年来由于深度学习技术火爆异常,arXiv.org几个频道下每隔几天就有几十篇论文发布。面对如此众多的论文,很难通读,如果学会遴选论文和快速泛读,找出最值得关注的重要论文,是提高效率的重要手段。一般可由以下几个信号大致判断一篇工作是否值得关注:

  • 论文的作者是否为该领域的著名学者,研究机构是否来自业内顶尖。
  • 论文是否发表在顶级期刊/会议上。
  • 论文社会关注度如何,是否获得最佳论文,引用情况如何。

当然,以上也都只是模糊信号,并不能一概而论,论文好坏还要由成果自己来判定。只是说,以上这些信号可以帮助同学加快筛选和判断。此外,论文题目等方面也会提供丰富的判定信号。例如我的经验之一是,论文题目越短其创新价值更高的概率会更大,越值得关注,等等,不一而足,还需要同学在实践中不断总结和精进。

如何阅读文献

阅读论文也不必需要每篇都从头到尾看完。一篇学术论文通常包括以下结构,我们用序号来标记建议的阅读顺序:

  • 题目(1)
  • 摘要(2)
  • 正文:导论(3)、相关工作(6)、本文工作(5)、实验结果(4)、结论(7)
  • 参考文献(6)
  • 附录

按照这个顺序,基本在读完题目和摘要后,大致可以判断这篇论文与自己研究课题的相关性,然后就可以决定是否要精读导论和实验结果判断学术价值,是否阅读本文工作了解方法细节。此外,如果希望了解相关工作和未来工作,则可以有针对性地阅读“相关工作”和“结论”等部分。

善用社交媒体和科技媒体

这几年社会媒体的发展,越来越多学者转战微博和知乎,有浓厚的交流氛围。如何找到这些学者呢?一个简单的方法就是在微博或知乎中的用户搜索中检索“自然语言处理”、“计算语言学”、“信息检索”、“机器学习”等字样,马上就能跟过去只在论文中看到名字的老师同学们近距离交流了。值得一提的是,很多在国外任教的老师和求学的同学也活跃在微博和知乎上,经常发布重要的业内新闻,值得关注。学术研究既需要苦练内功,也需要与人交流。所谓言者无意、听者有心,也许其他人的一句话就能点醒你苦思良久的问题。毫无疑问,微博和知乎等社交媒体提供了很好的交流平台,但也要注意不宜沉迷

由于AI火爆异常,国内也兴起了以机器之心、雷锋网/AI科技评论、PaperWeekly、DeepTech、新智元为代表的技术媒体。这些媒体非常关注英文世界的最新技术动态,经常能够几乎同步发布相关中文新闻,值得关注。当然,求快就难免经常出现翻译错误,而且为了吸引阅读也会经常使用“重磅”等吸睛的字眼,不过从积极意义来看,与2010年前中英文世界相对隔离的状况相比,这些媒体的出现和兴起无疑有着非常积极的意义。总体来看,这些科技媒体是很好的把握和了解科技动态的入口,但到底媒体介绍的这些技术突破是否货真价实,还需要更深入地阅读相关文献和实验验证才能确认。

本文分享自微信公众号 - 深度学习自然语言处理(zenRRan)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-04-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 漫威之父斯坦•李辞世,AI超级英雄为他送行

    当地时间12日,美国传奇漫画家斯坦·李(Stan Lee)在好莱坞一家医疗中心去世,享年95岁。

    加米谷大数据
  • 斯坦福2019年深度学习NLP课程完结,视频(有字幕)已放出 | 附PPT、参考资料、优秀项目

    大部分课程视频(有字幕)已经上线,所有的课程PPT都已经放出,课程中的优秀项目也已经公开。

    量子位
  • 名校CS硕士申机器学习PhD三波“全拒得”,这么多人和他同病相怜?

    昨天,网友ubiquitous7733在Reddit论坛吐槽,自己想申请NLP和机器系学习方向的博士生,尝试过纽约大学、哥伦比亚大学, 斯坦福、MIT, CMU...

    量子位
  • IBM的AI医疗走进死胡同:想用NLP解决医学问题,连Bengio也不看好

    从2011年开始,蓝色巨人IBM在AI医疗上押上了重注,甚至为其AI部门建立了一个华丽的总部。这一切都是为了在AI浪潮中保持自己的领先定位。

    量子位
  • HanLP vs LTP 分词功能测试

    文章摘自github,本次测试选用 HanLP 1.6.0 , LTP 3.4.0

    IT小白龙
  • 微信AI拿下NLP竞赛全球冠军,“二孩”智言团队的实习生立功了

    近日,在第七届对话系统技术挑战赛(DSTC7)上,首次亮相的微信智言团队一路过关斩将,最终拿下冠军。

    量子位
  • 让聊天机器人完美回复 | 基于PaddlePaddle的语义匹配模型DAM

    语义匹配是NLP的一项重要应用。无论是问答系统、对话系统还是智能客服,都可以认为是问题和回复之间的语义匹配问题。这些NLP的应用,通常以聊天机器人的形式呈现在人...

    量子位
  • 中国军团称霸阅读理解竞赛RACE:微信AI称王,高中生单枪匹马力压腾讯康奈尔联队

    此次比赛所用数据集RACE,全称:Large-scale ReAding Comprehension Dataset From Examination,是一个从...

    量子位
  • 干货 | 知识图谱在旅游领域有哪些应用?携程度假团队这样回答

    鞠建勋,携程度假AI研发团队资深算法工程师,主要负责携程度假自然语言处理相关的AI项目。硕士毕业于南京大学,有五年的自然语言处理经验,专注于自然语言处理和知识图...

    用户1292807
  • AI招聘公司Moka再融1.8亿,90后学霸创始团队靠变革HR年入3000万

    比如,对于人类最基础的企业行为——招聘,AI也被创业公司Moka结合具体场景落地。

    量子位

扫码关注云+社区

领取腾讯云代金券