如何写出一本中文经典CS教科书


新智元专栏 作者:邓侃 编辑:三石

【新智元导读】若是一本书能够成为某个领域的经典教科书,并且被广泛接受,那么被书中重点介绍的内容,便成为事实上的业界标准。如果中国学者能写一本人工智能或计算机的教科书,被全球引为经典,将会极大地促进中国,引领全球人工智能的发展。复星集团首席人工智能科学家邓侃博士力荐计算机书籍《SPEECH and LANGUAGE PROCESSING》,并由此展开,随笔谈了谈教科书是如何炼成的,他认为现今的教科书应当是以“众包”的形式展开,每个人既是作者又是读者。

[1]

如果说计算机的理论基础,归功于图灵,计算机的工程实现,归功于冯诺依曼设计的计算机体系。那么商用计算机的研制,尤其是硬件,头号功臣应该是 IBM,软件的头号功臣,应该是 Bell Labs,因为 Bell Labs 发明了 Unix 操作系统和 C 语言。

IBM TJ Watson Research Center 在纽约北边,Bell Labs 在纽约西南,两地相距 1 个多小时车程。这两个研究中心有很多相似之处,譬如走进正门,醒目位置都是历史陈列室,里面都陈列着各自的大神及其成就。

走进 Bell Labs 历史陈列室,自然要去拜拜 Ken Thompson 和 Dennis Ritchie 两位大神,Unix 操作系统的第一版,主要由 Ken Thompson 研发,而 C 语言,基本是 Dennis Ritchie 的作品。

说到操作系统,不能不提另一位大神,Abraham (Avi) Silberschatz。他执笔写的《Operating System Concepts》一书,深入浅出,要言不烦,是操作系统的经典教科书。不仅如此,他还写了 PPT,方便教学,非常贴心。这本教科书,一版再版,至今已经第十版了 [1]。

除了《Operating System Concepts》,Avi Silberschatz 还写了另一本经典教科书《Database System Concepts》。这本书也保持了他的一贯风格,深入浅出,要言不烦,还附带 PPT。这本书也一版再版,至今已经第五版了 [2]。

如果一本书成为某个领域的经典教科书,被广泛接受,那么被书中重点介绍的内容,便成为事实上的业界标准。如果中国学者能写一本人工智能的教科书,被全球引为经典,将会极大地促进中国,引领全球人工智能的发展。

Figure 1. 《Operating System Concepts》各个历史版本的封面。

http://codex.cs.yale.edu/avi/os-book/OS10/covers-dir/index.html

Figure 2. 《Database System Concepts》各个历史版本的封面。

http://db-book.com/

[2]

之所以一版再版,是因为相关技术更新很快,不仅需要添加新内容,而且先前的技术,有些已经被淘汰,需要删减。

早年的计算机使用磁带作为存储介质,后来被淘汰了,于是相关的串行存储内容,需要删减。随着云计算兴起,虚拟机渐热,这部分内容需要添加。另外,移动互联网使得安卓手机操作系统变成热门,安卓的内容也得添上。

以特斯拉为标杆的智能汽车,以大疆为标杆的无人飞机,以波士顿动力为标杆的机器人,涉及的硬件不同,需要解决的任务也不同,它们对操作系统提出了新需求。

不仅操作系统的教科书,要与时俱进,其它方向的教科书,也需要跟得上技术发展的节奏。

《Artificial Intelligence: A Modern Approach》初版于 1995,当时被学界誉为人工智能经典教科书。2003 再版,2009 年出第三版。从 2009年到现在,快 10 年了,没有再版。从 1995年到现在,人工智能技术取得了巨大的进步,尤其是深度学习的进展日新月异。现在深度学习几乎成了人工智能的同义词。如果要出版《Artificial Intelligence: AModern Approach》第四版的话,估计 2/3 的内容要重写。

如何才能快速地撰写并更新教科书呢?

Figure 3. 《Artificial Intelligence: A Modern Approach》第三版封面。

http://aima.cs.berkeley.edu/cover.html

[3]

自然语言处理(Natural Language Processing, NLP)是人工智能的一个分支。这个领域的经典教科书是《Speech and LanguageProcessing》。这本书的第一版,于 2000 年前后出版。其实这本书的草稿,在 1997 年前后,就已经在学界流传,并广受赞誉了。

Figure 4. 《SPEECH and LANGUAGE PROCESSING》第一版封面。

这本书最初是一本论文汇总,选择了若干优秀论文,根据不同主题,编排成若干章节。当时这本论文汇总的内容,偏重于 Speech Recognition,NLP 的内容不太丰富,而且几乎没有深度学习的内容。

Figure 5. 《SPEECH and LANGUAGE PROCESSING》第一作者Daniel Jurafsky。

本书的主要作者,是 Daniel Jurafsky。Dan 说,这本书最初只是一个论文精选目录,目的是让同学们快速了解该领域的研究前沿。后来同学们觉得一篇一篇下载论文原文 PDFs,太麻烦。于是,Dan 把这些精选论文汇总成册,为懒人们提供方便。

后来懒人们又建议,读论文全文,太费事。要是能对每篇论文,做个简单介绍,深入浅出,要言不烦,那就更方便了。于是 Dan 又继续做好人,写论文介绍,逐渐形成这本书的第一版。

现在这本书的内容,已经完全变样了。Speech Recognition 的内容,被大大缩编,而且被放进正文后的附录中去了。传统的 NLP 方法,舍卒保车,主流的传统方法被保留了一些,支流几乎消失殆尽。同时,大大强化了深度学习的最新成果的介绍。

Figure 6. 《SPEECH and LANGUAGE PROCESSING》第三版目录。

Daniel Jurafsky 本科博士受教于加州大学伯克利分校,毕业后去 University of Colorado Boulder 任教。在这期间,他不仅做出了很多亮丽的研究成果,而且持续更新《Speech and LanguageProcessing》的内容,逐渐成为 NLP 领域大师。随后,Dan 转校到斯坦福大学任教。

Dan 的成功经验,有三点值得重视,1. 广读论文,并且写读后感,2. 把众多读后感,分门别类编辑成书,3. 持续更新书的内容。

[4]

单枪匹马地更新教科书,工作负担太重。

2018年9月9日到14日,DeepMind 主办 Deep Learning Indaba 2018 学术会议,会上有专家梳理了 NLP 前沿进展,并发表演讲 [4]。该演讲广受业界好评。

如果比较一下近年来 NLP 的前沿进展,与《Speech and Language Processing》的内容,会发现刚刚出版的经典教科书,又需要更新了。一本书从写作到印刷出版,至少要一年。而最近深度学习的进展实在太快,一年前的话题,已经略显老旧。

一个可能可行的办法,是发动学者们共同协作,既是读者,也是作者。

1. 先在 GitHub 上罗列一个精选论文清单,类似于这样 [5]。值得特别点赞的是,这个论文清单,是中国学者罗列的。

2. 发动相关学者,给每一篇论文写介绍,深入浅出,要言不烦。

3. 把众多论文的介绍,根据不同主题,串连成章节,形成教科书。

4. 定期出版教科书的最新版本,并持续更新论文清单和论文介绍。

Figure 7. A review of the recent history of NLP

https://www.kamperh.com/slides/ruder+kamper_indaba2018_talk.pdf

Figure 8. 生物医学领域的机器学习应用的论文清单

https://github.com/xuhanvsxuhan/An-Incomplete-ML-Paper-Collection-for-BioMedical-Applications

参考文献:

1. Operating System Concepts

http://os-book.com/

2. Database System Concepts

http://db-book.com/

3. Speech and Language Processing

https://web.stanford.edu/~jurafsky/slp3/

4. Frontiers of Natural Language Processing

https://www.kamperh.com/slides/ruder+kamper_indaba2018_talk.pdf

5. An Incomplete ML Paper Collection for BioMedicalApplications

https://github.com/xuhanvsxuhan/An-Incomplete-ML-Paper-Collection-for-BioMedical-Applications

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2018-10-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

【课程】斯坦福大学NLP大牛Dan和Chirs《自然语言处理》课件(附下载)

【导读】斯坦福大学《自然语言处理》经典课程,于2012年3月在Coursera启动了在线自然语言处理课程,由NLP领域大牛Dan Jurafsky 和 Chir...

42660
来自专栏Vamei实验室

趣味GPS

简介 GPS的全称是全球定位系统(the Global Positioning System)。它属于美国政府,并由洛杉矶的联合项目办公室(JPO, Joint...

23860
来自专栏PPV课数据科学社区

波斯公主选驸马: 关于算法和重大决策

大学时的一道数学题 我大学的专业是数学。有一次,教授给出了《波斯公主选驸马》题「1」,如下: 波斯公主到了适婚年龄,要选驸马。候选男子100名,都是公主没有见过...

37340
来自专栏华章科技

谷歌背后的数学原理

在如今这个互联网时代, 有一家公司家喻户晓——它自 1998 年问世以来, 在极短的时间内就声誉鹊起, 不仅超越了所有竞争对手, 而且彻底改观了整个互联网的生态...

10030
来自专栏AI科技大本营的专栏

胜过iPhone XS?Google Pixel的“夜视功能”是怎样炼成的

【导读】随着智能手机的不断发展成熟,为了寻找差异化的厂商不断增加摄像头的数量。然而,摄像头的数量越多,就代表拍照的质量越好吗?

10320
来自专栏WOLFRAM

用 Wolfram 语言发掘数学殿堂中的瑰宝

19470
来自专栏Data Analysis & Viz

2017,那些出现在日记中的人:简单的文本挖掘

终于做出这张图时,我突然有点感慨,这就是2017年我的日记中提到过或记录过的一个个人名,当然为避免引起不必要的麻烦,隐去了许多亲人朋友的名字。想到一辈子说长也长...

12020
来自专栏大数据文摘

波斯公主选驸马: 关于算法和重大决策

23270
来自专栏玉树芝兰

你的英语为啥学不好?跟机器翻译比比看

从小学开始,一直学到大学四六级,参加英语考试可谓身经百战。即便不算课外补习,学时也很可观。可是大学毕业后,听说读写4门功课落下来了什么?

10020
来自专栏机器之心

NIPS 官方公告「更名」结果......

NIPS 可以说是今年 AI 领域话题最多的学术会议了,无论是备受争议的同行评审、门票 11 分钟售罄,还是从年初到年底的更名风波。特别是为了更名,NIPS 官...

9420

扫码关注云+社区

领取腾讯云代金券