美国大学数据科学(Data Science)教育实践

本文是作者在2018年5月8日众智汇微信群分享的记录。由@kellie 记录整理。

本文作者:李琦,现任北肯塔基大学(North Kentucky University)计算机系(Computer Science)数据科学(Data Science)专业助理教授(Assistant Professor)

数据科学与Hadoop的崛起

新生的数据科学

数据科学(Data Science)作为一个学科是从大概二十年前发展起来的,现在仍然在持续发展当中。因此目前阶段不太可能给它一个非常完整的定义。

不过“数据科学”这个词,在大概2002年的时候就正式出现了,当时有一个Data Science Journal。

Hadoop成为数据科学兴起的契机

到了2006年,Hadoop 开始大行其道。湾区(美国加州旧金山附近,著名的硅谷所在地,聚集了一大批顶尖IT公司)的各大公司里,都有人讨论Hadoop。2007-2008年我正好在湾区实习,听闻大家都在提及Hadoop这个词,当然配合的还有NoSQL等等。

为什么说Hadoop的兴起是一个契机呢?

大家可以想象一下2000年的Google或者是百度——大家开始做search engine(搜索引擎)。搜索引擎需要很多数据,首先爬取 web page(网页)存储下来,然后进行某种index,使得用户用一个检索词检索,可以在非常短的时间内(毫秒级别)返回结果。

这是怎么做到的呢?大家可以想像一个巨大的数据库(比如说Oracle Database),所有的词全部都存在里面,然后供用户检索。这样的话,系统设计可以很简单,装个系统,再把数据加进去就行了。但是实际却不可能。

因为Oracle DB不可能做到这么大,否则对于硬件的要求会非常高,比如说要有非常大的内存,要有非常强的CPU,这样会造成系统极其高昂,在成本上不可行。

在这种情况下,各个公司都在研究自己的分布式并行计算机系统,把大任务切分变成小的子任务,进行并行处理,使它能够在很短的时间内完成。

Google肯定是最先开始做这个的,虽然Google没有把它的技术实现公开,但给出了三篇非常重要的文章。这三篇非常的重要的文章,奠定了Hadoop基础。后来雅虎的人,开始做Hadoop系统。

为什么Hadoop能够大热?

其一,它是免费的,各个公司都可以随便用。

其二,虽然Hadoop系统也可以作为商用cluster,但它不需要专门定制的或者高配置的硬件,只用不同工作站甚至台式服务器就能搭一个分布式系统。

于是用户就可以从很简单的应用开始,逐步构建各种复杂的系统。后来,每个公司都用Hadoop了。

你可以想象Facebook用Hadoop存储用户数据信息,这样就可以进行各种不同时间的post(帖子)协同处理,还可以进行推荐。你还可以想象很多其他拥有大量数据的大公司,有海量数据处理需求的时候,就会选择Hadoop。

Hadoop出现之后,尤其08年之后Data Science,Data Scientist 这些开始频繁出现。也开始有一些研讨会讨论Data Science是什么?哪些概念应该属于Data Science?哪些人属于Data Scientist?是高科技互联网公司的,还是做生物的,做地理信息系统的,做文本分析的,做数据库的或者做统计?

可以说,Hadoop催生了Data Science学科!

Data Science专业的课程设置

美国的大学分类

美国大学大致分四类:

  • 研究类型的Research School。必须要有PHD(博士学位)。
  • 综合性的Teaching School。它不一定有PHD,基本上以教学为主,目的是培养学生尽快地去工作。但也会有带有研究性质的Master(硕士学位)。
  • 四年制大学Liberal Arts College。它比综合性大学还要再差一点,完全没有research,基本上只有本科教育。
  • 两年制的Community college,它只是高中的延伸。

北肯塔基大学的数据科学专业课程设置

我所在的学校(Northern Kentucky University,北肯塔基大学)从2013年就设置了Data Science专业,应该是是美国全境内最早的一批有Data Science专业的学校。

我所在的学校并不能算是Research School,而是Teaching School。它的目标,是培养学生适应实际工作的能力,完全是工作指向的。

融合多学科内容的交叉学科

当我们学校设立这个学科的时候,就把它定位成了一个交叉性学科。老师里面有学计算机的,有学统计学的,还有学Business Informatics(商业信息学)的。从这一点也可以看出Data Science融合了多个学科的知识。

非常好理解为什么会有统计学的内容:统计学就是对各种各样的数值型的数据进行distribution,mean,maximum,minimum等等的分析。统计学还可以对问题进行hypothesis(假设),然后用各种理论来推导这些hypothesis,是要accept还是reject。

但是,仅有统计学是不够的。因为我们还有许多numerical data(数值型数据)之外的数据——文本,视频,音频,图片等等。比如,Google做Search Engine,Facebook要分析人们的post,Twitter的发布内容等等都是自然语言。

所以就要引入计算机科学的内容,因为计算机能够灵活有效地处理各种各样的数据,可以产生更多的产品。

Business Informatics原本设立在商学院下面,它更多的是企业数据的应用分析,从这个角度来看,它更像是挂靠在数据库下。

因为商学院的人有很多商业上的数据,但往往没有很强的技术背景,所以就目前来看他们用的最多的是Excel或database的各种sql语句。

Data Science 专业课

我们学校Data Science这个专业,从这三个不同的学科,各选出一些跟Data Science相关的内容作为主干课。

除此之外还有几门以Data Science开头的课程,例如:

  • Introduction to Data Science——讲授Data Science是什么,能干什么
  • Data Analysis
  • Data Mining
  • Big Data ——讲解怎么利用Hadoop,Spark等免费分布式系统并行处理大量的数据
  • Capstone——毕业实习或毕业程序设计

Data Analytics vs Data Mining

我本人在很长的一段时间内,对Data Science领域内的一些概念很困惑。比如什么叫Data Analytics (Data Analysis)?和Data Mining有什么区别?

如果看书的话,会发现关于它们的技术基本类似。我在Capstone指导学生做毕业设计的时候也觉得奇怪,这两个东西到底为什么要区分开?

现在我可以聊聊我在看了很多例子之后的理解: Data Analysis跟Data Mining可以分成两个方向:

  • 给你数据,允许你进行广泛的分析和探索,去发现可能的结果、结论,这是Data Analysis。
  • Data Mining会有非常明确的目标。你需要针对目标建立模型,根据历史数据进行建模,然后要给出模型的好坏。

这里面有很多交叉的概念,比如说Machine Learning就和Data Mining是非常相像的东西,我把它们基本归为一类。

不过可能有些方法只在Data Mining里面提,而不在Machine Learning里面提,但是大致的方法(例如分类法)这种大的方向是一样的。

说得详细一点:

机器学习的分类,都有golden label,比如email spamming,哪一部分是special e-mail,哪一部分是正常的e-mail,你是有一个标准的。

类似的,Data Mining会有一个特别明确的目标

比如预测下一年股票是涨还是跌?会涨多少?预测某人下一年的收入是涨还是跌?预测某公司的产品销量会涨还是跌怎么样?

有了明确的目标之后,再根据历史数据进行分析的,这种就是我认为的Data Mining。

Data Analysis就比较宽泛,并没有明确的目标

比如做一个问卷调查,你收集了一些用户信息。分析了这些信息后,一般只会有一个大概的想法,比如:要把用户进行一个分类,希望分成两三类,这样这两三类的用户可以进行不同的销售的推荐。

这是一个开放式的问题,并没有一个标准规定某个用户一定会分成什么类。

这就是Data Analysis跟Data Mining一个大的区别。我认为在Data Science中,这是两个大的方向的问题或任务。

Data Visualization

Data Science还有一个非常大的问题:如何把数据分析、数据挖掘的结果产品化。

你有一大堆统计数据,如果直接生成一个报表给用户看的话,用户肯定不愿意。因为太乱了,也读不出所以然来。

但是如果你把它做成一个美观的界面,用户选择不同条件,系统给出相应的结果或者趋势显示的话,大家就很喜欢用,这就是一个产品。

举一个比较简单的例子:股票有很多数据。但是要每次给用户显示整张表吗?肯定不是。

一般都只显示这个时刻某个股票多少钱,或者是某个股票近一年来的分布图,上下浮动的趋势,这就是一个产品。

因此Data Visualization(数据可视化)也是Data Science学科一个非常重要的方面。

虽然Data Visualization 在其他很多的学科也出现,但它对Data Science特别重要。可视化的目标是:

  1. 支持Data Analysis——在分析数据的时候,可能要先看一下数据的分布,然后才能进行分析。
  2. 在数据分析结束后,把结果展示给用户。

因此,我们学科开设了Data Visualization课程。

Data Wrangling

Data Wrangling对于本科教育是也非常有意义的课程。

什么是Data Wrangling

Data Wrangling这个词是美国人叫出来的,大概的意思是当你在处理数据的时候你要进行前期的处理。前期处理包括多种方法。

举个例子:你们公司有一个非常复杂的数据库系统(比如医疗信息系统),这个数据库系统分布在几千个表里面,非常复杂。现在需要查找某个时刻某个病人的用药情况,应该怎么抽取相关信息呢?

这就要从几千个表里面找到相关的几个表,再把这些表连(join)起来,根据时间、病人ID等column抽出准确的信息。

但如果要抽出病人医嘱信息呢?要注意医嘱的存储可能设计得很复杂,每次医生的医嘱是不断地增加上去的。可能在界面上只看到一个文本,但是实际背后数据库里有不同的版本。

在这种情况下,要先研究如何从医学文本中正确地抽出医嘱部分。这个就是Preprocess(预处理)的其中一部分。

再举个例子: Facebook用户一天24小时不间断地贴大量的post。除了new entry,还会转发给别人或者再分享,其他人表示喜欢或者不喜欢或者有其他不同的评论。

怎样才能抽取今天某个用户发的所有的帖子? 这也是一个困难的问题,因为它背后可能对应数据库中的几千张表。

换个角度,即使给你一个非常简单的表,存了用户的时间,地点,人物事件,再加了一小段描述这个人在干什么。当你要进一步进行分析的时候,需求方要求只要用户的地点,然后要把地点匹配到zip code(邮政编码)。

这时候,你可能就要进行数据转换,把地理信息转化成地图上的某个点,然后再匹配相应的zipcode。数据转换的步骤,就属于预处理部分。

还有不同的情况,比如说你真的是从用户里面收集到的信息,你会有很多的missing data(遗失数据),或者是复杂的,用户胡乱写的一些数据,要怎么保证就说哪些数据是可以用的,哪些数据是要扔掉的,哪些数据虽然没有了,但是你可以把它补回来的,这些都是preprocess的部分。

这些preprocess都可以算作Data Wrangling的一部分。

Python的优势

在此我想强调Python是非常好的语言。在我们学校没有开设Data Wrangling之前,学生学的是Java。Java是一种 object-oriented语言,处理简单的文本的、数字都需要写很多的code。其实这些问题的处理并不需要object-oriented概念。

Python在数据、文本处理上大大简化了数据分析。所以我们开始强调要求Python编程。

在此可以再对照一下R,R主要功能是计算numerical data,并不善于处理文本等非数值数据。

我们学校明年推出的Data Wrangling 课程,将会采用Python。

Data Wrangling并不只是Data Preprocess,而是包含了Data Preprocessing、Data Cleaning、Data Wrangling等几大概念,指数据在进行分析、挖掘或建模之前所有的步骤。

企业对于Data Science的需求

为什么要强调Data Wrangling呢?我们结合企业对Data Science人才的需求来看一下。

如果一个人有PHD头衔,是 Machine Learning专家,那么TA在公司里一般专门做Machine Learning算法,每天考虑各种参数、模型之类的事情。

然而真正做过相关的人会告诉你,这些Machine Learning的工作,80%的时间花费在Data Wrangling上。

所以现在很多公司喜欢招一些人专门完成这方面的数据预处理——对数据进行抽取,从复杂的数据里头抽取出所需部分来维护,然后把数据转换成进行Data Modeling能够用的数据。这部分工作非常有用的。

公司里不会雇一个本科生来做Machine Learning的。但用博士做Data Wrangling又太贵了。

本科毕业的话,可以完全可以胜Data Cleaning,Data Processing,以及一些简单的Data Analysis的工作。对于本科毕业就想开始做Data Science的人,Data Wrangling, Data Analysis是非常合适的一个方向。

学习资源

大家可能会关心哪些资料有助于我们的学习。

【1】免费数据集

首先推荐Kaggle,它是目前最大的数据科学家交流平台,现在属于google。

Kaggle提供了三个东西:

  1. 数据。大家在上面分享free,open,public的数据。
  2. 竞赛。很多公司会设立各种competition(竞赛):设置一个目标,大家进行比赛,看谁的结果更好。
  3. 解决方案。很多人完成了数据分析,会愿意分享他们的解决方案,这部分叫做kernels。

我认为Data Science,Machine Learning或者NLP能够蓬勃发展,都得益于计算机领域有一个非常好的习惯:Competition(竞赛)

有人提供一个标准数据集;大家在上面尝试各种各样的方法;然来比较一下结果,看看谁的效果更好,谁的还可以改进。

再之后会有一些conference,大家聚在一起聊这些东西。这一系列活动对学科的发展有很大的促进。

Kaggle是这种传统,是一个专门针对Data Scientist,以促进Data Science发展为目标的平台。

第二个推荐KDD-CUP:Knowledge Discovery and Data Mining。

这个平台历史要更久一些,最早的一批用户是做数据库的。上面也会有一些有用的资源,包括数据,竞赛,工具介绍,方法分享等等,但整体比较偏数据库。

第三个推荐Kdnuggets

这个网站偏重于Business Analytics,Big Data,Data Mining,Data Science 和Machine Learning。

Amazon的AWS也有免费公开的数据集,但是这些数据集一般都是大数据集了。

【2】在线教育资源

如果大家对网络课程有兴趣的话,我推荐Coursera。上面有UIUC,UMichigan,John Hopkins University等大学的系列的课程。

UCSD有一个Big Data系列,个人非常推荐。UIUC有一个老师叫翟成祥,讲Data Science方面的课程,也推荐。

类似的课程平台还有Udemy。跟Coursera差不多,但是以单门课为主。不像Coursera常提供系列课程,让用户可以系统地上完四五门课,从而学习到一套比较完整的知识。Udemy需要自己再去找相关的课程来看。

还有一个平台是Datacamp专门提供Data Science课程。有视频,有hands-on编程,还有R,Python和 Statistics。

本科学历的同学,需要专门训练编程语言,要有一个非常拿手的tool,拿在手上干什么事儿都能磨刀霍霍的那种。

这种情况跟着Datacamp来做就非常好。上面课程的形式通常是讲解一段,再给出些实例,直接跟着照葫芦画瓢就能做。再深入一步的话,Datacamp要差一点了。

人工智能与数据科学

人工智能(Artificial Intelligence)在最近两三年,尤其是在基于Deep Learning的AlphaGo打败人之后,变得非常非常热门。

我认为Artificial Intelligence应该属于Data Science的一部分。

人工智能本身已经有非常非常悠久的历史了,绝对要比Data Science这个概念要悠久得多。很早之前,在做Machine Learning的时候大家就有AI的概念。

人工智能我本人没有进行很深入的研究,但是就我了解,它大概是neural network(神经网络)的一个引申。各种先进的方法、复杂的模型,都建立在神经网络上面。

现在对于神经网络的研究已经有非常长足的发展和非常好的理论体系,而且有非常好的软件能让大家来非常容易地使用这个东西。最有名的就是Tensorflow(当然还有其他的软件)。

大家也开始开发各种各样基于Tensorflow的应用软件。例如:名词识别、图片分析之类的功能,就已经有做到非常简单的支持包。调用这些包,直接可以出非常好的结果。

这就是一个标志:这个领域开始走向成熟了。我觉得硕士程度的人可以尝试做这类的应用。你不需要有很深的research背景,只需要灵活地针对实际问题应用这些支持包。

我推荐Andrew Ng的人工智能课程。他在写书,也录了很多视频。他写的东西浅显易懂,有Machine Learning和 Deep Learning相关的内容。国内网站(网易云课堂)免费,大家可以看一下。

Q1:能不能对比一下美国跟中国大学教育的不同?

A1:实际上我很想说,美中教育其实是非常的相似。为什么呢?

比如说,中国的学位是学士、硕士、博士,然后还会有个博士后。美国也是学士、硕士、博士、博士后。

老师的编制现在国内跟着美国学,有终身制。你先干五六年,如果不行就走人。如果能力强,就能拿到tenure,也就成了终身教授,大学就不太容易赶你走了。

美国的大学一般是本科四年,硕士两年,博士五到六年。这个跟国内也差不多。但跟欧洲是有非常大的区别。各位如果去英国读书的话,读完大学四年,再读三年博士就毕业了。在欧洲做完博士后,美国博士才毕业。

美国的大学,会接受一种叫AP的形式:学生在高中的时候就可以开始上一些大学的课程,如果通过了考试,就能拿到学分,这些学分直接可以带到大学去。所以有一些小孩子在高中的时候已经修了很多大学的先修课程,大学三年就可以毕业了。这一点在国内是没有的。

还有一点,我觉得美国大学学科划分比较灵活。比如,Data Science不一定是在某个系下面。就当前全美大学来说,Data Science有一些学校是在统计下系面,有一些是在商学院下面,我们学校在Computer Science下面。

我更同意它在Computer Science下面,如果有人是统计学或者是商学院的,可能和我有不同意见。

美国大学下面会有不同的school或者college。 school或者college下会有不同的department。国内好像也是这样的。但是不太一样的是,国内数理化能占半边天,美国则不是这样(美国有一个词叫STEM,对应我们国内的数理化概念)。

比如说,美国商学院是一个大school,读商学院的人很多;念医学院也是一大堆人,包括护士,复健等等;还有法学院。这样学物理、化学、生物的就少多了。不像国内一大堆人做生物化学什么的。

还有一点可能大家都知道:美国医学院给的学位一定是master以上的。医学院毕业就有一个本科学位是不可能的。国内的话肯定是本科就可以拿到医学院的学位了。在美国,有那种MD Phd。这样的人非常非常牛的。

在美国,对Computer Science的毕业生,大多数情况下,毕业于二流学校三流学校一流学校没有太大区别,但是有一些时候,学校关系也很大。

比如湾区的那些大公司他们招人,就会看重四大学校的学生——MIT,Stanford,Berkeley,CMU——只要这四个学校。这几所学校毕业的,不管你是不是读Computer Science,都会招。比如一个MIT物理的PHD,湾区的那些大公司也愿意招。

有一个很大的不同:美国教育是市场化的。即使这个学校是公立的经费是从州政府出的,也会考虑市场。一旦经费不足,就要考虑学生有没有就业市场。

不太像国内,有这个专业就会一直开下去,即使没人念或者学生毕业找不到工作也会一直开下去。美国不太会出现这种情况,如果没人念,这个专业就萎缩了。如果学生对课程评价不好,老师们会很紧张。

所以美国的教育会用各种各样的方法让课程简单易学。在计算机方面最明显的就是hands-on——老师会给你演示怎么做这个东西。

比如要装一个系统,老师会给学生装一遍,把过程写得很清楚。比如要写一段Java code,老师会从头告诉学生用哪个系统,怎么进去,怎么安装,非常完整地讲解从头到尾怎么写。

国内的话,我不知道现在的本科教育是什么样的。但是我二十年前上大学的时候,即使是在北大,这点也做得非常差。老师就找一本书,从头到尾念一遍,我都快听睡了,完全不知道他在干什么。

至少对于Computer Science而言,很多东西简单地演示一遍,学生很快就明白了。用嘴讲可能三年也讲不清楚。

还有一点,虽然我在美国的中部农村的一个teaching school,学生会旷课,上课也不积极讨论,但是他们考试一定不会偷看抄袭,作弊的都是外国学生。

Q2:身边有在校的小伙伴,会抱怨经费有限,比不过公司有财力,没有设备跑数据等等。您能不能给一些这方面的建议?

A2: 没有设备没有经费跑数据,我觉得很正常,不可避免。

我做PHD的时候,老板也没有给我提供足够的设备跑数据。所以只能自己想办法,我当时自己掏了些钱来做。

我现在一个teaching school任教,也没有完善的设备跑我想跑的东西,只能停止 research。没有办法,这是各种势力平衡的结果。

你可以慢慢申请自己的经费,做小老板,这也是国内外不一样的。如果你厉害的话,你可以申请到不同的资源,设自己的实验室来做实验。

现在有一个好东西:云计算。可以花很少的钱在Amazon租一些设备,来跑实验。我也计划租一些机器来跑Big Data,Hadoop或者Spark。这样只需要做软件部分,不用从硬件层去搭server了,节约了很多精力。

Q3:对本科生学习Data Science有什么建议?

A3: 首先,要看你自己的兴趣爱好,不要人云亦云。

比如大家都说Computer Science赚钱。你要先看一看是不是真的喜欢。如果完全不喜欢编程的话,再考虑其他方面。

如果你不喜欢编程,但还喜欢数据的话,我建议你可以看看能不能做统计类的纯numerical data分析,了解各种模型就可以做。

或者是你喜欢做Business Analytics,商业上的数据分析,别人把数据整理好,你用一些方法,各种角度来分析这些数据。

如果你喜欢coding或者modeling,市场会更广。其实Hadoop和Spark非常简单,大家可以去培训一下Hadoop和Spark。如果你会做一些简单的数据分析,在那Hadoop或者Spark上面你就不是分析几百M,几个G,你可以分析在几十几百G的数据,应用前景非常广。

对在校的大学生,我可以试压赌注:Python应该是未来Data Science主要的工具。如果用过Kaggle,就会看到Kaggle上的solution大部分都是Python的,有一部分是R的(偏于数值分析那部分)。但是绝对没有用Java来写Data Science的code。

Q4:想咨询下数据科学中 EDA 数据探索的方法或心得。

A4:EDA是做business方面的,或者说数据库的人讨论的比较多。并不是我的研究兴趣。我觉得EDA应该是发展比较成熟了,所以没有太多可探讨的吧。

Q5:李老师您好,请问在中国如何学习数据科学,或者有什么可靠的学习路径?你们后期会有培训之类的吗?

A5:我觉得国内现在有很多资源可以用,但是好像没有什么人系统地把这些东西归纳总结,现在需要有人用一种比较简单易懂的方式让大家来了解。

刚才我介绍了一些非常好的资源,当然基本都是美国的资源,因为我不是太了解国内的东西。

我总结一下:

  1. 学会Python,包括Python的各种packages。如果你用的很溜的话,你的本科部分学习就结束了。
  2. 学习Big Data,差不多就是Master水平了。
  3. 至于PHD,好的方向应该是Deep Learning,Big Data之类的。

Q6: 请问李老师作为国家的栋梁之材,去了米国生活,最大的感触是什么?

A6: 这位同学,谢谢你说我是国家栋梁,可是我觉得我正在给北大拖后腿。

美国的生活给我最大的感触就是:很多东西都是在美国学的。我觉得国内的教育在某些方面非常虚浮。不知道现在是不是还这样,但是在我当年是这样。我的编程就是在美国学的,我觉得国内什么都没有教到,当然那个是很久以前了,现在应该非常不一样,因为资源多了,老师应该也更新换代很多了。

很多搞理工科的人,读写 code,要比写文字看文本容易得多。所以我一直不喜欢那种一整节课跟我讲理论,我听不懂。所以给例子,给代码,上课实践是非常重要的一种方式。找一些地方实习、实践是非常重要的。

Q7: 我目前正在做Machine Learning,想请教一下国外对于医学与数据之间的研究有哪些进展呢?

A7: Machine Learning数据+医学是非常非常多人在做的方向,很受追捧。在美国有一大帮中国的学者、教授,在做这方面的研究。

很有名的有https://sbmi.uth.edu/,这个学院的院长应该是一个中国人,叫zhang jia jie,他估计是这个领域做到最高位置的中国人了。

如果是留学的话,计算机专业,我强烈建议CMU计算机系,真的是很厉害。

说到应用方向,我觉得Machine Learning或者 Data Analysis可以用在各行各业。

Q8:请问李老师美国大学的数据科学在线学位中国人去读的话有价值吗?比如Coursera 的数据科学硕士。

A8:我觉得Coursera还不错。Coursera的质量可以保证。你找那些有名的大学的课程。

Andrew Ng课程也是免费的,如果完全上下来,然后拿到它的degree的话,你可以找Andrew Ng申请职位。当然Andrew Ng有一些要求会比较高,申请者必须有良好的数学背景,和很强的编程技巧,主要看你个人程度。

Coursera上面的课程,如果最后不拿证书的话,都可以免费旁听。这个就看你个人的需要了。

我觉得如果和国内的公司说,我上过这些课,因为不想交钱,没有拿到证书;而面试的时候又表现出你真的学过这些课的话,公司也不太在乎有没有证书吧。

还有就是,知识技能不一定都是上课学的,实践非常重要。所以我建议大家有机会一定要去实践。

美国这边的小孩儿,大一大二上完课,大二的夏天就已经开始去公司做实习了。大三的那个夏天也可以做实习。这样,到了大四一定能找到工作。

Q9:请问老师,您对无人驾驶、自然语言处理(NLP)、计算机视觉(CV)等方向,哪个比较看好?

A9:无人驾驶这个东西,现在很多公司在做。我本身并没有很深的研究,感觉就目前出来的资料或者可用的东西,远没有NLP多。自动驾驶中的navigation,还本属于地理信息的研究范畴,这方面倒是有很多积累。NLP已经发展了几十年,你有一大堆资料可以用可以看。视觉应该也是非常有用的,也是有非常长的历史了,我估计也是几十年了。

有时候需要触类旁通,同样的方法,可能会用在视觉上,也可能用在NLP或者navigation上。它们背后的model可能是一个。反过来,同一个问题也可能会用到不同的方法来解决。这就是有意思的地方。

原文发布于微信公众号 - 悦思悦读(yuesiyuedu)

原文发表时间:2018-05-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

Facebook和Google们现在努力的AI方向,会不会错了?

深度学习的坎坷之路 2012年11月23日,应该是一个让时任谷歌人工智能实验室专家的Geoff Hinton倍感欣慰的日子,在这一天,纽约时报发布了名为《Sci...

3626
来自专栏新智元

【大咖来了】有道周枫:苹果Core ML对移动端深度学习的意义

【新智元导读】在WWDC2017(全球开发者大会)上,苹果发布了支持移动端深度学习的 CoreML 框架。网易有道 CEO 周枫指出,这个新框架能够解决以往云端...

4169
来自专栏大数据文摘

TED演讲 | 数据滥用时代,3招教你辨别身边不靠谱数据

2204
来自专栏吉浦迅科技

NVIDIA推出人工智能引擎DRIVE PX 2 抢攻自动汽车市场

NVIDIA 于绘图卡市场称皇称霸,市场巩固,近年积极向多元化发展,除了早前涉足 VR 市场, 5 日宣布推出全球车载」 ,加速自动车驾驶进展,其采用 NVID...

3385
来自专栏大数据文摘

如何用数学知识提升情商?数学学霸们的6大思维习惯

1645
来自专栏大数据文摘

学界 | 离开实验室的材料科学:AI正将新材料的发现过程提速200倍

1724
来自专栏大数据文摘

[译]数据会骗人?帮你能看懂图表的误导!

1343
来自专栏玉树芝兰

巧用MOOC组合掌握机器学习

咱们不提CES 2017上激动人心的自动驾驶产品(估计七八年之后你的驾驶证就可以扔掉了),也不细讲《最强大脑》节目里人类精英在图像识别环节被碾压(这曾经是人类可...

842
来自专栏人工智能快报

美国中情局人工智能系统可预测社会骚乱事件

美国科技新闻网站https://slashdot.org发表文章称,美国中情局(CIA)的人工智能系统可以预测社会骚乱事件。 美国中央情报局声称,借助于被虚拟现...

3766
来自专栏腾讯社交用户体验设计

QQ默认表情优化背后的故事 - 腾讯ISUX

1845

扫码关注云+社区