【数据科学】数据科学的教育体系

在数据科学领域里工作的人才需要具备两方面的素质:一是概念性的,主要是对模型的理解和运用;二是实践性的,主要是处理实际数据的能力。培养这样的人才,需要数学、统计和计算机科学等学科之间的密切合作,同时也需要和产业界或其他拥有数据的部门之间的合作。目前还没有任何一所高校具有这样的平台。

数据科学的教育体系应该包括如下几方面的内容:

(1)数学的基础知识。除了微积分、线性代数和概率论这三大基础中的基础以外,还需要随机过程、函数逼近论、图论、拓扑学、几何、变分法、群论等方面的基础知识。目前,可能还不是所有人都能看到这些内容跟数据的直接关系。但随着数据科学的不断深入发展,他们的作用会越来越明显。这些内容也不需要一门一门地教。数学系应该开出一些新的“高等数学”课程来覆盖这些方面的内容。

(2)计算机科学的基本知识,如计算机语言、数据库、数据结构、可视化技术等。

(3)算法方面的基本知识,包括数值代数、函数逼近、优化、蒙特卡洛方法、网络算法、计算几何等等。

(4)数据的模型,如回归、分类、聚类、参数估计等。

(5)专业课程,如图像处理、时间序列分析、视频处理、自然语言处理、文本处理、语言识别、图像识别、推荐系统等等。

(6)其它专业课如生物信息学、天体信息学、金融数据分析等等。

这里(1)-(4)属于基础课,(5)-(6)属于专业课。专业课的设置还可以跟企业界合作,以满足不断变化着的实际需求。与企业界的合作也更有利于向企业界输送合适的人才。

结语

大数据给科学和教育事业的发展提供了前所未有的机会,同时也提出了前所未有的挑战。它将对现有的科研和教学体制带来大幅度的变革,对科学与产业之间的关系、科学与社会之间的关系带来大幅度的变革。总结一下,大数据的影响将主要来自以下几个方面。

首先是数据科学将成为科研体系中的重要部分,并逐渐达到与包括物理、化学、生命科学等学科在内的自然科学分庭抗礼的地位。未来的科研和教育体制应该由两条主线组成:一条是以基本原理为主线。现在的物理学、化学、机械工程等学科,以及生命科学、材料科学、天体物理、地球科学等学科的大部分都是沿着这样一条主线展开的。另一条是以数据为主线。它包括统计学、数据挖掘和机器学习、生物信息学、天体信息学、以及许多社会科学的学科。它还包括一些新兴的学科,如计算广告学。数据科学的兴起,将极大地推动许多社会科学学科朝着量化的方向发展,使他们逐步由经验性的模式转变成科学性的模式。

其次是科学研究和市场、和产业的联系将变得更加密切,从发现基本原理到产业化的周期将会被大大地缩短。这可以从谷歌的例子看出来。谷歌的发展,从搜索引擎的一个概念和算法上的突破到进入市场、变成产业,只经过了短短几年的时间。这样的例子在数据科学和信息产业并不陌生。但在传统的自然科学领域,从基本原理的突破,到技术、到产业,往往要经过一个漫长的过程。

再次,数据的主要来源之一是社会,如互联网、社交网络、公共交通、智慧城市等等。所以数据科学的研究与我们的日常生活、与社会有着密切的联系。比方说,谷歌和百度的网络搜索算法就对我们的日常生活产生了很大的影响。所以人们日常生活中的需要以及社会的需要将成为数据科学的主要问题来源之一。

科学研究最重要的一环是提出前瞻性的问题。提不出问题,就只能跟在别人后面,走一条从文献到文献的路子。对我国的科技界来讲,在很多学科,由于来自实际应用领域的限制,提出前瞻性问题的确是件很困难的事情。但数据科学则不然。由于我国人口众多这一特殊情况,和我们特殊的文化、文字、历史背景和社会发展的需要,我们在数据科学领域的很多问题自然就是前瞻性的。关键是我们能否用前瞻性的方法去面对这些问题。如果做好了这一点,我们在数据科学领域就自然而然地走到了世界的前沿。

来源:大数据栋察

原文发布于微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文发表时间:2015-12-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

【案例】预测,大数据核心价值之所在

? 世界杯期间各家科技巨头利用大数据预测比赛结果,再现“章鱼保罗”雄风。世界杯结束了但大数据预测还会继续。从夜观天象到气象预报,从童话里的水晶...

2614
来自专栏企鹅号快讯

十大科学突破预示科学发展三大趋势

新华社华盛顿12月21日电(记者林小春)每到年底,国际科学界公认的权威刊物美国《科学》杂志都会评选十大科学突破,这不仅是对年度科技大事的年终盘点,从中更能看出近...

1869
来自专栏DT数据侠

“机械战警”牵起他与数据科学的缘分 | 数据科学50人·邬学宁

邬学宁,SAP硅谷创新中心首席数据科学家,长期致力于机器学习与人工智能算法研究与应用。“数据科学核心算法的基础是简洁优美的数学,这是我愿意用一辈子,去追寻的事情...

1090
来自专栏镁客网

十亿像素开启千亿级市场,阵列计算相机商业化浪潮正扑面而来

4080
来自专栏AI科技评论

从机器翻译来看中国最酷AI挑战赛:赛手体验放第一位

李飞飞在整个学术界和工业界的重心都放在如何做出更好的算法时,她不顾一切质疑和阻挠创建了ImageNet数据集,至此世人再难复制ImageNet创立过的辉煌。同样...

2375
来自专栏罗超频道

旧文重读:大数据预测四个条件,十大行业

世界杯期间各家科技巨头利用大数据预测比赛结果,再现“章鱼保罗”雄风。世界杯结束了但大数据预测还会继续。从夜观天象到气象预报,从童话里的水晶球到今日的科技预言家...

3735
来自专栏量子位

大咖来信 | 张亚勤@2018:终日“闭关”读论文,思考终极算法

962
来自专栏人工智能头条

MSRA周明:计算机能“理解”多少我们的语言了?

1736
来自专栏钱塘大数据

为什么要学数学?因为这是一场战略性的投资

? 本文是李大潜院士在复旦大学数学科学学院新生迎新大会上的讲话,随后演讲稿在朋友圈爆红。没错,一篇关于数学的演讲稿竟然就这么火了,你或许会一脸懵B。那么就看看...

3233
来自专栏华章科技

为什么要学数学?因为这是一场战略性的投资

导读:本文是李大潜院士在复旦大学数学科学学院新生迎新大会上的讲话,随后演讲稿在朋友圈爆红。没错,一篇关于数学的演讲稿竟然就这么火了,你或许会一脸懵B。那么就看看...

861

扫码关注云+社区

领取腾讯云代金券