Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >【陆勤阅读】数据科学

【陆勤阅读】数据科学

作者头像
陆勤_数据人网
发布于 2018-02-26 03:02:19
发布于 2018-02-26 03:02:19
7580
举报

“用数据来研究科学,科学的研究数据”

“数据科学将逐渐达到与其他自然科学分庭抗礼的地位”

——作者

数据科学主要包括两个方面:用数据的方法来研究科学和用科学的方法来研究数据。前者包括像生物信息学、天体信息学、数字地球等领域。后者包括统计学、机器学习数据挖掘数据库等领域。这些学科都是数据科学的重要组成部分。但只有把它们有机地放在一起,才能形成整个科学的全貌。

在数据科学领域里工作的人才需要具备两方面的素质:一是概念性的,主要是对模型的理解和运用;二是实践性的,主要是处理实际数据的能力。培养这样的人才,需要数学、统计和计算机科学等学科之间的密切合作,同时也需要和产业界或其他拥有数据的部门之间的合作。目前还没有任何一所高校具有这样的平台。

大数据时代在科学领域里的表现是数据科学的兴起。常常听到有人问:多大才算是“大数据”?“大数据”和“海量数据”有什么区别?其实根本没有必要为“大数据”这个名词的确切含义而纠结。“大数据”是一个热点名词。它代表的是一种潮流、一个时代。它可以有多方面的含义。“海量数据”是一个技术名词。它强调数据量之大。而数据科学则是一个学科、一门新兴的学科。

为什么要强调数据科学?它和已有的信息科学、统计学、机器学习等学科有什么不一样?

数据科学的基本内容

作为一门学科,数据科学所依赖的两个因素是数据的广泛性和多样性,以及数据研究的共性。现代社会的各行各业都充满了数据。而且这些数据也是多种多样,不仅包括传统的结构型数据,也包括象网页、文本、图像、视频、语音等非结构型数据。正如我们后面将要讨论到的,数据分析本质上都是在解反问题,而且是随机模型的反问题。所以对它们的研究有着很多的共性。比方说自然语言处理和生物大分子模型里都用到隐式马氏过程和动态规划方法。其最根本的原因是它们处理的都是一维的随机信号。再如图像处理和统计学习中都用到的正则化方法,也是处理反问题的数学模型中最常用的一种手段。所以用于图像处理的算法和用于压缩感知的算法有着许多共同之处。这在新加坡国立大学沈佐伟教授的工作中就可以很明显地看出来。

除了新兴的学科如计算广告学之外,数据科学主要包括两个方面:用数据的方法来研究科学和用科学的方法来研究数据。前者包括象生物信息学、天体信息学、数字地球等领域。后者包括统计学、机器学习、数据挖掘、数据库等领域。这些学科都是数据科学的重要组成部分。但只有把它们有机地放在一起,才能形成整个数据科学的全貌。

用数据的方法来研究科学,最典型的例子是开普勒关于行星运动的三大定律。

开普勒的三大定律是根据他的前任,一位叫第谷的天文学家留给他的观察数据总结出来的。表9-1是一个典型的例子。这里列出的数据是行星绕太阳一周所需要的时间(以年为单位),和行星离太阳的平均距离(以地球与太阳的平均距离为单位)。从这组数据可以看出,行星绕太阳运行的周期的平方和行星离太阳的平均距离的立方成正比。这就是开普勒的第三定律。

开普勒虽然总结出他的三大定律,但他并不理解其内涵。牛顿则不然。牛顿用他的第二定律和万有引力定律把行星运动归结成一个纯粹的数学问题,即一个常微分方程组。如果忽略行星之间的相互作用,那么这就成了一个两体问题。因此很容易求出这个常微分方程组的解,并由此推出开普勒的三大定律。

牛顿运用的是寻求基本原理的方法,它远比开普勒的方法深刻。牛顿不仅知其然,而且知其所以然。所以牛顿开创的寻求基本原理的方法成了科学研究的首选模式。这种方法在上个世纪初期达到了顶峰:在它的指导下,物理学家们发现了量子力学。原则上来讲,我们日常生活中所碰到的自然现象都可以从量子力学出发得到解决。量子力学提供了研究化学、材料科学、工程科学、生命科学等几乎所有自然和工程学科的基本原理。这应该说是很成功,但事情远非这么简单。正如狄拉克指出的那样,如果以量子力学的基本原理为出发点去解决这些问题,那么其中的数学问题太困难了。所以如果要想有进展,还是必须做妥协,也就是说要对基本原理作近似。

再举另外一个例子,表9-2中形象地描述了一组人类基因组的SNP数据(Single Nucleotide Polymorphism data)。一组研究人员在全世界挑选出1064个志愿者,并把他们的SNP数据数字化,也就是把每个位置上可能出现的10种碱基对用数字来代表,对这组数据作主组分分析,就可以得到图9-1中的结果。其中横轴和纵轴代表的是第一和第二奇异值所对应的特征向量。这些向量一共有1064个分量,对应1064个志愿者。值得注意的是这组点的颜色所代表的意义。可以看出,人类进化的过程可以从这组数据中通过最常见的统计分析的方法,即主组分分析,而展示出来。

主组分分析是一种最简单的数据分析方法。它的做法是对数据的协方差矩阵作对角分解。

注:n=1064,m=644258,0,1,…,9分别代表碱基对是AA,AC,CC,…

对SNP数据作主组分分析的结果告诉我们人类进化的过程。

这样的问题,如果采用从基本原理出发的牛顿模式,则基本上是没法解决的。而基于数据的开普勒模式则是行之有效。尽管牛顿模式很深刻,但对复杂的问题,开普勒模式往往更有效。开普勒模式最成功的例子是生物信息学和人类基因组工程。正是因为它们的成功,材料基因组工程等类似的项目也被提上了议事日程。同样,天体信息学、计算社会学等等也成了热门学科。这些都是用数据的方法来研究科学问题的例子。图像处理是另外一个典型的例子。图像处理是否成功是由人的视觉系统决定的。所以要从根本上解决图像处理的问题,就需要从理解人的视觉系统着手,并了解不同质量的图像,对人的视觉系统产生什么样的影响。这样的理解当然很深刻,而且也许是我们最终所需要的。但从目前来看,它过于困难也过于复杂。解决很多实际问题时,并不需要它。而是一些更为简单的数学模型就足够了。

用数据的方法来研究科学问题,并不意味着就不需要模型。只是模型的出发点不一样,不是从基本原理的角度去找模型。就拿图像处理的例子来说,基于基本原理的模型需要描述人的视觉系统以及它与图像之间的关系。而通常的方法则可以是基于更为简单的数学模型,如函数逼近的模型。

怎样用科学的方法来研究数据?这包括以下几个方面的内容:数据的获取,存储,和数据的分析。下面我们将主要讨论数据的分析。

数据分析的中心问题

比较常见的数据有以下几类:

(1)表格。这是最为经典的数据。

(2)点集(point cloud)。很多数据都可以看成是某种空间的一堆点。

(3)时间序列。文本,通话,DNA序列等都可以看成是时间序列。它们也是一个变量(通常可以看成是时间)的函数。

(4)图像。可以看成是两个变量的函数。

(5)视频。时间和空间坐标的函数。

(6)网页,报纸等。虽然网页或报纸上的每篇文章都可以看成是时间序列,但整个网页或报纸又具有空间结构。

(7)网络数据.

还可以考虑更高层次的数据,如图像集,时间序列集,表格序列等等。

数据分析的基本假设就是观察到的数据都是由背后的一个模型产生的。数据分析的基本问题就是找出这个模型。由于数据采集过程中不可避免地会引入噪声,通常这些模型都是随机模型。

当然,在大部分情况下,我们并不感兴趣整个模型,而只是希望找到模型的一部分内容,如:

(1)相关性。判断两组数据是不是相关的。

(2)排序。比方说对网页作排序。

(3)分类、聚类。把数据分成几类。

很多情况下,我们还需要对随机模型作近似。最常见的是把随机模型近似为确定型模型。所有的回归模型都采用了这样的近似。基于变分原理的图像处理模型也采用了同样的近似。另一类方法是对其分布作近似,例如假设概率密度是正态分布,或假设时间序列是马尔可夫链等等。

分析数据的第一步是赋予数据一定的数学结构。这种结构包括:

度量结构。在数据集上引进度量,也就是距离,使之成为一个度量空间。文本处理中的余弦距离函数就是一个典型的例子。

网络结构。有些数据本身就具有网络结构,如社交网络。有些数据本身没有网络结构,但可以附加上一个网络结构。比方说度量空间的点集,我们可以根据点与点之间的距离来决定是否把两个点连接起来,这样就得到一个网络结构。

代数结构。比方说我们可以把数据看成是向量,或矩阵,或更高阶的张量。有些数据集具有隐含的对称性。这也可以用代数的方法表达出来。

在这基础上,我们可以问更进一步的问题。例如:

(1)拓扑结构。从不同的尺度去看数据集,得到的拓扑结构可能是不一样的。最著名的例子是3×3的自然图像数据集里面隐含着一个2维的克莱因瓶。

(2)函数结构。尤其对点集而言,寻找其中的函数结构是统计学的基本问题。这里的函数结构包括:线性函数,用于线性回归;分片常数,用于聚类或分类;分片多项式,如样条函数;其他函数如小波展开等。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2015-07-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学与人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
数据科学通识第二讲:数据科学
数据科学是一门交叉学科,主要研究如何利用科学的方法、过程、算法或系统,从结构化的或非结构化的数据中提炼知识、洞察规律、获得见解。
数据酷客
2020/04/21
8820
数据科学通识第二讲:数据科学
【数据科学】数据科学的教育体系
在数据科学领域里工作的人才需要具备两方面的素质:一是概念性的,主要是对模型的理解和运用;二是实践性的,主要是处理实际数据的能力。培养这样的人才,需要数学、统计和计算机科学等学科之间的密切合作,同时也需要和产业界或其他拥有数据的部门之间的合作。目前还没有任何一所高校具有这样的平台。 数据科学的教育体系应该包括如下几方面的内容: (1)数学的基础知识。除了微积分、线性代数和概率论这三大基础中的基础以外,还需要随机过程、函数逼近论、图论、拓扑学、几何、变分法、群论等方面的基础知识。目前,可能还不是
陆勤_数据人网
2018/02/27
6540
数据科学的基本内容
什么是数据科学?它和已有的信息科学、统计学、机器学习等学科有什么不同?作为一门新兴的学科,数据科学依赖两个因素: 一是数据的广泛性和多样性; 二是数据研究的共性。 现代社会的各行各业都充满了数据,这些数据的类型多种多样,不仅包括传统的结构化数据,也包括网页、文本、图像、视频、语音等非结构化数据。数据分析本质上都是在解反问题,而且通常是随机模型的反问题,因此对它们的研究有很多共性。例如,自然语言处理和生物大分子模型都用到隐马尔科夫过程和动态规划方法,其最根本的原因是它们处理的都是一维随机信号;再如,图像处
小莹莹
2018/04/24
6050
数据科学的基本内容
北大物理学院欧阳颀院士:成为科学家的五大要素
“科学的道路漫长而艰辛,要能持之以恒的坚持,需要做到兴趣驱动而非职业(收入)驱动,问题驱动而非学科驱动, 科学趣味驱动而非发表论文(SCI)驱动。” 7月23日,北京大学物理学院教授欧阳颀院士在第18期理解未来讲座上,做了以“科学、科学家和科学前沿”为主题的演讲,从“科学是什么”“科学家是做什么的?”“成为科学家的五大要素”三个方面为现场听众带来了一场科学盛宴。 以自身为例,欧阳院士介绍了成为科学家的五大要素:好奇心、献身精神、广泛的兴趣、直觉、社会责任感。 大数据文摘深入现场,带来第一手报道,本周末与您分
大数据文摘
2018/05/22
8470
揭示世界本质的「机器科学家」,比深度神经网络还强?
我们正处于“GoPro 物理学”的风口浪尖。无论摄像机聚焦于什么事件,算法都可以识别其中潜在的物理方程。 作者 | Charlie Wood 编译 |  王玥、刘冰一 编辑 | 陈彩娴 2017 年,西北大学化学与生物工程系的助理教授Roger Guimerà和罗维拉-威尔吉利大学的物理学教授Marta Sales-Pardo发现了细胞分裂的原因。 该研究推动了生物学的进展,但他们并没有从自己的数据中发现关键信息,反而是他们的一个未曾公开的发明——他们称之为“机器科学家”的虚拟助理将这些信息指了出来。 Gu
AI科技评论
2022/05/12
3540
揭示世界本质的「机器科学家」,比深度神经网络还强?
谈论AI之前,你搞懂人类了吗?(颠覆认知)
导读:当前,人工智能应用在中国又一次火爆。无独有偶,美国电视剧《西部世界》第二季的第一集一经播出就引起热议。一时间,人和人工智能这个话题又重新被辩论。
IT阅读排行榜
2019/09/17
5710
谈论AI之前,你搞懂人类了吗?(颠覆认知)
物理学,心理学,神经科学教授跨界对话:脑科学仍处于“前开普勒时代”
大数据文摘作品,未经授权禁止转载,转载具体要求见文末。 导读:人工智能正给经济社会带来巨大变化,而它本身尽管风头正盛,依然存在自身发展的瓶颈:机器学习不灵活,需要较多人工干预或大量标记样本;人工智能的不同模态和认知功能之间交互与协同较少;机器的综合智能水平与人脑相差较大…… 要突破这些瓶颈,不少科学家们把期待投在脑科学研究上,认定智能技术可以从脑科学和神经科学获得启发。那么脑科学到底有多重要?它处在一个什么样的发展阶段?人工智能和脑科学之间又到底有多大的关系? 6月26日,伦敦大学学院计算机神经科学教授、北
大数据文摘
2018/05/22
8350
AI 技术讲座精选:数据科学的缺陷
业内人士都知道,数据科学有很多缺陷。 模型是未知的 建立机器学习模型的目的是为了应用,而不是理解。 能解释清楚的也只有那些最简单的模型。线性模型第一眼看起来的确是最佳方案,但是在重视准确性的实际生产中,往往不选用此类模型。 你怎么解释树状模型或集成模型背后的原理呢?任何能采集特征交互的模型都是无法解释的。神经网路是由数百万的系数定义的,但是这些系数却不能用来描述神经网络。特征工程甚至也能隐藏未知角落。 我们能从黑箱中逃脱吗? 我从不喜欢把任何东西称为黑箱。我感觉逻辑回归是 k-nn 分类器,同时也是黑箱。
AI科技大本营
2018/04/26
5420
牛顿棺材板快盖不住了:用深度神经网络解决三体问题,提速一亿倍
刘慈欣在为自己的科幻小说起名为《三体》时,他早已知道“三体”本身就是一个不可回答的问题。
量子位
2019/10/31
3600
牛顿棺材板快盖不住了:用深度神经网络解决三体问题,提速一亿倍
【数据科学】大数据科学方法变革和哲学思考
随着信息技术和网络技术的快速发展,人类所存储的数据越来越多,数据已经从量变走向了质变,成为了“大数据”(Big Data)。大数据概念首见于1998年《科学》(Science)中的《大数据的管理者》(A Handler for Big Data)一文。 2008年《自然》(Nature)的“大数据”(“Big Data”)专刊之后,大数据便爆发了,成为了学术、产业和政府各界甚至大众的热门概念,美国等发达国家已经制定并实施大数据战略。 刘红、胡新和指出,大数据带来了第二次数据革命,使得万物皆数的理念得以实
陆勤_数据人网
2018/02/26
1.3K0
【数据科学】大数据科学方法变革和哲学思考
从提出到看见黑洞,背后是近十代人的努力
场景描述:面对天文学实验产生的海量数据,机器学习和神经网络等 AI 技术可以大大提高数据处理效率,GAN 可以修复已经损坏或丢失像素的图像,或使模糊的照片变得清晰。此外,AI 还能给科学研究提供一些新的思路。
HyperAI超神经
2019/11/29
5700
从提出到看见黑洞,背后是近十代人的努力
鄂维南院士 | 机器学习:数学理论和科学应用
本文是2019年7月在西班牙瓦伦西亚举办的国际工业与应用数学大会上Peter Henrici奖讲座的报告。本报告将对以下内容做一个广泛的综述:
数据科学人工智能
2022/03/30
1.7K0
给GNN一堆数据,它自己发现了万有引力定律
来源:机器之心本文约2100字,建议阅读5分钟如果牛顿没被苹果砸中,GNN 和符号回归也能发现万有引力定律? 机器学习 (ML) 推动了科学的巨大进步,从粒子物理学到结构生物学再到宇宙学,机器学习能够在大型数据集中学习特征,对不同的对象进行分类,并执行参数推断,以及更具开创性的应用,例如自回归语言模型、预测蛋白质结构,以及蛋白质功能预测。 机器学习强大的学习能力,我们不禁会问,机器学习能否仅仅通过观察我们的太阳系来重新发现万有引力定律? 牛顿的万有引力定律指出,两个质点彼此之间相互吸引的作用力,是与它们的质
数据派THU
2022/03/25
3570
不可不知的数据科学入门数学指南
数学就像一个章鱼:它的「触手」可以触及到几乎所有学科。虽然有些学科只是沾了点数学的边,但有些学科则被数学的「触手」紧紧缠住。数据科学就属于后者。如果你想从事数据科学工作,你就必须解决数学问题。如果你已经获得了数学学位或其它强调数学技能的学位,你可能想知道你学到的这些知识是否都是必要的。而如果你没有相关背景,你可能想知道:从事数据科学工作究竟需要多少数学知识?在本文中,我们将探讨数据科学意味着什么,并讨论我们到底需要多少数学知识。让我们从「数据科学」的实际含义开始讲起。
机器之心
2019/08/20
4820
从开普勒三大定律到大数据分析
开普勒定律是德国天文学家开普勒提出的关于行星运动的三大定律。这三大定律又分别称为椭圆定律、面积定律和调和定律,内容如下:
数据科学人工智能
2022/03/31
1.8K0
从开普勒三大定律到大数据分析
用数学思维,打破数据悖论 | 数据科学50人·吴明辉
吴明辉,明略数据、秒针系统创始人兼董事长,本科毕业于北京大学数学学院,北京大学人工智能实验室硕士。他从事软件工程开发和算法研究近二十年,是国内企业级服务领域里全能型企业家。他所创办的秒针和明略两家大数据公司,都已经成长为中国数据科学领域的独角兽企业。
DT数据侠
2018/09/21
5210
用数学思维,打破数据悖论 | 数据科学50人·吴明辉
人工智能帮助NASA发现新行星
最近,科学家借助人工智能技术发现了环绕开普勒-90星系(一个类太阳系,距离地球2545光年)的第八颗行星,至此,我们的太阳系与围绕单个恒星周围的大多数行星都有联系。这颗行星是在美国国家航空航天局(NASA)开普勒太空望远镜(Kepler Space Telescope)的数据中发现的。 新发现的开普勒-90i是一颗炽热的岩石行星,每14.4天围绕它的恒星公转一次。该发现借助了谷歌(Google)研发的机器学习系统。机器学习的本质在于计算机通过人工智能实现“自我学习”。在这次发现中,计算机通过在开普勒数据实例
人工智能快报
2018/03/07
7840
张平文院士:数据科学融通应用数学
3月7日,由中国工业与应用数学学会主办的“2020年网络科普报告”成功举办。中国工业与应用数学学会理事长、中国科学院院士,北京大学副校长张平文院士作主题报告。以下是我们根据直播视频整理的报告,供大家学习参考。
数据科学人工智能
2022/03/30
4430
张平文院士:数据科学融通应用数学
走近数据科学课程报告(4):由大数据在天文领域的运用所引发的思考
社会的运行,物质的存在时时刻刻都产生着无数的数据,随着信息时代的发展,越来越多的数据信息被人们所获取,数据成为愈发重要的一种资产。如今的大数据已经发展成为一个较为宽泛的概念,是包含对数据进行采集、处理、分析、解释等在内的一系列相关技术、方法、手段的统称。大数据时代已然到来。
数据科学人工智能
2022/04/01
5430
无人驾驶的速度与激情 | 数据科学50人·吴甘沙
如今,我们每个人都在谈论“数据科学”,哈佛商业评论杂志甚至将数据科学家定义为“21世纪最性感的职业”。在这个大数据时代,究竟什么是数据科学?数据科学领域的科学家、从业者们又究竟是怎样的一群人?他们在创造着什么令人着迷的东西?DT君将在2018年走访50位来自各行各业的顶尖数据科学从业者,希望能让你们了解这些神奇的人和他们神秘事儿,为你们一窥数据科学的未来与未知。
DT数据侠
2018/08/08
6940
无人驾驶的速度与激情 | 数据科学50人·吴甘沙
推荐阅读
相关推荐
数据科学通识第二讲:数据科学
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文