【陆勤阅读】数据科学

陆勤_数据人网

发布于 2018-02-26 11:02:19

9580

“用数据来研究科学，科学的研究数据”

“数据科学将逐渐达到与其他自然科学分庭抗礼的地位”

——作者

数据科学主要包括两个方面：用数据的方法来研究科学和用科学的方法来研究数据。前者包括像生物信息学、天体信息学、数字地球等领域。后者包括统计学、机器学习、数据挖掘、数据库等领域。这些学科都是数据科学的重要组成部分。但只有把它们有机地放在一起，才能形成整个科学的全貌。

在数据科学领域里工作的人才需要具备两方面的素质：一是概念性的，主要是对模型的理解和运用；二是实践性的，主要是处理实际数据的能力。培养这样的人才，需要数学、统计和计算机科学等学科之间的密切合作，同时也需要和产业界或其他拥有数据的部门之间的合作。目前还没有任何一所高校具有这样的平台。

大数据时代在科学领域里的表现是数据科学的兴起。常常听到有人问：多大才算是“大数据”？“大数据”和“海量数据”有什么区别？其实根本没有必要为“大数据”这个名词的确切含义而纠结。“大数据”是一个热点名词。它代表的是一种潮流、一个时代。它可以有多方面的含义。“海量数据”是一个技术名词。它强调数据量之大。而数据科学则是一个学科、一门新兴的学科。

为什么要强调数据科学？它和已有的信息科学、统计学、机器学习等学科有什么不一样？

数据科学的基本内容

作为一门学科，数据科学所依赖的两个因素是数据的广泛性和多样性，以及数据研究的共性。现代社会的各行各业都充满了数据。而且这些数据也是多种多样，不仅包括传统的结构型数据，也包括象网页、文本、图像、视频、语音等非结构型数据。正如我们后面将要讨论到的，数据分析本质上都是在解反问题，而且是随机模型的反问题。所以对它们的研究有着很多的共性。比方说自然语言处理和生物大分子模型里都用到隐式马氏过程和动态规划方法。其最根本的原因是它们处理的都是一维的随机信号。再如图像处理和统计学习中都用到的正则化方法，也是处理反问题的数学模型中最常用的一种手段。所以用于图像处理的算法和用于压缩感知的算法有着许多共同之处。这在新加坡国立大学沈佐伟教授的工作中就可以很明显地看出来。

除了新兴的学科如计算广告学之外，数据科学主要包括两个方面：用数据的方法来研究科学和用科学的方法来研究数据。前者包括象生物信息学、天体信息学、数字地球等领域。后者包括统计学、机器学习、数据挖掘、数据库等领域。这些学科都是数据科学的重要组成部分。但只有把它们有机地放在一起，才能形成整个数据科学的全貌。

用数据的方法来研究科学，最典型的例子是开普勒关于行星运动的三大定律。

开普勒的三大定律是根据他的前任，一位叫第谷的天文学家留给他的观察数据总结出来的。表9-1是一个典型的例子。这里列出的数据是行星绕太阳一周所需要的时间（以年为单位），和行星离太阳的平均距离（以地球与太阳的平均距离为单位）。从这组数据可以看出，行星绕太阳运行的周期的平方和行星离太阳的平均距离的立方成正比。这就是开普勒的第三定律。

开普勒虽然总结出他的三大定律，但他并不理解其内涵。牛顿则不然。牛顿用他的第二定律和万有引力定律把行星运动归结成一个纯粹的数学问题，即一个常微分方程组。如果忽略行星之间的相互作用，那么这就成了一个两体问题。因此很容易求出这个常微分方程组的解，并由此推出开普勒的三大定律。

牛顿运用的是寻求基本原理的方法，它远比开普勒的方法深刻。牛顿不仅知其然，而且知其所以然。所以牛顿开创的寻求基本原理的方法成了科学研究的首选模式。这种方法在上个世纪初期达到了顶峰：在它的指导下，物理学家们发现了量子力学。原则上来讲，我们日常生活中所碰到的自然现象都可以从量子力学出发得到解决。量子力学提供了研究化学、材料科学、工程科学、生命科学等几乎所有自然和工程学科的基本原理。这应该说是很成功，但事情远非这么简单。正如狄拉克指出的那样，如果以量子力学的基本原理为出发点去解决这些问题，那么其中的数学问题太困难了。所以如果要想有进展，还是必须做妥协，也就是说要对基本原理作近似。

再举另外一个例子，表9-2中形象地描述了一组人类基因组的SNP数据（Single Nucleotide Polymorphism data）。一组研究人员在全世界挑选出1064个志愿者，并把他们的SNP数据数字化，也就是把每个位置上可能出现的10种碱基对用数字来代表，对这组数据作主组分分析，就可以得到图9-1中的结果。其中横轴和纵轴代表的是第一和第二奇异值所对应的特征向量。这些向量一共有1064个分量，对应1064个志愿者。值得注意的是这组点的颜色所代表的意义。可以看出，人类进化的过程可以从这组数据中通过最常见的统计分析的方法，即主组分分析，而展示出来。

主组分分析是一种最简单的数据分析方法。它的做法是对数据的协方差矩阵作对角分解。

注：n=1064，m=644258，0，1，…，9分别代表碱基对是AA，AC，CC，…

对SNP数据作主组分分析的结果告诉我们人类进化的过程。

这样的问题，如果采用从基本原理出发的牛顿模式，则基本上是没法解决的。而基于数据的开普勒模式则是行之有效。尽管牛顿模式很深刻，但对复杂的问题，开普勒模式往往更有效。开普勒模式最成功的例子是生物信息学和人类基因组工程。正是因为它们的成功，材料基因组工程等类似的项目也被提上了议事日程。同样，天体信息学、计算社会学等等也成了热门学科。这些都是用数据的方法来研究科学问题的例子。图像处理是另外一个典型的例子。图像处理是否成功是由人的视觉系统决定的。所以要从根本上解决图像处理的问题，就需要从理解人的视觉系统着手，并了解不同质量的图像，对人的视觉系统产生什么样的影响。这样的理解当然很深刻，而且也许是我们最终所需要的。但从目前来看，它过于困难也过于复杂。解决很多实际问题时，并不需要它。而是一些更为简单的数学模型就足够了。

用数据的方法来研究科学问题，并不意味着就不需要模型。只是模型的出发点不一样，不是从基本原理的角度去找模型。就拿图像处理的例子来说，基于基本原理的模型需要描述人的视觉系统以及它与图像之间的关系。而通常的方法则可以是基于更为简单的数学模型，如函数逼近的模型。

怎样用科学的方法来研究数据？这包括以下几个方面的内容：数据的获取，存储，和数据的分析。下面我们将主要讨论数据的分析。

数据分析的中心问题

比较常见的数据有以下几类：

（1）表格。这是最为经典的数据。

（2）点集（point cloud）。很多数据都可以看成是某种空间的一堆点。

（3）时间序列。文本，通话，DNA序列等都可以看成是时间序列。它们也是一个变量（通常可以看成是时间）的函数。

（4）图像。可以看成是两个变量的函数。

（5）视频。时间和空间坐标的函数。

（6）网页，报纸等。虽然网页或报纸上的每篇文章都可以看成是时间序列，但整个网页或报纸又具有空间结构。

（7）网络数据.

还可以考虑更高层次的数据，如图像集，时间序列集，表格序列等等。

数据分析的基本假设就是观察到的数据都是由背后的一个模型产生的。数据分析的基本问题就是找出这个模型。由于数据采集过程中不可避免地会引入噪声，通常这些模型都是随机模型。

当然，在大部分情况下，我们并不感兴趣整个模型，而只是希望找到模型的一部分内容，如：

（1）相关性。判断两组数据是不是相关的。

（2）排序。比方说对网页作排序。

（3）分类、聚类。把数据分成几类。

很多情况下，我们还需要对随机模型作近似。最常见的是把随机模型近似为确定型模型。所有的回归模型都采用了这样的近似。基于变分原理的图像处理模型也采用了同样的近似。另一类方法是对其分布作近似，例如假设概率密度是正态分布，或假设时间序列是马尔可夫链等等。

分析数据的第一步是赋予数据一定的数学结构。这种结构包括：

度量结构。在数据集上引进度量，也就是距离，使之成为一个度量空间。文本处理中的余弦距离函数就是一个典型的例子。

网络结构。有些数据本身就具有网络结构，如社交网络。有些数据本身没有网络结构，但可以附加上一个网络结构。比方说度量空间的点集，我们可以根据点与点之间的距离来决定是否把两个点连接起来，这样就得到一个网络结构。

代数结构。比方说我们可以把数据看成是向量，或矩阵，或更高阶的张量。有些数据集具有隐含的对称性。这也可以用代数的方法表达出来。

在这基础上，我们可以问更进一步的问题。例如：

（1）拓扑结构。从不同的尺度去看数据集，得到的拓扑结构可能是不一样的。最著名的例子是3×3的自然图像数据集里面隐含着一个2维的克莱因瓶。

（2）函数结构。尤其对点集而言，寻找其中的函数结构是统计学的基本问题。这里的函数结构包括：线性函数，用于线性回归；分片常数，用于聚类或分类；分片多项式，如样条函数；其他函数如小波展开等。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2015-07-16，如有侵权请联系 cloudcommunity@tencent.com 删除

数据挖掘

本文分享自数据科学与人工智能微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

数据挖掘

登录后参与评论

0 条评论

热度

【陆勤阅读】数据科学

【陆勤阅读】数据科学

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐