如何比较数据科学、大数据和统计?

首先来说说数据科学吧,作为一门学科,数据科学所依赖的两个因素是数据的广泛性和多样性,而广泛性和多样性之间又有共性。

数据科学主要包括两个方面:用数据的方法来研究科学和用科学的方法来研究数据。

前者的包含面很广,囊括了生物信息学,天体信息学等领域。而后者包括统计学、CS、数据挖掘、数据库等领域。所以,要直白的说的话,就是数据科学包括了统计学,数据挖掘。而数据挖掘既相对独立,也可以作为一个统计学发展的小方向(与CS有关)而不是分支。而大数据则是个专有名词,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。

两者的比较如果再从就业上讲,统计无疑是一个比较热门的专业,之中好多方向都比较好就业,每个方向都有其对应的工作,比如事业单位和经济、管理部门从事统计调查、统计信息管理、数量分析等开发、应用和管理工作,或在科研、教育部门从事研究和教学工作。而数据科学作为拥有完整知识体系的新兴的学科,其就业前景无疑也是可观的。

——圆圆

个人认为这三者既存在着密切的联系,也不完全相同。用数学的话来说,就是三者之间相互存在着交集,但也并不是完全包含。

其中涉及的最广泛的应该就是数据科学了。研究大数据的方法可以称作数据科学、而统计的研究方法就更可以算作是数据科学了。本身,数据科学就是在大数据的背景下提出的。它不仅包括大数据的研究方法和研究背景,更包括对于数据软件的使用、对于数据库的理解、甚至包括对于算法的理解等等。

大数据,是在近几年才刚刚提出并迅速走红的概念。它是未来数据分析和存储的新趋势。面对这个信息爆炸的时代,数据的高数量、高维度、高更新速度以及背后的高商业价值都对于传统的硬件存储、数据库管理和统计分析方法提出了更高的要求。原先的统计大多都是适用于小样本的情况,而面对这样的大数据往往显得无能为力。因此,相比较与其他的两个概念来看,它既是数据科学的基础,也是建立在统计基础上的一个科学。

最后,三者最共同的地方应该就是统计了,无论是数据科学应用在各个实际领域、还是大数据的各种突破过去经典数据规模的领域,它们的核心思想或者说最先处理的基础都是统计。如果任何数据都可以使用经典的统计方法去解决的话,不会再采用其他的模糊近似的方法进行操作。

综上,数据科学包含的内容更加全面、更加综合,它更像是一个对于实际的数据问题需要具备的一些基本甚至专业知识。而大数据,则只是一个概念,指的是对于现在这个数据泛滥时代的统称。而它的研究方法包括在数据科学之中。对于统计而言,它在应用领域与前两者也有着很类似的内容,然而其理论基础部分则与前两者不同,是前两者进行研究和发展的基础。

——高原红

想了解更多相关内容,记得持续关注我们哦。

如果你觉得有点意思,请有秩序的评论、转发、收藏。

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180117C073Y600?refer=cp_1026

扫码关注云+社区