数据科学

数据科学,不只是一门科学,而是下一代科学,是21世纪科学的全部。

科学可以定义成,让知识持续稳定产生价值的人类行为。比如阿基米德在澡盆里对浮力的研究,就是人类科学发展的重要一步。

以今天的标准来评价2000年前的科学家,他们未必能够小学顺利毕业。这是因为人类获取知识,需要各种各样的软硬件基础设施。阿基米德穷尽一生的智慧,也不可能把PI算到小数点后100位。而在今天,即便是从没认真上过一天学的小商人,也可以下载一个Super PI软件,用几秒钟的时间算出100万位来,仅仅是为了测试一下新买的电脑。

信息科学和技术的进步,把科学推到了一个关键的节点,支撑知识和科学的数据,规模和复杂度都正在突破人类认知能力的极限,并且仍然在以惊人的速度增长:

从ENIAC启动,到现在已经有73年了。虽然我们会使用“电脑”这个名词,可没有人真认为那一堆电路板有“脑子”,它只是一个功能复杂的计算器和记录本。

但是,今天情况变了,面对人类没有能力驾驭的海量数据,那一堆电路板就成了唯一的希望。科学正在向下一个阶段演化:自己掌握多少知识,已经不重要了,重要的是你能够驾驭多大的信息系统。汽车可以给我们一个很好的参考,会有人背着2吨物资,跑步去500公里外的城市么?

让我们先从数据的视角,回顾一下科学的成长历程:

现代科学起源于中世纪后期,代表人物包括哥白尼、牛顿、伽利略、开普勒。这个阶段的科学,以试验、测量、记录为主,被称为现代科学的第一范式。从数据的角度理解,就是数据非常少,数据的质量非常差,科学家们整天在跟获取一两个能用的数据较劲。

在拥有了大量、可靠的数据后,科学理论也开始进化,这个阶段被称为现代科学的第二范式。比如爱因斯坦的相对论,就是基于大量的试验数据推导出的,一个和直觉非常不一样的世界观。而基于这个世界观,科学家们研制出了人类历史上最强大的武器——核弹。从数据的角度理解,这个阶段有了很多数据,数据质量也不错,科学家可以人工使用这些数据,创造巨大的价值。

现代科学发展的第三范式,叫“数值仿真”,比如同学们喜闻乐见的网络游戏。在这个阶段,基于已有的数据和理论,科学家和工程师,可以在信息系统里构建真实世界的副本。在虚拟的世界里,普通人也可以扔一把核弹,体验一下帝王的感觉。而专家可以继续试验下一代核弹,既不会引起邻国不满,也不会污染环境。另一个具体的例子就是“人造太阳”,可以看作核弹的未来版本,一个可以至少为人类提供几百年廉价能源的方案。

而今天,现代科学已经发展到了第四范式,海量的数据早已突破了人类学习的生理极限,科学家们的工作,是构建和运营可以自动处理数据、获得知识的信息系统。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180620G0TVI300?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券