专栏首页博文视点Broadview数据科学:以信息为载体的精确体系

数据科学:以信息为载体的精确体系

小编说:数据科学存在于生产和生活的各个方面,贯穿于人类社会发展的始终。数据科学作为科学,首先应该满足科学的基本定义。在此基础上,数据科学兼具数据本身的一些特性。

数据科学是一个巨大而抽象的概念,要想清晰地认识这样一个概念,就需要对其进行拆解。

  • 什么是科学

科学是一种泛指的领域,包括数据科学、计算机科学、社会科学、经济科学、语言科学、生物科学等都是小、窄而深的认知领域,这些领域的科学有各自的体系、规范及认知特性。科学,不管是某个领域的科学,还是泛指的科学认知体系,都有最基本的要求——精确性和体系性。

  • 精确性

太阳东升西落,四季夏热冬冷,这种事情不足为奇。通过观察星辰运动,得出这些天体都在围绕地球转动(至少看上去是这样)的结论,也不值得称道。而能够把这一切通过量化的(尤其是精确量化的)描述进行阐释和计算的人,确实比常人的观察层面更广、更深。这种精确描述的过程与状态的现实指导意义远比从大方向上指出一个性质要大。

  • 体系性

体系性就是指“自圆其说”的框架。所谓“自圆其说”的概念是指一种科学理论要有完整的对象定义,以及对象之间的换算与转化的条件和量化值的确切关系,通常表现为各种各样的计算公式或者统计概率的确切描述。而且,这一切有一个前提——需要“可应验”,严格地说是“高度应验”才行。体系框架的成立会形成一个封闭的讨论边界。在讨论边界内部的所有观察对象都会以各种量化结果呈现在换算公式的因子里,它的完整性会直接支持体系本身,并支持所有在该体系下进行的性状判断与预测。

  • 从信息到数据

数据无处不在。在网络上、报纸上、书籍上,在家用电脑的磁盘上,在我们的脑海里,数据大量且广泛地存在。围绕数据,人类已经做了很多数据科学的研究和应用工作,其中最为基础的就是数据的存储和传输。数据的价值在于数据上所承载的信息,信息的价值在于其消除不确定性时的成本及其直接和间接的作用,而这一系列的价值使得我们对数据的价值予以空前的重视,这就是我们热衷于研究数据科学的原因所在。

数据作为信息的载体,通过在介质上的落地和传输,以及数据之间体系性的计算,给人类带来了“消除不确定性,降低试错成本”的巨大利益。

著名信息学家克劳德·艾尔伍德·香农(Claude Elwood Shannon)曾经在1948年于《贝尔系统技术期刊》上发表论文《通信的数学理论》(A Mathematical Theory of Communication),其中有一段描述大意是“信息是用来消除随机不确定性的东西”。香农在这篇论文中不仅给出了信息的含义,还给出了信息量计算的公式,也就是信息学相关专业最为常用的公式之一 —— 信息熵公式。

其中,P(xi ) 代表消息 xi 产生的概率。

数据作为介质承载信息的形式,实际上是一种将信息抽象后的符号表示。所以,究其本质,不论是磁带上的语音数据,唱片上的音乐数据,磁盘上的文件数据,还是纸张上的文字数据,都具有如下特性。

(1)作用:承载信息,消除不确定性。

(2)形式:抽象过的符号记录。

(3)定义:符号的含义经过约定,不会或至少不易产生二义性。

信息的流传需要通过存储介质实现持久化。现在我们一提到存储,通常都会想到计算机硬盘,包括传统的机械硬盘及技术越来越成熟的固态硬盘(SSD硬盘)等。

众所周知,目前的电子计算机使用的计算与存储介质都是二进制的。这不是偶然的结果,而是由电子计算机的实现原理造成的。在ENIAC的设计过程中,冯·诺依曼(John von Neumann)根据半导体电子元件的二稳态特性,将计算机的计算逻辑设计为二进制方式(即只有“0”和“1”两种状态),在电子管上体现出来的特性就是“截止”和“导通”。而人类喜欢使用十进制也主要是因为人有10根手指,在日常生活中用十进制进行计算最为便利。

电子管

在计算过程中,计算机将“与门”、“或门”、“与非门”、“或非门”等逻辑元件组合在一起,模拟计算进位的过程,进而形成完整的计算实现单元。用电子计算机实现的任何一种运算都是由这些逻辑门组合而成的,而这之后在电子计算机领域不断进行的技术改进都是基于同样的原理。尽管元件的体积越来越小,集成的程度越来越高,计算的速度越来越快,但从计算逻辑和实现的数学层面来说,其原理没有本质的变化。

逻辑门

在硬盘技术方面也同样不断进行着量变的积累。无论盘片容量是500GB还是1TB甚至更高,都是通过磁头机械臂在盘片上滑动的同时高速转动盘片来实现磁性材料持久化和材料状态感应。计算中使用的“0”和“1”,就可以通过这种持久化以磁介质疏密(磁通量的高低)写入磁性材料层。

机械硬盘及其读写原理

展望未来,量子计算机和光子计算机的研发已经展开。这些新型计算机尽管实现原理不同,但只要成本足够低,而且与目前的电子计算机采用相同的工业标准,使双方在存储介质、信息传输等多个方面能够毫无障碍地互联互通,其未来就非常值得期待。

加拿大D-WAVE公司的量子计算机

信息经过抽象、建模,落实到介质上成为数据。数据与不同特性的介质结合,在各种介质上落地的形式也不完全一样,而这种结合通常是数据去迎合介质的特性。有意义的数据落在介质上,才能形成可以传递的信息,这就是信息产业赖以生存的基础。

  • 数据科学的本质

在了解科学和数据的定义后,我们基本可以给数据科学下一个完整的定义了——数据科学是一种研究信息感知、抽象、保存、建模、传输,以及数据之间的逻辑、数量统计、计算和转化关系的综合应用科学。数据科学的本质就是表述和指导对事物认知的关系量化,把普适性的科学思维方式应用到数据上,使其成为一门窄而深的、精确的、拥有完整体系的学科。这就是数据科学要解决的本质问题。

如果尝试对数据科学这个庞大的体系进行细分,可以分成很多专注于数据某一方面处理的专项学科。例如,数据贮存学研究数据存储中的数据体积、存取效率、可靠性问题等,数据传输学研究传输速度、传输质量问题等。在这两个大的领域中,所有可能影响数据存储和传输的因素都会被讨论和研究,计算机硬件制造、光电信号传输、数据有损/无损压缩、数据冗余与高可用、数据校验等都是研究的对象。

此外,还有研究如何在数据中进行信息抽象、计算、查找、分析等诸多度量与换算问题的数据算法学,以及其他一切能够对数据的感知、抽象、保存、建模、传输,甚至是数据的可视化、数据之间的辩证逻辑提供支持的学科等。其他分类同样会由于产业分化的需要而随时产生。这种平衡中的变化不断发生,一些小的分支和分类也会由于科研工作者潜移默化的努力而逐渐融合为一个大的分支。这些方式同样是仁者见仁,智者见智,不一而足。

本文内容整理自《数据科学家养成手册》认知篇

本文分享自微信公众号 - 博文视点Broadview(bvbooks),作者:博文视点

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-05-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 大数据与传统数据

    大数据与传统数据相比的主要特点可以概括为:数据量“大”、数据类型“复杂”、数据价值“无限”。

    博文视点Broadview
  • 五步法建设你的数据中台

    数据中台是当下非常热门的话题,可以解决企业重复造轮子的问题。虽然数据中台在互联网企业中已经有了多年的实践,但是对于传统企业来说还是一个比较新的话题。

    博文视点Broadview
  • 伪数据科学家 VS 真数据科学家

    R语言编程跟伪数据科学为何扯上了关系?R是一种有20多年历史的开源统计编程语言及编译环境,是商业化产品S+的后继者。R一直以来都局限于内存数据处理,在统计圈子里...

    博文视点Broadview
  • “第五届中国国际大数据大会”将聚焦大数据创新应用

    一份简单的外卖,如何在骑手人员调配、天气变化、出菜速度等因素实时变动的情况下,可以及时送到消费者手里?

    IT大咖说
  • 中国移动大数据总架构师段云峰:无所不在的大数据分析

    <数据猿导读> 中国移动大数据总架构师段云峰在2016年中国信息通信大数据大会上发表了以“无所不在的大数据分析”为主题的演讲.他主要给大家分享了中国移动在系统架...

    数据猿
  • 杭州城市大脑1.0发布;Uber涉嫌窃取数据违反新加坡法律 | DT数读

    过去一周,国际、国内的大数据相关公司都有哪些值得关注的新闻?数据行业都有哪些新观点和新鲜事?DT君为你盘点解读。

    DT数据侠
  • CrowdFlower数据科学家17年调查报告:情愿断腿也不想丢数据

    大数据文摘
  • 数据产品经理,并不是数据 + 产品经理

    近年来,随着大数据、人工智能、精细化运营的不断被重视,各大公司对于数据的处理和分析应用,越来越普及。

    用户1756920
  • 75.9%受访者发现存在“大数据”滥用现象

    电子科技大学互联网科学中心主任、《大数据时代》中文翻译者周涛认为,企业有没有“大数据”能力,分析报告是否包含“大数据”成分,要看是否具备两个特征:一是数据本身...

    腾讯研究院
  • 我国大数据资源还须更开放

    导读:2015年我国云计算带动了上下游产业规模超过了3500亿元,这些都为大数据发展提供了有力的基础支撑,同时也吸引了社会资本的关注,一种良性的大数据发展环境正...

    钱塘数据

扫码关注云+社区

领取腾讯云代金券