【引子】春节聊天的时候,家中少年的一个发小刚刚转了个专业——数据科学,自己似乎对所谓的”数据科学“了解很多,但又似乎难以区分其中的一些概念差异,例如,统计学与数据科学的区别,,数据分析与数据科学的差异?为什么数据科学成为了一个学科? 等等。温故而知新,本文试图给数据科学一个老码农自认为清晰的描述。
互联网给我们迎来了大数据和数据经济的时代,“大数据增长”或者“数据泛滥”,不仅引发了巨大的轰动,更带来了巨大挑战,反过来又带来了超乎想象的创新和经济机遇。这些挑战、机遇和价值的认识正在重塑面向数据的科学和工程领域,也正在重塑那些非传统的数据工程领域,如社会科学、商业和管理。这种重塑不仅仅是由数据本身驱动的,而且是通过理解、探索和利用数据的所有方面。
这些趋势及其潜力引发了关于数据密集型科学发现作为一种新范式的辩论,即所谓的“第四科学范式”,它将实验、理论和计算结合起来。数据被认为是新的石油和战略设置,甚至决定未来的科学、技术、经济,乃至我们世界今天和明天的一切。
现有的知识和能力可能无法有效地应对这些挑战和机会, 于是产生了数据科学这一学科。它还处于非常早期的阶段,正在面临巨大的炒作甚至是困惑,所独有的问题和可能性还不清楚、具体或确定。然而,毫无疑问,数据科学在数据驱动理论、经济和专业发展方面的潜力正日益得到认可。这不仅涉及核心学科,如计算、信息学和统计学,还涉及广泛的商业、社会科学和健康/医疗领域。
关注数据科学而不是大数据,有一些关键的术语,如数据分析、数据分析学、高级分析学、大数据、数据科学、深度分析、描述性分析、预测分析和规定性分析,这些术语高度相关,很容易混淆,数据科学术语列表可以在 www.datasciences.org 网站上找到。
那么,什么是数据科学?数据科学的主要特征和活动现状如何?数据科学的基石是数据分析,它的进化和范式转换是什么?数据驱动创新的方向,新数据驱动的工业化和服务机会?数据科学的学科作用和可能的课程框架呢?
“数据科学”作为一个术语的第一次出现很可能是在1974年出版的《计算机方法简明概览》一书的序言中。在这篇序言中,数据科学被定义为“建立数据和处理数据的科学,而数据与它们所代表的东西之间的关系则被委托给其他领域和科学。”
从数据分析到数据科学的进化历程始于1962年的统计学界。有人说,“数据分析本质上是一门经验科学”,推动数据处理的原创工作包括信息处理和探索性数据分析。有人建议,需要更加重视利用数据提出合适的假设来检验,这促成了1989年后期的“数据驱动发现”。2001年,开始有人把统计学的技术领域扩展到数据科学。
在统计学中扮演主要角色的是描述性分析,即定量总结或描述数据样本集的特征和测量。如今,描述性分析构成了数据分析和商业智能系统中默认分析和报告的基础。对早年数据分析作用的理解不仅限于数据的探索和处理,还有1977年期望的”将数据转化为信息和知识”。20多年后,促成了ACM SIGKDD 会议,从那时起,”数据挖掘”、”知识发现”和数据分析等关键术语不仅在计算机科学中,而且在其他领域和学科中得到越来越多的承认。数据挖掘和知识发现是从数据中发现隐藏知识的过程。最新的发展是创建了全球和区域性的数据科学会议,尤其是 IEEE 国际会议的数据科学和高级分析(DSAA 2014),DSAA 还得到了 IEEE、 ACM 和美国统计协会的联合支持。
数据挖掘、知识发现和机器学习的发展,与原始数据分析和从统计学角度的描述性分析相结合,形成了“数据分析”的一般概念,起初的数据分析着重于数据处理。数据分析是一门跨学科的科学,对数据进行定量和定性的检验,以便得出新的结论或见解,或者提取和证明关于信息的假设,用于决策和行动。数据分析变得更加面向商业,扩展到各种数据和特定领域的分析任务,如商业分析、风险分析、行为分析、社会分析和网络分析。特定领域的分析从根本上推动了数据科学的创新和应用,数据的特定分析和理论分析共同构成了数据科学的基石。
数据科学吸引了越来越多的领域和学科的兴趣。因此,来自不同背景、不同社区的提议者提出了非常不同的观点或焦点。举个例子,认为数据科学是新一代的统计学,是几个交叉学科的综合,是一个新的知识体系。数据科学对于为数据行业提供能力和实践,或者生成业务策略。统计学家们实际上创造了“数据科学”这个术语,并促进将统计学升级为一个更广泛的学科,具体包括:
数据科学主要解释为开放数据的再利用,包括我们生活中的所有数据,并能够创造数据产品。其中,数据规模是最重要的,大数据的核心挑战是设计新的计算机体系结构和算法,分析是大数据的核心问题,数据重用是很容易得到的成果,等等。
但是,总的来说,“数据科学是数据的科学”或“数据科学是数据的研究”。从学科的角度来看,数据科学是一个新的跨学科领域,它综合并建立在统计学、信息学、计算机、通信、管理和社会学的基础上,研究数据及其环境,以便通过遵循从数据到知识再到智慧的思维和方法,将数据转化为见解和决策。那么,以学科为基础的数据科学公式可能是:
数据科学 = 统计学 + 信息学 + 计算机科学 + 通信 + 社会学 + 管理科学 | 数据 + 环境 + 思考(其中”|”意思是”有条件的”)
数据科学使我们能够探索新的数据驱动或数据支持的个性化、组织化、教育化、伦理化、社会化、文化、经济、政治、网络物理形式、模式、范式、创新、方向和生态系统,甚至是思维、战略和政策。例如,在社会科学中,大规模数据很有可能使主观性转化为客观自主性、效益和正义,一些指标可能是领域驱动的假设和专业人士无法预测的。
数据科学的产出是数据产品,数据产品是可以从数据中交付的,或者是由数据启用或驱动的,可以是发现、预测、服务、推荐、决策、思维、模型、模式、范式、工具或系统。有价值的最终数据产品是知识、智慧、智慧和决策。随着数据科学和工程技术的发展,新的数据产品可能会不断涌现。正如基于互联网的产品和人工智能系统的演变那样,这种创造可能以远远超出想象和思考的速度。
数据传播,量化,政府和研究机构的倡议与治理,以及开放数据被认为是当前数据科学时代的关键驱动力。
数据应用和数据量化是无处不在的,除了从商业和业务信息系统获得的常见数据外,日益流行和广泛的数据传输和数据量化系统和服务加强了大数据应用乃至数据泛滥。这些系统和服务包括但不限于可穿戴设备、物联网、移动和社交应用。
数据处理和数据量化发生在任何时间和任何地点,由任何人以任何方式产生,相关因素包括:
数据科学时代与以前时代的一个关键区别是采用了开放模式,开放模式是在经济、社会、研究和生活的各个方面都可以实现自由、分布和协作模式。一般来说,许多国家和领域都公布了开放数据和数据共享项目,如:
此外,越来越多的学术期刊所采纳了开放存取方案。在不同的社区中,人们也在努力创建可共享的数据库,特别是用于科学和研究。开放存储的例子有:
数据科学的价值和潜力的认识是由于新的数据经济和行业转型的发展,反过,数据科学来对新数据经济的发展、产业转型和生产力的提高又产生了重要影响和推动作用。这一波数据经济升级和转型的特征是人工智能技术和业务的革命,以及人工智能和人工智能驱动的数据经济的互补性进展,在很大程度上是由数据科学和分析推动的。它们包括商业化、应用基础设施、工具、系统、服务、应用和咨询,用于管理、发现和利用深层数据智能。
数据科学使所谓的“新经济”成为可能,谷歌,百度和阿里等大型企业就是证明。越来越多的组织认识到数据作为战略资产的价值,并投资于基础设施、资源、人才和团队建设,以支持企业创新,并且创造出与众不同的东西来提升竞争力和生产力。
传统的以制造业为中心的核心企业,也都推出了针对大数据、物联网和/或云计算的相应举措,并正在实施基于数据产品的转型。数据科学已成为企业生产力和竞争力提升的新引擎,包括银行、资本市场公司、电信服务提供商和保险公司在内的核心业务在数据处理、量化、分析和使用数据方面处于领先地位。
一个新兴领域的发展可以有效地用其专业团体的形成宽度、深度和速度来衡量。
第一个指标是在这一领域出现了专门的出版物。已经建立了几种数据科学杂志,第二个指标是建立一个数据科学社区,通过专门促进数据科学和分析的会议、研讨会和论坛大大加强了这一社区。第三个指标是建立的专业社区和组织的增长和发展。数据科学和分析社区正在以令人难以置信的速度增长。
研究人员和科学家在数据科学中发挥着推动作用,从统计学界最初的推动,各学科都参与到数据科学的学科发展中来。这涉及到学科结构、内在的挑战和方向、课程结构和课程设计,以及成为下一代数据科学家的能力。
除了促进统计学、数学、计算机和人工智能等核心学科的活动之外,对特定领域数据科学的广泛认识似乎重复了计算机和计算机应用的发展历史。越来越多的学科和领域开始拥护数据科学,这些领域在传统上与数据科学毫不相干,比如法律、历史,甚至护理学。它的核心驱动力来自数据密集和数据丰富的领域,如天文学,气候变化,研究评估,媒体和娱乐 ,供应链管理,以及网络基础设施等。数据科学的时代提供了重要的跨学科机会 ,推动了人工智能(AI)的发展,从起源于逻辑学、推理和计划驱动的机器智能向综合集成化、无处不在的、支持多模式智能的复杂智能系统和服务的转变。
一个非常典型的跨学科、多学科和跨学科的进化趋势是,从信息学的角度对经典学科中数据驱动的发现和科学进行调整和适应。典型的示例包括信息学、行为信息学、生物信息学、生物统计学、脑信息学、医学信息学信息学、医学信息学和社会信息学等等。因此,在诸如生物医学信息学、医疗保健信息学、甚至城市信息学等特定领域开设数据科学课程也就不足为奇了。大多数数据科学的课程侧重于经典科目,特别是统计学、数据挖掘、机器学习、预测、商业智能、信息管理和数据库管理。编程语言包括 R 和 Python,以及MapReduce 和 Hadoop 都是这些课程的重点。越来越多的课程是为了满足特定领域的需求而创建的,例如将统计学、商业分析、社交网络分析整合到 SCM 的预测分析中。
数据科学的基石是数据分析,数据和分析形成了一个全面的地图——
在不同的时间段和分析阶段,从数据到洞察再到决策的转换沿着整个生命周期的分析体现出来:
对小型和简单数据的数据分析以及假设检验已经转移到对大型和复杂数据的分析,以便获得无假设的知识和洞察力的发现。分析的重要性和创新性比以往任何时候得到了更好的认可吧呢,什么是概念地图和数据分析的演变呢?
随着分析技术的升级,数据和分析的可见度越来越低,自动化数据分析的水平也越来越低。随着数据复杂性的增加,可用的功能就会减弱。分析的目标是提高数据理解、生产和应用的可见性、自动化和能力水平。数据分析所涉及的数据复杂度和智能程度的提高,是从低级分析到高级分析的转变。
在执行分析任务时可能涉及到许多典型的分析方法和组件,包括报告、统计分析、预警、预测、建模、优化、规范分析和可操作的知识交付等等。分析方法之间可能有不同的焦点和联系。例如,当预测侧重于对未来可能性的概率估计时,它可能被用作一种预测方法,而预测又可能涉及估计结果的目标。
显式分析专注于描述性分析,典型方法包括报告、统计分析、告警和预测。隐式分析的时代则侧重于深度分析,分析方法是预测建模、优化、规范性分析和可操作的知识交付。
通常,在分析团队中采用来回迭代的方法,多个分析组件可能并行地参与,以探索多方面的观察和理解。
典型的要素和任务侧重于明确的描述性分析,具有以下特点:
深度分析获得了对事情发生、正在发生或将要发生的原因和方式的深入理解。这些原因和方法不能通过描述性分析来解决,可以决定下一个最好或最坏的情况,并设计出最佳的干预策略。
从数据分析到数据科学的范式转变构成了数据驱动的发现。分析实践经历了三个主要阶段的重大范式转变: 描述性分析和报告,预测和商业分析,以及规范性分析和决策制定。
描述性分析和业务报告的主要工作是进行明确的分析,主要通过使用现成的工具和内置的算法来实现。由仪表板和自动化流程生成的业务报告是将分析结果传递给管理层的手段。
预测和商业分析主要致力于隐式分析,侧重于预测建模和商业分析,更多是应用预测,数据挖掘和机器学习工具的商业理解。模式、评分和调查结果通过仪表盘和分析报告呈现给管理层。
规范性分析和决策制定是通过从复杂的数据、行为和环境中发现隐形的知识和可操作的见解,从而为商业决策提供最佳行动建议。这是通过开发创新和有效的定制算法和工具来实现的,以深入和真正理解特定领域的数据和业务。因此,规范性的决策策略和业务规则被传播给决策者,以便采取相应的行动。
特定领域的数据应用所面临的挑战和问题分为五个主要领域:
数据分析和知识工程方面的挑战涉及许多尚未得到适当解决的具体研究问题,例如:
需要采用系统的跨学科方法来处理上述问题,可能涉及发展多个研究学科和领域的协同作用,它还可能涉及业务和社会方面,包括行业转型、企业信息系统、商业智能、业务流程管理、项目管理、信息安全、信任和声誉、隐私处理、业务影响模型、业务价值和效用评估。需要采取跨学科举措,以弥合各学科之间的差距,以解决单一学科无法解决的问题中的关键复杂性。
数据科学新一代经济的创新、竞争和生产力 ,通过创造数据产品、数据经济和数据服务,新商业机会已经成为可能。
数据产业正在成型,主要动力来自六个核心领域: 数据/分析设计、数据/分析内容、数据/分析软件、数据/分析基础设施、数据/分析服务和数据/分析教育。
新的数据业务可能这些方面增长: 数据储存及管理、理解、处理、优化、增值机会、运输及通讯、服务及决策支援。特别是数据密集型领域和部门,如电信、政府、金融、银行、资本市场、生活方式和教育。对于制造业和生活业务,将更好地收集,管理和使用数据。
数据行业可能会创造新的商业模式、产品、服务、运营模式和劳动力模式,数据经济将进一步改变我们的生活、工作、学习和娱乐方式。
数据服务是整个数据和分析领域的一部分,正在改变我们生活的方方面面——
下面列举了一些通过分析为核心业务和新经济提供的典型数据服务——
数据行业的一个主要挑战是为跨国公司和整个政府等组织提供全球或基于互联网的数据服务,数据驱动的行业和服务正在形成商业数据科学的新趋势。
越来越多的行业和政府组织认识到数据对决策的价值,并设立了具体的数据科学家角色,以支持数据科学和工程,例如,首席数据官(CDO)、首席分析师、数据建模师以及数据工程师和业务分析师等。
数据科学家的作用在多年前就已经得到承认,在就业市场上,数据科学家受到大多数企业的欢迎。数据科学家的薪水比其他与数据相关的工作要高得多,那么,数据科学家的角色和职责是什么呢?数据科学家有时被定义为“来自信息或计算机科学背景,但理解一个领域,并可能为该领域做数据决策,关注数据生命周期的所有部分,并推进数据科学的科学家”。
在商业领域,跨国公司、社交媒体和在线社区以及信息提供商,都对数据科学家的角色和责任,以及如何成为一名优秀的数据科学家表现出了极大的兴趣。越来越多的学术和研究机构正在努力确定下一代数据科学家的认证和资格认可。这反映在一般和特定领域的数据科学硕士和博士资格课程中,如数据分析学博士和SCM预测分析硕士学位等。
典型的职责可能包括:
为了满足前面的要求,数据科学家除了分析技能之外,还需要具备一定的能力,包括:
数据科学在未来是什么样子的争论仍在继续,一般的共识是,数据科学作为一门独立的科学,将建立其系统的科学基础、学科结构、理论体系、技术家族和工程工具集。
基于对数据科学的内在挑战和理解 ,数据科学的发展可能:
数据科学已经越来越多地被认为是下一代创新经济的主要驱动力,该领域对社会的健康发展非常重要。一个高度发展的数据世界无缝地连接到我们的生活、工作、学习、经济和娱乐中。政府、工业界和学术界正在越来越多地作出新的努力,探讨如何将数据转换为决策数据,并促进数据科学的研究和发展。下一代数据科学在很大程度上依赖于将在优先数据的战略规划,“为什么需要数据科学”将是取而代之的是一系列科学理论和工具,以解决我们面临的大数据、科学、商业、社会和经济的重大问题。
【参考资料与关联阅读】