数据一词的qi'yuan

在中文中, “数据”一词从字面上简单看似乎比英文data有直白的内涵:数字+论据;然而data作为datum的复数形式,起源于拉丁文,在历史上也是具有同样丰富的内涵。在当前炙手可热的数据科学潮流下,重温data一词的起源,不忘初心。

根据google的解释,英文的”数据“datum的起源是这样的

datum

ˈdeɪtəm/

noun

noun:datum; plural noun:data

Origin

mid 18th century: from Latin, literally ‘something given’, neuter past participle ofdare‘give’.

据此来看,datum既有数据的输入功能(something given),也有包含有推理假设 (inference, hypothesis )的含义。data的历史使用频率自20世纪初稳步上升,到21世纪初基本已经到达高峰频率。

在学习了数据这个词的起源之后,你是不是对data这个词已经不仅仅停留在一堆010101010数字的理解层面了?

而在21世纪以来,大数据、数据科学、数据学习等围绕数据的各类新型理论和技术发展一浪高过一浪,大有“万物皆数”的趋势。但是,“数”、“数学”、“数据”,或者说 "number", "math", "data",是三种不同的概念。在这三种这种,“数据”是带有强烈的 推断、推理、论证色彩的。

因此,跟“数据”一词最能对应的,个人认为应该是“应用和计算数学”----前者输入的是数字世界,输出的是人类解决问题需要的推断、论点或者决策,后者输入的是自然科学的基本原理,输出的是数学形式和数值算法表达的答案。

当然,以上这种划分是一家之言,简单粗暴不精细的(比如,二者偶有交叉部分、输入输出常有相互的迭代等等),二者实现的技术手段也不竟完全相同。但是,其核心都需要吸取“数学”这个基础学科皇后母亲的乳汁,都面临如何具体准确又广泛稳定适用的建模挑战,历史上,问题的离散-连续性,曾是二者的分水岭,除了统计学科在其中充当着中间人的角色。可是,今天随着图像科学、机器学习、深度学习等领域的突起,离散正在连续化、连续正在离散化,应用呼唤沉睡的理论,理论需要应用的指挥,各个领域的研究正在走向深度融合,这一点其实在自然学科早已经反映在如 “物理化学”、“化学物理”、“生物医学”、“生物化学”等等这些貌似稀奇古怪的学科名词上。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180908G1243O00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券