专栏首页DT数据侠“不安分”的数据“提炼师” | 数据科学50人·贾西贝

“不安分”的数据“提炼师” | 数据科学50人·贾西贝

为什么数据科学才有科学后缀,而从未听过物联网科学或者是区块链科学?华傲数据创始人贾西贝在这次专访中提出了一个有意思的观点。他认为数据当然是一门科学。从数据求学到数据创业,贾西贝一直在研究数据科学,也在数据科学的分支——数据治理上努力着,“从天上到地上,再踏踏实实地往上爬”,他说这就是他的人生。

▍数据科学是科学问题

“为什么叫数据科学?我觉得这是个挺有意思的问题。”华傲数据创始人贾西贝在接受DT君专访时说。

贾西贝从大学本科到硕士均在计算机系。“以计算机专业为例,国内的计算机系往往叫计算机科学与技术系,或计算机科学与工程系,反映了计算机的两个本质:科学和技术(工程)”,贾西贝博士说到。

他认为计算机科学和技术的本质很难分清,区块链、云计算、物联网等更多的是技术属性,而数据最为凸显的是科学属性。

“数据科学当然是科学问题。”贾西贝强调到,“其涵盖深层次的系统化理论知识。”

首先,数据科学具有极强的理论性和科学性,这是研究数据库时期贾西贝的认知,他认为数据科学实际上解决了数据管理和数据利用两个方面的问题。

在数据管理上,数据库和计算机领域的其他技术相比更具备坚实的理论基础。贾西贝举例说道:“数据库是基于1970年‘关系数据库之父’E.F.Codd发明的关系代数而产生的,赋予了数据库数理逻辑、技术理论以及其他科学性理论基础,解决了数据管理的理论问题。”而目前大家知道的移动互联网更偏应用,云计算更偏商业模式,贾西贝认为只有数据科学涵盖了深层次的理论及科学问题。

(图片说明:“数据库之父”E.F.Codd于1970年发表论文《用于大型共享数据库的关系数据模型》)

贾西贝提到数据库领域中的数据挖掘、KDD(Knowledge Discovery in Database,知识发现)以及人工智能等都是在解决数据利用问题,这其中都富有极强的理论基础,“因此,数据科学当之无愧是科学领域。”

其次,贾西贝提到,数据科学是一个学术共同体。国际上对数据科学早已有认知,这是一个公认的科学。

最后,目前国内已有多所高校成立数据科学学院,并且颁发专业的学位证书,说明学术上数据科学俨然已是一件非常严肃的事情。

(图片说明:部分开设数据科学与大数据技术的高校 数据来源:教育部)

但贾西贝也提到目前想要了解数据科学必须要研究明白四件事:数据生产和产生、数据管理和治理、数据应用和利用以及数据存储。“从这四个方向上建立相对完备的理论体系,这恐怕是数据科学要解决的事情。”

▍数据的价值

贾西贝的学生时代,数据科学在国内还没有被普遍提及,而数据一直备受学术界和商界的关注。学术界要有研究,商界要有应用。

大学到硕士期间都是学习计算机应用的贾西贝和数据的交集主要在多媒体数据和视觉图像方面,虽然和数据科学关系不大,但是也跟数据结下了不小的缘分。

“我是1999年进的北大,那个时候基本上不讲数据科学。”贾西贝说,那个时候数据的名称很有意思,“一个时代一个名称。”形容数据的词汇从70年代的超大数据集变成80年代的海量数据,又变成2000年后的大数据(Big Data)。“数据量越来越多,但是形容词却越来越小。”不过那个年代,数据常被看做是一种技术,现在看来其实是错的。

提到数据,贾西贝的话匣子也就开得更大了。

他认为数据领域有三个关键词:数据科学、数据治理以及数据资源。

贾西贝很笃定地说,“数据首先具有资源属性。”他认为区块链解决了生产关系的问题,云计算和人工智能解决了生产力的问题,而数据解决的是生产资料的问题,相当于“土地”。

2011年麦肯锡发布《大数据:创新、竞争和生产力的下一个前沿》报告,指出数据已经渗透到每个行业和商业功能之中,是生产的重要因素,和资本、劳动力并列第三生产要素。

赫拉利在《人类简史》中讲述了人类的进化过程,人从采集社会进化到农业社会,是土地让人类有了第一次飞跃,而人类史上第二次飞跃即进入工业社会的标志则是因为发现了能源,土地、能源(主要是石油)都是使人类社会产生“巨变”的生产资料。“现在,数据就是和石油一样重要的生产资料。”贾西贝说。以现在的新兴产业来说,比如人工智能就需要大量的数据集,“如果汽车‘吃’的是石油,那么人工智能‘吃’的就是数据。”这其中,数据是基础,资源属性显而易见。

(图片说明:尤瓦尔·赫拉利代表作《人类简史》)

2015年,党的十八届五中全会公报提出要实施“国家大数据战略”,这是大数据第一次写入党的全会决议,标志着大数据战略正式上升为国家战略。贾西贝分析道:“这说明数据已经成为国家基础战略资源,起到基础生产资料作用。”

在贾西贝上大学和研究生时,人工智能和数据都不是明星学科,尤其是人工智能正处于挫折期,而数据的发展也主要表现在数据库上。“90年代数据库研究的两大方向是推理数据库(deductive database)以及面向对象数据库(object-oriented database),2000年之后是数据库和互联网的结合,也就是半机构化数据库(XML数据库)。”XML数据库也是贾西贝英国读博时的第一个研究方向,这之后,贾西贝认为就到了研究界还要去进攻的未知领域——数据质量,也就是贾西贝的主要研究方向以及现在为之“奔波”的目标。

在全球庞大的数据量背景下,如何体现数据资源的真正价值成了学术界和商业界共同的思量。贾西贝认为从拥有数据资源到发挥价值之间有一道鸿沟,而连接这道鸿沟的桥梁正是数据质量,现在叫数据治理,是数据科学上的一个分支。以往的报道中都称贾西贝及其团队是中国的“数据精炼师”,“为大数据打开水龙头”等,贾西贝解释道:“数据就像石油,我们需要有个石油提炼厂,而我们就是建炼油厂的人。”数据治理让数据成了一种可用、有价值的资源。

当然,关于数据,有个不得不提起的问题是数据隐私。大众近年来对于数据的认知越发成熟,数据隐私正成为大部分人的困扰,尤其是精准营销带来的数据泄露让大众叫苦不迭。贾西贝对于数据隐私保护上的态度非常“强硬”。“中国数据立法刻不容缓。”贾西贝严肃地说道。

欧盟前后花了六年时间才让一般数据保护条例(GDPR)正式生效,贾西贝认为中国目前走得快的话也需要3-5年时间。但是数据隐私立法是件非常严肃的事情,目前来看,困难点主要在这是一件比较新的事情,贾西贝分析说,有一些坏的现象还没有充分暴露,这个时候如果立法过于严苛,容易抑制产业的发展;如果立法过于宽松,也给违法犯罪行为“留了空子可钻”。

▍“从天上到地上”的创业之路

贾西贝2011年回国,选择走上创业之路,创办华傲数据,至今已有八年时间。这八年,有过痛苦的阶段,但是对于贾西贝而言,这是他想要追寻的梦想,“想做就去做”是他的人生信条,他称自己的创业是“从天上到地上”的过程,听上去他很享受这次经历。

(图片说明:贾西贝博士接受DT数据侠采访)

数据治理彼时在国内并不被人熟知,研究的人也极少,在英国师从数据质量大师樊文飞的贾西贝看准了数据的价值,凭借着之前在国内短暂的研究,毅然决然选择回国创业。你如果问贾西贝在干什么,没有啰嗦和大篇幅的介绍,“我们在做数据治理。”贾西贝的回答必然是干脆利落的。“专业专注,聚焦打痛”八个字是贾西贝创业的坚守,也是公司200人的“信念”。

这注定是一次“不安分”的决定。不过“不安分”也似乎成了贾西贝的“代名词”。从放弃保送吉林大学本硕博连读的机会,而选择报考大连理工大学计算机科学与工程专业,到放弃保研大连理工,努力申请到北大读研,再到此后去英国的求学之路,都在彰显着他的“不安分”。贾西贝说:“我是个把梦想付诸实践的人。”

数据治理就是贾西贝现在的“梦想”。2000年以前,数据治理还没有系统的理论,那时学术界更多的是靠工匠精神,通过一些已有的经验去做,2000-2010年这十年间才真正形成了系统的具有数理逻辑的数据治理。但是以前国内对于数据质量这门学科不甚重视,尤其是企业更看重数据的应用,比如目前较成熟的精准营销。

贾西贝分析说,数据治理当时在国内的问题主要是本身不创造价值,而且这属于数据中台,贾西贝称之为“下水道”。“我们做的是疏通下水道的事情,将数据梳理清楚之后,把“数据资源通过提炼后传送到各个地方,进而发挥数据价值。”

贾西贝在创业的过程中发现有数据治理刚需排名第一的其实是政府。工信部2016年印发《大数据产业发展规划(2016-2020年)》,再次强调数据是国家基础性战略资源,是21世纪的“钻石矿”。贾西贝说:“目前,第一数据金矿在政府,第二数据金矿是互联网,第三数据金矿是大型企业集团,其中,政府部门的数据价值远远没有发挥出来。”

(图片说明:国家关于大数据发展规划的部分文件)

贾西贝称数据治理对于政府来说是“雪中送炭”的事情。政府的数据体量过于庞大,以区县为例,一个区县里一般有40-60个部门,而中国差不多有3000个区县,那么中国区县一级的部门大概有12万个,贾西贝假设每个部门有20个业务系统,那总共约有240万个业务系统,也就是240万个数据库。

“由于政府是科层制的,其各级别的信息化建设无法像企业那样,由一个全国统一的IT部门统筹建设和运营,只能是各级别、各部门和各业务分头建设、自主演化、独立运营。”这使得政务信息资源目录梳理成为一项最先需要开展的、必不可少的工作。

“政府的数据相当于海水,得淡化之后才能喝。”如果没有数据治理这一步骤,数据冗杂且不开放,“证明我爸是我爸”、“证明自己的性别”等无奈的事情还会继续困扰老百姓。

政府才应该是他们的首要服务对象,贾西贝在创业几年之后才发现这个道理。于是,贾西贝及其团队做了这些事:

  • 一是数据共享交换(建“输油管道”),解决数据互联互通问题,为大数据打开“水龙头”,将碎片化的数据库连接起来。
  • 二是建“炼油厂”,其中一类是以快为目的的“炼油厂”,即数据加工,采用自动化+流水线的模式,采用GLDM(Government Logical Data Model)方法论。国家层面上曾强调指出“推进技术融合、业务融合、数据融合,实现跨层级、跨地域、跨系统、跨部门、跨业务的协同管理和服务”, “三融五跨”已经成为当前我国政府信息化的指导思想。这其中,衔接“三融五跨”思想和落地项目实施的“五跨”数据治理的方法论就是GLDM。

贾西贝向DT君介绍到,数据治理和水污染治理非常相似,需要层层提炼,将不同级别的数据进行分类,保证数据的真实性和正确性。“通过将数据正确提炼和分类,能够让百姓真正享受到政府的便利,而不是繁琐地证明‘我爸是我爸’的问题。”

回国的这八年里,贾西贝从一开始想做一款基础性通用产品,到找到自己的真正数据服务道路,他正在努力把数据治理做到极致。从最初的产品为主,到之后的业务为主,再到现在的技术+业务为主,贾西贝给自己的公司也弄了个“三融”模式:技术融合、业务融合以及理解融合(深度理解数据治理理论知识)。他在公司里经常讲“一万次原理”,即一扇门需要敲一万次,不过他也谦虚道:“在数据治理这扇门上,我们目前可能还没敲到9000次。”

从一名研究者转换为创业者,贾西贝说自己最大的感受就是“操心”,因为是第一次创业,总会有痛苦的时候,但是他这样形容自己的创业:从天上到地上。“我觉得如果不创业的话,我会一直待在学术的象牙塔里,那是在天上的,创业的过程让我感觉从天上跳到地上来了,脚踩着实地,深一脚浅一脚。”贾西贝说这话时,神态自然而放松,对于大多数人都认为痛苦不堪的创业,他此刻看上去却倍显幸福,因为这是他喜欢做的事情。

“评价下你的性格吧。”采访的最后,DT君问道。

“我的性格就是这样,不屈不挠,能够把梦想付诸实践。人生一百年里,这也是一种精彩吧。”

作者 | 张慧芳:zhanghuifang@dtcj.com

题图 | 站酷海洛

本文分享自微信公众号 - DT数据侠(DTdatahero)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-01-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 数据“独角兽”是怎样炼成的? | 数据科学50人·崔晓波

    如今,我们每个人都在谈论“数据科学”,哈佛商业评论杂志甚至将数据科学家定义为“21世纪最性感的职业”。在这个大数据时代,究竟什么是数据科学?数据科学领域的科学家...

    DT数据侠
  • 【Top 50】中美人工智能高被引学者榜单:孙剑、何恺明、李飞飞进前5

    近日,上海交通大学 Acemap 团队开发了一个基于度量的全球顶级研究机构排名系统——AceRankings。

    新智元
  • 父亲节,来认识一下这几位“爸爸”

    艾伦·图灵(Alan Mathison Turing,1912年6月23日-1954年6月7日),英国数学家、逻辑学家,被称为计算机科学之父,人工智能之父。19...

    华章科技
  • 《数学之美》读后感:看数学之美,悟技术之道

      记得几年前看完了《浪潮之巅》之后,便知道了吴军老师还有另外一本非常出名的著作《数学之美》,但是一直没有列入计划阅读。直到2016年我看完了《硅谷之谜》以及《...

    Edison Zhou
  • 不会做产品经理的CEO,不是好的数据科学家 | 数据科学50人·柳超

    如今,我们每个人都在谈论“数据科学”,哈佛商业评论杂志甚至将数据科学家定义为“21世纪最性感的职业”。在这个大数据时代,究竟什么是数据科学?数据科学领域的科学家...

    DT数据侠
  • 无数学不数据,一场16年的坚守 | 数据科学50人·宣晓华

    如今,我们每个人都在谈论“数据科学”,《哈佛商业评论》杂志甚至将数据科学家定义为“21世纪最性感的职业”。在这个大数据时代,究竟什么是数据科学?数据科学家又究竟...

    DT数据侠
  • 贾佳亚港中文团队冠军技术分享:最有效的COCO物体分割算法

    【新智元导读】物体分割(instance segmentation)是如今视觉领域最热最核心的一个问题。在这届国际图像识别权威竞赛MS COCO当中,香港中文大...

    新智元
  • “机械战警”牵起他与数据科学的缘分 | 数据科学50人·邬学宁

    邬学宁,SAP硅谷创新中心首席数据科学家,长期致力于机器学习与人工智能算法研究与应用。“数据科学核心算法的基础是简洁优美的数学,这是我愿意用一辈子,去追寻的事情...

    DT数据侠
  • 2020 全球Top 1000 计算机科学家h指数公布,华人学者过百,张宏江居中国大陆科学家之首

    近日,Guide2Research 第6版顶尖计算机科学家年度排名新鲜出炉!这个榜单已经有5年的历史了。

    新智元

扫码关注云+社区

领取腾讯云代金券