专栏首页数据和云中国人民大学教授杜小勇:One Size Does not Fit All?

中国人民大学教授杜小勇:One Size Does not Fit All?

2019数据技术嘉年华于11月16日在京落下了帷幕。大会历时两天,来自全国各地上千名学术精英、数据库领袖人物、数据库专家、技术爱好者在这里汇聚一堂,围绕“开源 • 智能 • 云数据 - 自主驱动发展 创新引领未来”的大会主题,共享"开源自研,云和数据,智能运维,智能业务,数据前沿,用户实践"六大主题盛宴。

在此小编为大家精心准备了“2019数据技术嘉年华——大咖演讲系列整理”,没来参会的朋友们,可以通过我们的系列报道,了解在本次大会中最新的数据行业资讯。爱好技术的朋友们不可错过哦~

本文是小编依据杜小勇博士在“2019数据技术嘉年华”大会现场演讲速记稿整理而来。

关注公众号“数据和云”,回复:2019dtc ,更多精彩ppt等你下载!(PPT还在不断更新当中,请持续关注)

中国人民大学教授,博士生导师,工学博士杜小勇老师

非常高兴有机会来到“2019数据技术嘉年华”的会场。我在四年前就有一个设想:想要加强学术界和应用界、企业界的交流。所以每年在数据库的学术会议上,都会有一个来自企业界的报告,每年大会上我都听了,我个人觉得还是很有收获的。比如有一年报告特别谈到在互联网企业运维,包括数据库在内的众多的开源数据库存在巨大的压力。但是我们很多学生不敢尝试实践,他觉得和写一篇论文差得很远,这样的问题他解决不了。

最近遇到盖先生是在华为的一次活动上,我发现很奇怪,Oracle工程师怎么跑到华为会议上?我发现盖先生在改变他的思路,他今天的主题是自主、创新,而且他也主动去拥抱了华为的数据库,也是华为第一家合作商,也就是说他愿意为国产数据库服务。所以当时盖先生邀请我来做报告,我非常高兴,我希望去做这样的努力,加强学术界和企业界的合作。所以这是我今天来做这个报告的一个最主要的初衷。

讲什么呢?学术界如果讲报告最喜欢讲的是论文,我想那样讲的话,那肯定就把会场一半的听众都要讲跑了。所以我今天也是跟之前盖先生交流过,讲宏观一点,讲我们在学术界怎么去看待数据库的发展,希望可以给听众一些启示。因为我觉得中国的企业到了要改变的时候了,他不再仅仅是拿来就要用,用好就行了。特别是我们的大企业,必须要创新。今天的题目用了“One Size Does not Fit All?”,他是个肯定句,我加了个“问号”。这个话是图灵奖获得者说的。

我们在讨论关系数据库到底是什么?有两股力量,在数据库、学术界比较主流。一个是新型的数据库,新的模型,比如:对象数据库,XML数据库。所以那时很多探索,觉得下一代数据库到底是什么?但是主流数据库应该是关系数据库。第二个是,专用系统。现在需求太多,主要是做专用型的。

我们来看看这两个趋势,第一个方向,在2017年VLDB题目上叫“Failed Aspirations in Database Systems”。这说明学术研究和产业不太一样,但是不能说探索没有意义,实际面向对象很多特性在我们关系数据库里也有体现。

第二个方向,Stonebraker研制的专用系统。Stonebraker为代表的开放了一系列的数据库系:c-store(后改名Vertica)column store系统,适用于OLAP,后被HP收购;h-store(后改名VoltDB)行存储数据库,适用于事务OLTP;StreamBase,流数据库,被TIBCO收购;SciDB,科学数据库,支持数组(array),呈现出一个很混乱的状况。

谷歌的三件套彻底改变了非结构化数据管理的生态。

确实这样做完以后,数据库界的批评声音是很大的,认为是严重的倒退。Stonebraker对Hadoop的批评之声特别大:丢失了大多数DBMS的特性;不支持事务或者只支持简单的事务;较低级的程序设计范型;缺乏应用开发工具和环境;没有索引等等。

出路何在?我们要去思考。这也是我今天讲的一个主题。我们还应保持初心,就像“数据库从哪儿来的?”这个问题,简单回顾一下数据历史可以得到这样的结论:数据库是应用驱动的创新。我画了一个图,可能跟教科书的分态不太一样,教科书按模型分态,我是按应用角度分态的。从Store&Access到后来OLTP要解决一次性的问题,到OLAP要解决复杂分析的问题,到了第四代Hadoop的时代要解决非结构化数据的存储和管理的问题,今天要面对什么样的应用是它的主流应用。

OLML,这个词是我构建的词,我希望它能成为未来的流行词。OLML是什么东西?是Online Machine Learning,现在主流应用就应该是机器学习应用,海量数据上怎么获取数据,怎么训练模型,怎么去部署模型,怎么去更新模型,这些东西是我们未来的主流应用。所以我期待,有一个像SQL语言去获得或者是去描述一个数据子集,去描述学习任务,能够很快的、实时的更新模型,看到效果。

OLML和OLTP、OLAP对应起来,有可能模型不一样,任务不一样。这里有一个证据,我把ICSE 2019最佳论文跟大家分享一下,这是微软很多人一块完成的 Case Study,他是从软工具角度上来说的。一个是pipeline支持,在微软内部机器学习是这样的过程,花了很多时间是在数据准备上。

我想让大家看到的是,一个是红字的部分,他说的是数据管理和模型管理应该结合起来,不要把这两个子集分离开来。最好是在数据库平台上结合,因为数据库是一个平台。我建议大家可以把文章拿来读一读,我觉得还是有很多启发的。

支撑OLML的新型数据库长啥样?支持多数据模型、支持存算分离、支持自优化自适应自管理、支持混合架构。

多数据模型。这个需求很自然,因为你可能有各种各样的数据,对于用户来说,他不需要知道这个数据是怎么组织的,这个数据是怎么存的,可以使用,怎么在一个系统里支持不同数据类型.。

存算分离。存储与计算分离,这已经是大家公认的方向了。对于数据库来说,有更深刻的挑战。

自适应优化。现在这个话题谈得比较多,实际查询优化这件事情是支撑关系数据库成功的重要的支柱之一。以前我们做的比较简单,Rule-based、Cost-based...现在我们横向扩展问题解决了,因此ML-based驱动的方法在未来数据库管理里面会有很大的用法。

混合架构。我们都知道,现在高速网络比IO都快。计算芯片也一样,不再仅仅是CPU了,GPU、FPGA各种各样人工智能芯片都在出现,在这样的数据管理过程中,模型训练的负载下,这是学术界或者产业界都很清楚的,你对于不同类型的负载用不同的计算器需要模式差异很大,比如规则的数据放在GPU处理比较好,如果说很杂乱无章的说不定CPU更好。所以这种差异,存在有优化的空间。所以我觉得这方面还是有很大的空间可以去扩展。

最后展示一张照片,这是潘院士在我们科学大讲堂做报告时,他给我们人工智能学院院长赠了一幅字。现在确实到了一个时代的变化,不管是别人有我们没有,还是说别人没有我们也没有,我们都面临着一个“无人区”状态,在这样的情况下,高校天生的拥有创新的基因,要敢于“秀”出来,接受全世界“品头论足”。而企业在踏入无人区的时候,我觉得有一条很重要的路就是创新

在计算机大会上我们邀请了阿里、华为、腾讯数据库老总一块坐下来探讨 中国国产数据库发展道路探索 的时候。其中有一点让我印象很深刻,不管走什么样的道路,创新是最重要的,如果没有创新,也就没有未来。所以我也借着今天的主题,我代表中国数据库学术界表达这样一个愿望,愿意和我们在座的企业界进行全方位的合作,当然我们也在成长中,我们也知道我们的力量还很薄弱,我们希望我们的数据库企业帮助我们一块去招揽人才。我们也和其他领域面临人才的竞争,只要我们一块努力,提供更多的机会,我相信我们有更多的老师、更多的学生会活跃在数据库的研究平台上。

谢谢大家,这是我的报告!

小编提醒:关于《2019数据技术嘉年华PPT》正在整理完善中,在“数据和云”公众号后台回复:2019dtc,即可下载!

出处:墨天轮(https://www.modb.pro/doc/topic/11536)

本文分享自微信公众号 - 数据和云(OraNews),作者:数据技术嘉年华

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-11-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 2019年开源数据库报告发布:MySQL仍卫冕!

    墨墨导读:3月初,ScaleGrid发布了数据库趋势报告:SQL打败NoSQL,MySQL最受欢迎。

    数据和云
  • (文中有惊喜)走进云时代的数据库

    最近几年,随着云计算相关技术的发展,各种不同类型的云层出不穷,服务越来越多不同类型的企业业务,传统企业也渐渐开始探索上云的道路。在云上,作为业务最核心的数据库,...

    数据和云
  • 为什么说云数据库是商业的成功、技术的倒退?

    我们在越来越多的会议、媒体、文章、报道上看到一种说法:“未来的数据库是云数据库的时代,云数据库厂商终将取代传统数据库厂商”。首先我并不否认这种说法,但是云数据库...

    数据和云
  • 为什么要使用redis数据库?它有哪些妙用?

    redis是Nosql数据库中使用较为广泛的非关系型内存数据库,redis内部是一个key-value存储系统。它支持存储的value类型相对更多,包括stri...

    Java编程指南
  • 【腾讯云的1001种玩法】十分钟轻松搞定云架构 · 数据库的主备 双活 读写分离

    主备是指我们在使用数据库时,同时有主数据库和备数据库,主数据库主要提供服务,备数据库以备不时之需。为什么数据库应该做主备机?数据库的读写分离又到底有什么好处?今...

    白宦成
  • 如何不宕机实现数据库迁移

    由于业务的扩展或者其他原因,常常会有迁移系统数据库的场景,对于有大量用户7*24小时不间断使用的系统,如何不宕机实现数据库迁移,这是个很有挑战的话题。

    Bruce Li
  • java数据库操作

    数据库访问几乎每一个稍微成型的程序都要用到的知识,怎么高效的访问数据库也是我们学习的一个重点,今天的任务就是总结java访问数据库的方法和有关API,java访...

    企鹅号小编
  • Golang语言社区--【数据库知识】从关系型数据库到非关系型数据库

    1. 关系型数据库 关系型数据库,是指采用了关系模型来组织数据的数据库。 关系模型是在1970年由IBM的研究员E.F.Codd博士首先提出的,在之后的几十年中...

    李海彬
  • 【直播预告】揭秘MySQL的数据类型

    点击上方蓝字每天学习数据库 ---- 【直播课程】由腾讯云数据库产品团队的主要技术负责人、中国计算机行业协会开源数据库专业委员会副会长刘迪(迪B哥)担任讲师,...

    腾讯云数据库 TencentDB
  • NoSQL(MongoDB,Hbase,Redis)介绍

      NoSQL,泛指非关系型的数据库,随着互联网的发展传统的关系型数据库面对持续增长的数据处理起来显得越来越力不从心,此时非关系型数据库应运而生。

    用户4919348

扫码关注云+社区

领取腾讯云代金券