前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >中国人民大学教授杜小勇:One Size Does not Fit All?

中国人民大学教授杜小勇:One Size Does not Fit All?

作者头像
数据和云
发布2019-11-25 15:54:34
1.1K0
发布2019-11-25 15:54:34
举报
文章被收录于专栏:数据和云数据和云

2019数据技术嘉年华于11月16日在京落下了帷幕。大会历时两天,来自全国各地上千名学术精英、数据库领袖人物、数据库专家、技术爱好者在这里汇聚一堂,围绕“开源 • 智能 • 云数据 - 自主驱动发展 创新引领未来”的大会主题,共享"开源自研,云和数据,智能运维,智能业务,数据前沿,用户实践"六大主题盛宴。

在此小编为大家精心准备了“2019数据技术嘉年华——大咖演讲系列整理”,没来参会的朋友们,可以通过我们的系列报道,了解在本次大会中最新的数据行业资讯。爱好技术的朋友们不可错过哦~

本文是小编依据杜小勇博士在“2019数据技术嘉年华”大会现场演讲速记稿整理而来。

关注公众号“数据和云”,回复:2019dtc ,更多精彩ppt等你下载!(PPT还在不断更新当中,请持续关注)

中国人民大学教授,博士生导师,工学博士杜小勇老师

非常高兴有机会来到“2019数据技术嘉年华”的会场。我在四年前就有一个设想:想要加强学术界和应用界、企业界的交流。所以每年在数据库的学术会议上,都会有一个来自企业界的报告,每年大会上我都听了,我个人觉得还是很有收获的。比如有一年报告特别谈到在互联网企业运维,包括数据库在内的众多的开源数据库存在巨大的压力。但是我们很多学生不敢尝试实践,他觉得和写一篇论文差得很远,这样的问题他解决不了。

最近遇到盖先生是在华为的一次活动上,我发现很奇怪,Oracle工程师怎么跑到华为会议上?我发现盖先生在改变他的思路,他今天的主题是自主、创新,而且他也主动去拥抱了华为的数据库,也是华为第一家合作商,也就是说他愿意为国产数据库服务。所以当时盖先生邀请我来做报告,我非常高兴,我希望去做这样的努力,加强学术界和企业界的合作。所以这是我今天来做这个报告的一个最主要的初衷。

讲什么呢?学术界如果讲报告最喜欢讲的是论文,我想那样讲的话,那肯定就把会场一半的听众都要讲跑了。所以我今天也是跟之前盖先生交流过,讲宏观一点,讲我们在学术界怎么去看待数据库的发展,希望可以给听众一些启示。因为我觉得中国的企业到了要改变的时候了,他不再仅仅是拿来就要用,用好就行了。特别是我们的大企业,必须要创新。今天的题目用了“One Size Does not Fit All?”,他是个肯定句,我加了个“问号”。这个话是图灵奖获得者说的。

我们在讨论关系数据库到底是什么?有两股力量,在数据库、学术界比较主流。一个是新型的数据库,新的模型,比如:对象数据库,XML数据库。所以那时很多探索,觉得下一代数据库到底是什么?但是主流数据库应该是关系数据库。第二个是,专用系统。现在需求太多,主要是做专用型的。

我们来看看这两个趋势,第一个方向,在2017年VLDB题目上叫“Failed Aspirations in Database Systems”。这说明学术研究和产业不太一样,但是不能说探索没有意义,实际面向对象很多特性在我们关系数据库里也有体现。

第二个方向,Stonebraker研制的专用系统。Stonebraker为代表的开放了一系列的数据库系:c-store(后改名Vertica)column store系统,适用于OLAP,后被HP收购;h-store(后改名VoltDB)行存储数据库,适用于事务OLTP;StreamBase,流数据库,被TIBCO收购;SciDB,科学数据库,支持数组(array),呈现出一个很混乱的状况。

谷歌的三件套彻底改变了非结构化数据管理的生态。

确实这样做完以后,数据库界的批评声音是很大的,认为是严重的倒退。Stonebraker对Hadoop的批评之声特别大:丢失了大多数DBMS的特性;不支持事务或者只支持简单的事务;较低级的程序设计范型;缺乏应用开发工具和环境;没有索引等等。

出路何在?我们要去思考。这也是我今天讲的一个主题。我们还应保持初心,就像“数据库从哪儿来的?”这个问题,简单回顾一下数据历史可以得到这样的结论:数据库是应用驱动的创新。我画了一个图,可能跟教科书的分态不太一样,教科书按模型分态,我是按应用角度分态的。从Store&Access到后来OLTP要解决一次性的问题,到OLAP要解决复杂分析的问题,到了第四代Hadoop的时代要解决非结构化数据的存储和管理的问题,今天要面对什么样的应用是它的主流应用。

OLML,这个词是我构建的词,我希望它能成为未来的流行词。OLML是什么东西?是Online Machine Learning,现在主流应用就应该是机器学习应用,海量数据上怎么获取数据,怎么训练模型,怎么去部署模型,怎么去更新模型,这些东西是我们未来的主流应用。所以我期待,有一个像SQL语言去获得或者是去描述一个数据子集,去描述学习任务,能够很快的、实时的更新模型,看到效果。

OLML和OLTP、OLAP对应起来,有可能模型不一样,任务不一样。这里有一个证据,我把ICSE 2019最佳论文跟大家分享一下,这是微软很多人一块完成的 Case Study,他是从软工具角度上来说的。一个是pipeline支持,在微软内部机器学习是这样的过程,花了很多时间是在数据准备上。

我想让大家看到的是,一个是红字的部分,他说的是数据管理和模型管理应该结合起来,不要把这两个子集分离开来。最好是在数据库平台上结合,因为数据库是一个平台。我建议大家可以把文章拿来读一读,我觉得还是有很多启发的。

支撑OLML的新型数据库长啥样?支持多数据模型、支持存算分离、支持自优化自适应自管理、支持混合架构。

多数据模型。这个需求很自然,因为你可能有各种各样的数据,对于用户来说,他不需要知道这个数据是怎么组织的,这个数据是怎么存的,可以使用,怎么在一个系统里支持不同数据类型.。

存算分离。存储与计算分离,这已经是大家公认的方向了。对于数据库来说,有更深刻的挑战。

自适应优化。现在这个话题谈得比较多,实际查询优化这件事情是支撑关系数据库成功的重要的支柱之一。以前我们做的比较简单,Rule-based、Cost-based...现在我们横向扩展问题解决了,因此ML-based驱动的方法在未来数据库管理里面会有很大的用法。

混合架构。我们都知道,现在高速网络比IO都快。计算芯片也一样,不再仅仅是CPU了,GPU、FPGA各种各样人工智能芯片都在出现,在这样的数据管理过程中,模型训练的负载下,这是学术界或者产业界都很清楚的,你对于不同类型的负载用不同的计算器需要模式差异很大,比如规则的数据放在GPU处理比较好,如果说很杂乱无章的说不定CPU更好。所以这种差异,存在有优化的空间。所以我觉得这方面还是有很大的空间可以去扩展。

最后展示一张照片,这是潘院士在我们科学大讲堂做报告时,他给我们人工智能学院院长赠了一幅字。现在确实到了一个时代的变化,不管是别人有我们没有,还是说别人没有我们也没有,我们都面临着一个“无人区”状态,在这样的情况下,高校天生的拥有创新的基因,要敢于“秀”出来,接受全世界“品头论足”。而企业在踏入无人区的时候,我觉得有一条很重要的路就是创新

在计算机大会上我们邀请了阿里、华为、腾讯数据库老总一块坐下来探讨 中国国产数据库发展道路探索 的时候。其中有一点让我印象很深刻,不管走什么样的道路,创新是最重要的,如果没有创新,也就没有未来。所以我也借着今天的主题,我代表中国数据库学术界表达这样一个愿望,愿意和我们在座的企业界进行全方位的合作,当然我们也在成长中,我们也知道我们的力量还很薄弱,我们希望我们的数据库企业帮助我们一块去招揽人才。我们也和其他领域面临人才的竞争,只要我们一块努力,提供更多的机会,我相信我们有更多的老师、更多的学生会活跃在数据库的研究平台上。

谢谢大家,这是我的报告!

小编提醒:关于《2019数据技术嘉年华PPT》正在整理完善中,在“数据和云”公众号后台回复:2019dtc,即可下载!

出处:墨天轮(https://www.modb.pro/doc/topic/11536)

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-11-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据和云 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档