00:00
接下来我们了解一下什么是Doris啊,我们特指呢,是阿帕奇Doris。那么它最早呢,是由百度大数据部研发的,前身呢叫做polo。在一八年贡献给阿帕奇社区之后啊,才更名为一个Doris,那如果大家在市面上看到其他的资料啊,什么do DB,那其实是另外一款东西,并且呢啊有一些渊源,那在这里咱们就不做介绍。在百度内部呢,大家可以看到啊,超过200个产品,现在使用部署的机器规模啊上千台,单一业务线最大可达到上百TB。对吧,这是它能够支撑的一个量级和规模。那Doris是一个现代化的MP分析型的数据库,那什么叫MP呢?那其实就三这三个单词啊,直接理解起来就大规模并行处理。那我们来。分别看一下什么叫大规模啊,说白了就数据量大呗。
01:03
对吧,那并行呢,也就是说它不是单节点单机的处理,你想想既然是大规模大数据量,那我就分而置之,我我部署多个节点,每个节点处理一部分的数据,那这样整体效率不就上去了吗。对吧,这种就是所谓的MPP数据库,那一般这种MPP数据库我们是用来做什么分期型的,这区别于咱们传统的那种or TP型的数据库,Or TP就是联事处理,对吧?像MY这种啊,咱们业务上经常去使用,并且呢包含了事物的处理。简单来说就是包含了查询插入更新啊这种原子性的操作。那分析我们关注的是什么?关注的是已有数据对吧,这些数据我已经有了,然后呢,我对这些数据进行一个分析,那么对于他这些所谓的事物啊,呃,更数据的更新呢,不是特别关心。
02:03
那么同类型的就MPP,咱们嗯,常见的有哪一些,像大家也应该比较熟悉的,叫一个什么click house,还有那个GP啊,Green,呃,P对吧,这两个也是典型的MPP数据库,那么这么一对比,大家应该就比较清晰了啊,它的定位是什么?另外我们来了解一下它具体的一个性能,那么大家看一下这关键词亚秒级响应。对吧,它能达到亚秒级响应。那么。那它我们一般是用在做离线场景还是实时场景呢?其实都可以。对吧,它你想想,既然能够达到一个二秒级的响应,那么就能支持我们什么一个实时的场景。所以目前很多企业里面,他们呃在进行架构升级,比如说慢慢的改造成流批一体啊,那经常大家会看到出现Doris的身影,正是由于它优秀的性能。
03:05
那么Doris的一个架构呢,它也是非常简单,咱们下面来了解一下啊,而且它支持10PB以上的超大数据集。对吧,他们说是从一个整体而言。也就是说,从大数据量的支撑来看不是问题,看你怎么用。那基于Doris呢,我们可以满足多种实际需求,比如说固定的历史报表,这个应该大家非常熟悉,对吧,最基础的一个应用,还有呢,基于实时的一个数据分析也能够做到。交互式的数据分析啊,也就是说交互式就是你输入个命令,返回一个结果给你啊,简单粗暴理解是这样,交互式还有一些探索式的数据分析等等等等啊,说白了就是。这些场景他都能用啊。那我们看一下官网上的一张图啊,那这张图的核心在哪呢?就是我们的Doris。
04:06
之后呢,我们来了解一下它一般呢什么场景,首先我们看数据源,数据源这一块包含了什么呢?像OLTP型的数据库,My circle Oracle这种。还有企业级的应用产生的一些数据啊,比如说你企业后端自己部署的这种服务啊,比如说张尔福或者其他语言写的都行啊,产生一些数据都可以应用数据,那还有这两块。属于我们前端产生的啊,细看呢,一个是页面产生的数据。那最典型的就是我们的一些前端买点,我们页面设置的买点会产生一些买点数据,那除了页面之外,那么目前我们的使用。更多集中在什么移动端啊,也就是说白了就是手机平板对吧,上面安装了一些APP,我们同样也经常会去做一些买点,也会产生一些买点数据,那还有一些其他的网络事件对吧,等等等等,这些是我们比较常见的数据来源,那这些数据来源我们一些做法要么就是把它采集到一个消息队列,像卡夫卡这种。
05:23
或者呢,进入咱们传统的大数据集群,也就是哈托尔生态。这个也是非常经常常见的一个场景,再者说呢,我们也可以将这些数据落盘成一些文件,对吧,可能存储在各个地方。这些都是允许的,那不管你的数据来源在哪,咱们只需要将它通通打到什么呢?Doris里面进行一个分析就OK了啊,统一来处理,那么Doris呢,它本身有自己的一一套思考语法。可以去直接进行一个分析,可以说是比较简单易用的,只要你会写circle口,你就会用Doris啊,容易上手。另外呢,它同时也支持,呃,我们基于常见的一个大数据分析框架,像Spark这个分析引擎,呃,现在包括现在也是支持一个flink。
06:20
都支持。你想要Doris本身的circle去做分析,OK啊,你想用Spark可以可以也可以用flink都行,另外呢,它本身也提供一些映射表以及外表的功能,相对呃,通过odbc的方式对一些数据库啊,做一个外表。ES也有,什么叫外表呢?咱们简单说一下,呃,就是说这些表,这些数据原先比如说都在MYSQL里面,那传统的做法,我们是不是将my circle的数据采集过来,那外表的方式就不需要,哎,你只需要通过Doris外表的特性将它映射关系建立起来,那你就可以在Doris里面直接操作MYSQ。
07:04
啊,参与或者操作E等等这些功能。此之外啊,我们基于Doris企业里面的应用也有很多啊,比如说我们做一个BI报表,对吧,也是做一些市场营销分析啊,做一些金融类的,财务类的这一块的分析都可以。等等等,还有广告啊,这些就看你实际的需求了。这是我们一个使用典型的一个使用场景。那我们再了解一下它的一个基本的核心特性。这也是在官网上啊,拿下来的一张图啊,那我们简单过一遍,那你像这个现在MPP架构这个咱们也讲了什么叫MPP对吧?啊呃,还有体现了它的一个查询延迟啊秒级。
08:00
还有支持什么呢?SQ语言兼容,买SQ说白了就是什么容易上手啊,没有什么学习成本,向量化执行器啊,这个是比较高的版本才会添加了一个特性啊。说呃,就是一种优化啊,另外其实它最主要的一些特点啊,就像下面这几个,第一个高效的聚合表技术。啊,特别是这个聚合。咱们后面也会一一介绍它的一些数据模型,另外呢,有一些优化性的用法,Roll up上卷。是吧,可以获取一个更粗力度的啊,预计和结果等等,还有很多像物化视图啊呀,他也都支持,那其次呢,作为一个成熟的产品,必须达到一个什么呢?高性能,高可用,高可靠,还有负载均衡等等啊,这些它都是支持的。另外从使用角度,运维角度来讲,它的运轮也特别简单,你要扩容也简单,弹性伸缩啊都非常的方便。
09:03
我们后面都会一一展开,一一介绍。
我来说两句