00:00
好,那我们接下来呢,就要进入到数据仓库的权限管理模块了啊,那我们之前提到过啊,权限管理呢,它是数据安全的两个重要工作之一。对吧?啊,那另一个是什么,大家还记得吗。那就是我们刚刚讲完的用户认证对吧?啊,那现在呢,我们就要开始学习权限管理了,那大家还记得权限管理的主要工作是什么嘛?啊,其实很简单啊,那其实呢,就是去配置哪些人可以去访问哪些数据资源对不对,或者说呢,哪些人他不能去访问哪些数据资源啊这就是权限管理要做的主要工作,那这些工作我们由谁来做呢?啊在这儿呢,我们使用的是阿帕奇ranger这个框架啊那接下来呢,我先简单的给大家介绍一下证啊好接着往下走,什么是证啊,那阿帕奇证呢,它是一个hi杜op平台上的全方位数据安全管理框架啊,它可以为整个hi度生态系统提供全面的安全管理。那在这大家可以看到啊,Reer呢,是可以为整个hi to生态系统提供服务的,没错吧?啊,接下来呢,我们先看一个图啊,往下走看这个位置大家来看啊,那这个图当中它展示了很多的框架,对不对啊,这里边有大家熟悉的hdfs h base have、雅安等等等等,那这张图当中展示出来的框架呢,R都是支持的,也就是说我可以使用ranger啊,去配置哪些可以访问HD文件,那也可以去配置哪些人能够访问h base当中表,或者是have当中表,那除此之外呢,我们甚至还可以使用ER呢,去配置哪些用户能够将任务提交到雅安集群上面进行计算啊等等等等啊,那也就是说rangeer它的服务对象是整个hi杜op生态系统这块呢,大家理解一下,那接下来呢,我们再来看一下reer的使用场景啊,来看这段话就可以啊,那他这说随着企业业务的拓展啊,那企业可能会在多用户环境中运行多个。
01:57
工作任务对吧?那这句话怎么理解呀,我就以咱这个数仓为例啊,给大家简单解释一下啊,大家都知道咱数仓当中所有的数据都存储在HDFS上,没错吧?啊,那现在我们先来看一下这个多用户到底是什么意思啊,其实多用户呢,就是说啊,访问HDFS上数据的用户呢,它不止一个。
02:18
啊,这个其实不难理解啊,至少我们大数据组的每一位同事是不是都会去访问HDFL数据文件呀,没错吧?啊,那接下来呢,我们再来看一下这个多工作任务,哎,是什么意思啊,大家都知道啊,咱们数仓里边的查询引擎是不是有多个?对吧?啊,Haveve是不是可以查看h Di数据文件对不对,那麒麟是不是也可以,那pres是不是也是可以的呀,没错吧?啊,那所以说哎,我们整个大数据集群当中呢,就可能会去运行have的计算任务,也可能会运行麒麟的计算任务,也可能会运行price的计算任务,能理解吧?啊,那我们要想去做哎权限管理啊,那你说这些查询引擎是不是都得做出相应的配置啊?
03:00
没错吧啊,我们需要去配置哪些用户可以通过hi去访问HL文件,哪些用户可以通过麒麟去访问HL文件等等等等,那每个查询引擎它的安全管理配置风格可能都不同,对不对?我们逐个去配的话呢,这个会比较麻烦,所以说呢,我们这时候就需要一个框架,对整个大数据集群当中的哎,各种查询引擎的安全访问策略进行集中的管理,那rangeer呢,就正好能够满足我们的需求,那接下来呢,我们再来看一下rangeer的目标啊,其实就是rangeer的几个功能点啊来我们现在先看第一个,就rangeer它能干啥呢?Rangeer它啊,允许用户使用UI或者是API对所有和安全相关的任务进行集中化的管理,那这句话呢,给我们突出来一个点,其实就是啥,其实就是这个rer使用接口对不对啊uiui就是它会给我们提供一个外部页面,那除了外部页面还提供什么呀。是提供了一个CPI啊,对吧?CPI这个东西大家应该已经不再陌生了吧?啊,就好比我们之前的麒麟对吧?我们学习麒麟的时候,是不是也是有一个外部页面作为我们的工作界面,那除了web页面它还有啥?是不是也有CPI啊,对吧?是这样的啊,OK,那现在往下走看这。
04:14
嗯,他说允许用户使用一个管理工具啊,这个其实重点的应该是一个对吧?啊,允许使用用户使用一个管理工具啊,对操作啊,我们整个拍度体系当中的这个组件和工具进行啊这个呃细力度的这个授权啊,那这个怎么去理解啊,什么叫做系力度的授权,这个系体现在什么地方啊,我举一个具体的例子啊,那刚才我们看到了,我们可以使用reer去管理我们用户对have的这个访问权限,对不对啊,那我们访问have的时候,我们重点访问的是什么资源,就是呃库表对不对,以及里边的字段呀,对吧?OK,那我们的这个reer呢,它能够精确到,诶对字段的这个访问控制,也就是他能够精确到,比如说张三能够访问我们数仓当中的某一张表当中的某一个字段,其余字段我不让他访问,它是可以到这个力度的啊,OK啊,接来我们就往下头啊,那下面这个支持hi度体系当中各个组件的授权认证标准啊,那刚刚我们看到了,对。
05:15
是支持我们。嗯,那这个论证呢,增强了对不同业务场景需求的授权方法支持啊,那它都支持哪些授权模式呢?我们来看一下,它基于它这是这样的啊,首先一个基于角色的授权管理啊,或者是基于属性的授权管理,这其实就是几个不同的权限管理模型,那当然呢,我们通常情况下用的更多的还是还是这个基于角色的授权管理啊,那在后边呢,我会给大家去详细的去介绍一下ranger当中的这个基于角色的授权管理的啊,其实就是一个授权管理模型啊,后边咱们再说啊,那接下来我们再看这个。
06:06
这个其实也是比较重要的一个功能啊,你看ER还支持啥,Rangeer是不是还是还支持对hi doop组件当中所有涉及安全的审计行为的集中化管理啊,这个怎么理解?怎么理解什么叫涉及安全的审计行为,这是啥意思啊,其实很简单啊,说白了就是相当于是我们的访问日志,就是论证呢,它能够帮我们去记录,就是哪些人在什么时候访问了我们这个数仓当中的什么资源啊,比如说张三啊,在昨天,呃,下午两点钟的时候访问了我们数仓当中的某一张表等等等等,诶,他能够去记录这些,呃,这个访问记录啊,是这样的啊,那这样一来,如果说我们的数据出现了什么安全事故,是不是可以根据这些审计日志去进行这个排查,对吧?啊,咱们能定位到,诶这个破坏到底谁做的对吧?是这样的啊OK,那这个呢,就是ranger的几个功能啊好,那么之后我们再往下简单看一下,下面呢是ranger所支持的框架,那这个框架呢,光是我们已经看到了啊,那此处呢,我就不再一一介绍了啊好,接下来我们再往下看看一下这个ranger的架构啊,这个ranger架构呢,其实也不是特别的复杂啊,简单说一下啊,首先我们先来看一下中间这个位置,这其实是咱们这个ranger的核心组件。
07:21
它叫做什么呢?叫做ranger andinrin,其实这个rin呢,它也是一个外部程序,是一个外部应用,就是它呢会为我们提供一个外部页面啊,是这样的啊OK,那我们先来简单介绍一下这个renderin它到底啊具备哪些功能啊,首先我们先来看一下啊,Renderin呢,它给我们提供了两个使用接口,对不对,一个是web UI啊,一个呢,就是它那个RACPI啊,我们其实使用reer的时候,是不是就需要通过这样的两个用户界面去跟进行交互啊,对吧?是这样的,当然我们通常情况下使用就是外BUI啊,除非啊你觉得诶我这个外BUI确实比较难用,不好用,那你可以考虑使用啥,是不是可以考虑使用re PI,然后我们自己进行一个二次开发啊,二次的包装也是可以的呀,对吧?啊,这个咱们理解一下啊,OK啊好,那完了之后呢,我们再来看一下这个R面其余的功能啊,那大家来看一下啊,那R的面in,哎,它有一个箭头指向了DB,对吧,DB是不是就是咱们的数据库啊对吧?关键数据库那这个DB里边存储的。
08:21
治什么呢?哎,大家可以看一下这是啥。Policy对吧,什么叫policy,是不是就是策略对不对,什么策略呀。咱们要知道这是干啥的,这是干啥的,是不是做权限管理的对不对,那这里边是不是存储的就是权限管理的策略啊,对吧?啊,也就是我们自己配置的这个权限管理的策略啊,比如说张三能够访问哪张表,李四不能访问哪张表,这是都是咱们所谓的授权管理的策略啊,对吧?这些策略会存储在数据库当中,OK啊,那完之后我们再往上走,这儿呢,还有一个叫做solar的一个,呃,组件啊,这个sor大家可能不是那么的熟悉啊,简单给大家介绍一下这个sor是啥呀。
09:00
啊,Sor呢,其实是一个企业级的这个呃搜索引擎啊,搜索引擎当然呢,也能够去存储数据啊,那它的呃最大的这个优点呢,就是能够去建立比如说呃各种各样的索引,然后呢,去方便我们去进行这个呃检索,方便我们检索是这样的啊OK,那这个sor当中它存储的是什么呢?大家来看一下这是啥呀。这其实就是我们刚才所提到的那个安全审计录制啊,是这样,也就是我们各个用户对我们这个数据资源的一个访问记录,对吧?诶都会存储在这个sor当中,他为什么要存储在sor当中呢?是不是为了方便检索呀,对吧,是这样的啊,因为刚才提到了这个sor,它是一个企业级的一个搜索引擎啊,是这样的啊,咱们理解一下啊好,那完了之后呢,我们再往后看,后边呢,还有一个箭头,它指向了一个啥,是不是指向了一个plug in,是不是又插件,对不对,那插件又指向了似的。是不是指向了海度的组件啊,对吧?诶,这其实怎么回事呢?给大家简单说一下,从这儿呢,其实我们就能够看出来这个rer呢,它的工作原理就ER工作原理是这样的,刚才我们提到了rer,它是不是支持各个组件的这个权限管理,对不对?那它怎么去支持各个组件权限管理呢?是这样的,它会为每一个组件准备一个插件啊,那我们想使用rangeer对哪个组件进行权限管理,那你就去把对应的插件去安装到我这个组件当中,比如说举个例子啊,我现在需要使用ranger去管理have,那你就需要怎么做,是不是需要拿到一个R当中的have插件,然后把这个have插件安装到我们这个have里边啊,对吧?OK,诶,那这样一来呢,我们ER就能够去管理这个have的这个权限了,是这么一回事啊,那每个组件都需要去配置一个插件啊,OK啊,那这个呢,就是我们哎ER的这个一个完整的架构啊,那从这呢,我们哎大概就能哎总结出来啊,那简单看一下啊,首先我们要想使用ER呢,咱们需要干啥,是不是需要通过它的。
10:54
对吧,是外部页面对吧?通过态外部页面去进行使用,当然我们使用它主要就是干啥,是不是就是做权限管理对不对,也就是我们需要在外部页面上去做很多的这个,呃权限授权策略对不对,比如说谁能访问哪哪个表,谁不能访哪个表等等,哪咱是不是需要在页面上进行相应的配置啊,对吧?那你配完之后这些策略会存到哪,是不存到数据库当中啊,是这个道理吧?啊OK啊,那你配完之后,那我们是不是这个呃权限管理就会生效啊对吧?啊OK,那生效之后呢,那随着我们这个用户去使用我们这个目标的组件啊,那我在使用的过程当中呢?诶其实这个ranger它能够帮我们去记录啥,是不是记录我们这个访问记录啊,对吧,那记录完之后放在哪,是不是就放在这个sor当中啊,是这样的啊,然后你刚才也提到了,诶,就是我们这个rer原理是什么样的呢?诶,它会为我们的每一个排度和组件提供一个所谓的插件,对吧?那我们如果说想用reer去管理该组件,那我们就需要将对应的插件安装到对应的组件当中啊,是这样的啊好,那这个呢。
11:54
讲这个RR的完整架构啊,行,那完之后我们再往下走,下面是不是有一个RR的工作原理啊,对吧,其实这个R的工作原理啊,跟我刚才在这个讲这个架构的过程当中所描述的这个呃,流程是一样的,所以这个原理这块呢,我们就不再看了啊OK,好,那render的概述我们就讲完了啊来,我把视频停一下啊。
我来说两句