00:00
好,那现在呢,我们就进入到了数据仓库当中的数据安全模块了啊,那数据安全的概念应该不难理解啊,那各位同学呢,应该都能懂啊,那现在呢,我们先简单思考一下啊,就是咱现在这个数仓当中的数据,它是否是安全的?啊,其实这个呢,并不安全啊,为什么咱们简单来分析一下。首先啊,那我们这儿是不是有一个hidoop的HDFS的外B页面呀,对吧,那在这儿,比如说我打开HIDOOP102冒号,诶9870,那呃,当然我这个海毒鬼应该是没起啊,那我我应该是没起啊,昨天咱们应该是把它全关了,对吧?没有啊,那没有的话,假如说我们现在起了啊,起了之后此处是不是应该能打开一个那个外部页面,对吧?打开外部页面之后,我们是不是能去浏览并且操作我们整个HDFS文件系统上的所有文件,对不对,那我除了能删,我还能改对不对,比如说我删了,我再重新创建一个错误的等等等,是不是只要能访问这个页面,我不管你是谁,我是不是都能够去操作这个页面上的所有内容啊,是这样的吧啊,那而且我们去操作这个页面上的文件的内容的时候啊,我们是以谁的身份去操作的。
01:12
是以谁的身份呀?啊,这个以谁的身份大家应该得看谁,得看我们自己那个op的配置对吧?我们进的op moop etcop这个配置文件的路径打开,这应该是有一个Co对吧?Co里边呢,咱们有一个什么参数啊,我们找一下诶是不是有一个这样的参数,Http static user特硅谷这个指的是什么?这是不是说了使用这个HDFS页面啊,这个浏览文件系统的时候呢,默认登录的用户呢,就是艾特硅谷,那艾特硅谷用户实际上是我们HDSS文件系统的什么用户啊,超级用户啊,HDFS文件系统的超级用户是由什么决定的?不是由配置决定的,这个由什么决定?给大家说一下啊,你是由你启动这个HDSS进程的用户决定的,哎,你是哪个用户启动的HDFS进程,那哪个用户就是这个HDFS文件系统的超级用户,那我们是不是都是用APP硅谷用户起的对吧?那所以说爱硅谷用户就是这个HDSS文件系统的超级用户啊,而我们在访问这个web页面的时候,是不是也是以APP硅谷用户的身份去访问的,所以说我们相当于用超级用户的身份去访问这个文件系统,那所以说你可以对文件做任意的操作,这个显然是不安全的,对吧?显然是不安全的啊,那除了这个位置,那我们再回忆一下,之前我们使用data GR去连接,还有的时候咱们所做的操作,咱们在配置那个呃,JDBC连接的时候,我们是不是当时只输了一个主机名端口号,再输了一个用户名,有密码吗。
02:49
根本就没有密码对吧,是不是直接就连上了,连上之后是不是就可以做各种访问了,对不对,那你访问包括我读,包括我删,包括我写是不是都能做对不对,所以说这个显然也是不安全的啊是这样的啊,那如何去保证这个数据的安全呢?也就是我们数据安全的工作到底应该包含哪些内容呢?啊这个呢,简单跟大家说一下啊,一般情况下呢,这个数据安全诶主要分为两部分的,这个工作哪两部分啊,一部分我们称之为认证。
03:19
还有一部分呢,称之为啥呀,授权啊,就是用户,呃,数据安全呢,哎,我们主要就是认证加授权,那什么叫做认证,什么叫做授权呀。其个认证很好理解,什么叫认证,认证是不是就是通过哎一些这个身份的凭证去证明自己的身份呀,对吧?啊,你比如说啊,咱们举个例子啊,咱们自己在登录微信或者是登录啊,就是登录你的QQ啊,或者其他的一些东西的时候,你需要干啥呀,是不是需要输入一个账号,输入一个密码,那这样一来你是不是就完成了你这个身份的认证啊,对吧?哎,这就是所谓的认证,认证就是证明自己的身份,OK,那什么叫做授权呢?什么叫授权?
04:00
啊,那首先我们来分析一下啊,是不是我这个认证通过之后,就一定能保障数据的安全,是不是这样的。也不是为啥啊,那如果说只有认证没有授权啊,那也就说你认证通过之后,那你是不是就相当于拥有了对所有数据资源的这个访问权限了,对不对,因为你没有去做后续的其他管理啊,对吧,你只有认证,只有认证,那我进去之后,我是不是还是可以做所有的操作,比如举个例子啊,咱们不是规定了,不是所所有的开发人员都不能访问我们ods层的原始数据吗?对不对,如果说你只有认证,那我是不是所有人认证完之后,诶,我对里边的资源是没有做其他的限制的,对吧,你是不是都可以访问,就是是不是也不能完全保证数据安全呀,对吧?是这样的啊,那授权是干什么用的呢?授权其实就是精确的去控制哪些人可以去访问哪些资源,或者是哪些人他不能访问哪些资源。比如说还是以我们刚才那个ODI层的数据为例啊,我们说了说规定所有人他不能去访问ODI层的数据,对不对,那我们就可以通过什么去实现了,就可以通过这个授权管理去实现,比如说我们规定啊,张三它是不能访问OD的数据的,李四也不能访问O层的数据啊,这就是授权啊,那我们的数据安全呢,就包含这样的两部分工作,一部分呢是认证,一部分呢是授权啊OK,那我们整个海多个生态,咱们的认证和授权通常是由什么去做的呢?诶我们先说认证啊,认证通常是怎么做的,那我现在呢,打开一个hi doop的这个,呃,官网啊,打开度官网之后呢,我们找到这个位置啊,大家来看这儿。
05:38
这是不是有一个secure mode呀,对吧?这个secure翻译过来叫啥?这叫安全模式,当家要注意啊,这个安全模式跟我们之前never no的那个安全模式是一回事吗?不是一回事啊,这个其实但英文呢,从中文来看啊,都是安全模式,对吧?但是从英文上它是不一样的吧,那个叫做什么呀?Name not叫做mode对吧,这个叫secure mode,就是不一样的啊,这个secure mode指的是什么呢?指的就是我们刚刚所提到的这个数据安全的这个安全啊,OK啊,那这篇这个文档当中,他介绍的是什么呢?介绍的就是如何在嗨度和这个生态体系当中启用用户认证,刚才不是提到了吗?说我们的安全包括两部分对吧?一部分认证,一部分授权,那现在我们来看一下这个认证到底怎么做,来这里边内容非常多啊,非常多,光目录就这么多对吧,那我现在呢,先看一下他这个简单的介绍,来我们看一下这一段就可以了,来一起看一下啊,这会儿怎么说呢。
06:34
啊,这个文档他介绍了,或者他描述了,对吧?啊,如何在hiop当中去配置authentic authentic什么意思,是不是就是认证啊,对吧?啊,如何在hi doop当中去开启认证啊,完了之后呢?那当hi doop啊被启用这个安全认证之后,或者是当海豆运行在这个安全模式中之后啊,那海豆op的所有服务。
07:02
以及所有的用户对吧,都得怎么样。都得通过谁进行认证啊,看一下这个东西。这是啥呀?Cur啊,这个cur是什么东西啊,给大家简单介绍一下啊,这个curus呢?呃,当然了,这个单词它来源于哪儿啊,它其实来自于一个,呃,希腊的一个神话啊,呃,这个希腊神话当中呢,这个科斯是一个什么东西呢?啊,不知道大家有没有呃看过啊,就是那个有三个头的一条犬啊,就是三头犬啊,就是那个东西啊呃,对,地于三头犬啊,就是那个科啊,是这样的啊,当然我们这儿学的这个科us呢?呃,跟那个不一样,咱们这要学的这个科沃呢,是一个什么啊,是一个网络认证协议,是一个认证协议啊,这个咱们理解一下,那这个认证协议到底是怎么一回事呢?后续我们会详细给大家去说的啊,那在这儿呢,大家要知道的就是啥,就是说我们这个hidoop的认证是由什么来做的呀,是不是需要通过这个科S去做呀,对吧?啊这是咱们提到的认证相关的内容,那刚才提到了,那数据安全是不是除了认证还有一个授权管理呀,对吧,那授权我们通常情况下用谁。
08:11
谁做呢?哎,授权呢,在这里面呢,我们呃,会有专门的框架去做,会有专门的框架去做啊,那有什么框架呢?啊,那现在用的比较多的一个呢,叫做ranger。啊,Ranger啊,那其实之前呢,还有一个century century加ranger啊,那这两个框架呢,其实都是可以做这个权限管理的啊,这个century是哪个单词啊,T啊,这是century rangeer呢就是R这个JR啊,OK啊,这个century呢,现在呃,已经用的人很少了啊,现在主要用这个ER啊,是这样的啊,那我们在这个项目当中学习的就是rangeer,这个rangeer它能够做什么工作啊,其实就是我们刚才提到那个授权管理的工作,就是我们通过rangeer呢,能够去指明诶,到底哪个人能访问哪部分资源啊,而且呢,这个rangeer它控制的这个权限力度还是比较细的啊,细到什么程度呢?哎,我们可以精确到啊,比如说我让张三去访问DWD,让log当中的某一个字段或者是某两个字段,它可以精确到字段。
09:17
啊,这个呢,还是比较厉害的啊,OK啊,这就是reer它能够实现的一个功能啊OK啊,那现在呢,我就给大家把这个数据安全相关的工作介绍完了啊,一部分认证一部分授权啊,那我们今天呢,先从这个认证开始啊好,我把视频先停一下啊。
我来说两句