在大数据平台中,有海量数据存储,通畅在采集数据过程中敏感数据有意或者无意的进入大数据平台中,数据安全管理非常重要。我们不希望一些敏感数据被他人访问,希望可以按照一种规则给部分人访问权限,以防止数据泄露,针对数据安全管理可以使用Apache Ranger实现。
Apache Ranger提供一个集中式安全管理框架, 并解决授权和审计。它可以对Hadoop生态的组件如HDFS、YARN、Hive、HBase等进行细粒度的数据访问控制。通过Ranger统一的管理控制台界面,管理员可以轻松的通过配置策略来控制用户访问权限,并且可以对用户的行为日志进行统一的审计管理。
我们可以通过Ranger提供的UI界面或者Rest API来管理所有与安全性相关的任务,可以使用管理工具来对Hadoop体系中的组件进行授权。Ranger优点如下:
Ranger官网:Apache Ranger – Introduction
Ranger架构如下:
Ranger实现安全管理的核心就是Ranger-admin,是一个web服务,对外提供Restful风格的http服务,内嵌了jsp界面,用于管理用户、资源、权限等信息。
几乎所有的大数据组件都提供了抽象的验证接口,Ranger就是根据这些接口为各个大数据组件实现了对应的Plugin,有了这些Plugin,Ranger可以轻松实现对大数据组件权限控制访问,Plugin的工作主要是从Ranger-Admin处拉取该组件配置的所有策略,然后缓存到本地,当有用户来请求时提供鉴权服务。