首页
学习
活动
专区
工具
TVP
发布

Hadoop实操

专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏成员
974
文章
2437402
阅读量
707
订阅数
0859-7.1.6-如何对Ranger审计日志进行调优
什么是Ranger Audit?Ranger 审计功能 ,审计功能模块可以帮助我们更好的管理集群组件,例如 HDFS、HBase、Hive 等数据资源的访问,更快的定位权限导致的应用问题。并且使用 Ranger 控制权限的同时也可以很好地监控、查询用户的历史操作,做到有证可查,有理可依。
Fayson
2021-07-28
2.1K0
0803-什么是Apache Ranger - 5 - Hive Plugin
《0800-什么是Apache Ranger - 4 - Resource vs Tag Based Policies》
Fayson
2020-08-20
1.4K0
0742-什么是Apache Ranger - 2
作者:Eric Lin (林晨辉), Cloudera高级售后技术支持工程师。毕业于Monash大学计算机科学, Sir John Monash的奖学金获得者。曾就业于数据收集公司如Hitwise(现为Experian的子公司)和Effective Measure,担任高级工程师,负责设计,开发和管理用于采集, 处理和报告网络数据的平台(基于PHP,Java和CDH)。现任职Cloudera, 担任高级售后技术支持工程师,主要擅长解决在CDH生态系统中出现的各种疑难杂症。
Fayson
2020-02-10
1.3K0
0504-使用Pulse为数据管道实现主动告警
2017年年中,我们与世界上最大的医疗保健公司中的一家合作,将新的数据应用投入生产。这家公司通过收购其他公司来进行扩张,为了保持对FDA的合规性,他们需要从公司的数十个不同部门实时汇总数据。这个应用程序的消费者并不关心我们如何构建数据管道。他们关心的是如果数据管道出问题了,导致最终用户没有获得他们的数据,这家公司将因为无法满足合规可能遭受巨额罚款。
Fayson
2019-11-28
7210
全文搜索引擎选ElasticSearch还是Solr?
最近项目组安排了一个任务,项目中用到了全文搜索,基于全文搜索 Solr,但是该 Solr 搜索云项目不稳定,经常查询不出来数据,需要手动全量同步,而且是其他团队在维护,依赖性太强,导致 Solr 服务一出问题,我们的项目也基本瘫痪,因为所有的依赖查询都无结果数据了。所以考虑开发一个适配层,如果 Solr 搜索出问题,自动切换到新的搜索--ES。
Fayson
2019-11-28
1K0
0703-6.2.0-使用Sentry为Solr进行赋权
在CDH中,Sentry服务是一个基于角色授权的管理组件,通常我们将Sentry用来管理Hive、Impala等组件,但是同样的,Sentry也可以为Solr提供基于角色的细粒度授权,在启用Sentry后,可以对各种操作进行权限上的限制,无论对数据的访问是来自命令行、浏览器还是Hue,都会基于授予的角色拥有的权限来进行管理和限制。要注意的是,启用Sentry对Solr进行权限控制前需要先启用Kerberos,本文档将介绍如何使用Sentry对Solr进行赋权。
Fayson
2019-09-25
9070
0701-6.2.0-使用Solr7对结构化csv文件建立全文索引
在上一篇《6.2.0-使用Solr7对多种格式文件建立全文索引》中介绍了如何在CDH6.2.0中使用Solr7对多种格式的文件进行全文索引,测试中使用的主要是非结构化的word、ppt、pdf等非结构化的数据,很多时候需要使用Solr对结构化的数据进行索引,根据其中某些字段进行精准的查询或者范围查询,本文档将介绍如何使用Solr对csv文件建立全文索引。
Fayson
2019-09-18
1.2K0
0700-6.2.0-使用Solr7对多种格式文件建立全文索引
Solr是一个开源搜索平台,用于构建搜索应用程序。它建立在Lucene(全文搜索引擎)之上。Solr是企业级的,快速的和高度可扩展的。使用Solr构建的应用程序非常复杂,可提供高性能 。它提供了层面搜索(就是统计)、命中醒目显示并且支持多种输出格式(包括XML/XSLT 和JSON等格式),并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。Solr7要求JDK为1.8以上。在Solr7版本中新增了跨核(solr 跨核概念,是建立在solr存储方式的基础上,因为使用solr前必须创建Core,Core即为solr的核,那不同的业务有可能在不同的核中,之前版本是不支持跨核搜索的)搜索功能。本文主要介绍如何在CDH6.2.0集群中使用Solr7对多种格式的文件建立全文索引。
Fayson
2019-09-18
1.8K0
0633-6.2.0-什么是Apache Sentry
Apache Sentry是Hadoop中的一个基于角色的细粒度授权组件。Sentry可以在Hadoop集群上对通过身份认证的用户和应用程序控制数据访问权限。Sentry开箱即用的支持Hive,Hive Metastore/HCatalog,Solr,Impala,HDFS(仅限Hive表数据),Kafka和Kudu(通过Impala)。
Fayson
2019-05-21
1K0
0617-6.1.0-使用Sentry给Solr的collection赋予Query权限后查询异常分析
Sentry在CDH平台中定位为统一的授权框架,即所有的组件都要受Sentry的管理,当然也是为了方便用户的操作,一个入口为所有数据相关进行授权。Solr作为CDH的关键组件之一也不例外,安全授权同样受到Sentry的管理。在前面的文章中,Fayson介绍过Sentry与Solr如何结合使用,参考《0294-如何使用Sentry为Solr赋权》,《0301-使用命令行创建collection时Sentry给Solr赋权的问题》和《0304-如何在Hue中使用Sentry为Solr赋权》。但在CDH5中,Solr的版本较低是4.10.3,而CDH6的Solr是7.4,Solr的更新较大,在使用上也会有些差别。
Fayson
2019-05-14
9040
如何使用Sentry为Solr赋权
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- Sentry在CDH平台中定位为统一的授权框架,即所有的组件都要受Sentry的管理,当然也是为了方便用户的操作,一个入口为所有数据相关进行授权。Fayson在前面的文章中介绍了大量Sentry与Hive/Impala的集成文章,其实Sentry除了可以给Hive/Impala表
Fayson
2018-07-12
9940
如何在Kerberos下使用Solr
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看
Fayson
2018-07-12
1.7K0
如何使用Lily HBase Indexer对HBase中的数据在Solr中建立索引
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 上一篇文章Fayson介绍了《如何使用HBase存储文本文件》,我们将文本文件存储到HBase中,文件名作为HBase表的Rowkey,每个文件转为二进制字节流存储到HBase表的一个column中。我们可以通过Rowkey来查询这些数据,但是我们却没办法实现这些文本文件的全文索引
Fayson
2018-07-12
4.8K0
如何使用Flume准实时建立Solr的全文索引
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- Fayson在上篇文章《如何在CDH中使用Solr对HDFS中的JSON数据建立全文索引》简单介绍了Solr,然后利用Cloudera提供的Morphline工具通过创建MapReduce可以实现对HDFS中的半/非结构化数据的批量建立全文索引。本文主要介绍如何使用Mor
Fayson
2018-07-12
1.6K0
如何在CDH中使用Solr对HDFS中的JSON数据建立全文索引
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- Solr是一个高性能,采用Java开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。SolrCloud是Sol
Fayson
2018-07-12
5.9K0
Cloudera Enterprise 6 Beta发布
盼星星盼月亮,C6终于来了,虽然是Beta,但没关系,至少可以玩起来了,对吧,哈哈。Cloudera在北京时间5月16日的半夜,在其社区(community.cloudera.com)对外宣布发布Cloudera Enterprise 6,Beta。咱们在5月没有等到CDH5.15,等到C6 beta也是不错的嘛。 C6相较于C5是一次各个组件的大版本升级,可以说是翻天覆地的,简单说你以前期待的Hadoop3的一些激动人心的新功能,C6统统都有了。这次更新是一次革命性的,举世无双的,前无古人后无来者的,是对
Fayson
2018-07-12
6960
如何为Hadoop集群选择正确的硬件
当我们想搭建一个Hadoop大数据平台时,碰到的第一个问题就是我们到底该如何选择硬件。
Fayson
2018-03-29
3.5K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档