腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Hadoop实操
专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏成员
举报
974
文章
2437402
阅读量
707
订阅数
订阅专栏
申请加入专栏
全部文章(974)
hive(209)
其他(200)
github(175)
专用宿主机(165)
hadoop(161)
大数据(141)
kerberos(120)
sql(115)
https(99)
数据库(98)
spark(96)
apache(70)
git(56)
hbase(54)
node.js(53)
云数据库 SQL Server(52)
java(49)
yarn(49)
开源(47)
api(46)
kafka(38)
python(35)
parcel(34)
http(31)
编程算法(30)
TDSQL MySQL 版(29)
存储(29)
网络安全(28)
jdbc(26)
访问管理(25)
xml(23)
腾讯云测试服务(23)
shell(22)
linux(21)
jdk(21)
bash(20)
lucene/solr(17)
bash 指令(17)
ssh(17)
mapreduce(15)
dns(15)
网站(14)
负载均衡(13)
html(13)
打包(13)
jar(13)
安全(13)
windows(13)
postgresql(12)
负载均衡缓存(12)
zookeeper(12)
文件存储(11)
tcp/ip(11)
数据(11)
容器(10)
oracle(9)
flink(9)
机器学习(8)
json(8)
windows server(8)
nginx(8)
容器镜像服务(8)
人工智能(7)
数据分析(7)
DNS 解析 DNSPod(6)
javascript(6)
深度学习(6)
云推荐引擎(6)
kubernetes(6)
数据迁移(6)
SSL 证书(5)
企业(5)
缓存(5)
erp(5)
anaconda(5)
数据处理(5)
tensorflow(4)
scala(4)
maven(4)
神经网络(4)
分布式(4)
jvm(4)
面向对象编程(4)
unity(4)
rpc(4)
ntp(4)
配置(4)
单片机(3)
嵌入式(3)
access(3)
ide(3)
unix(3)
数据备份(3)
yum(3)
微信(3)
c++(2)
jquery(2)
全文检索(2)
批量计算(2)
云数据库 MySQL(2)
ftp(2)
物联网(2)
sas(2)
nat(2)
腾讯云开发者社区(2)
云数据库 postgresql(2)
云计算(2)
Elasticsearch Service(2)
impala(2)
session(2)
string(2)
对象(2)
服务(2)
集群(2)
接口(2)
客户端(2)
内存(2)
同步(2)
文件系统(2)
云服务器(1)
官方文档(1)
ios(1)
c 语言(1)
php(1)
go(1)
actionscript(1)
css(1)
android(1)
nosql(1)
mvc(1)
flask(1)
eclipse(1)
搜索引擎(1)
ubuntu(1)
centos(1)
apt-get(1)
spring(1)
归档存储(1)
云数据库 MongoDB(1)
数据库一体机 TData(1)
消息队列 CMQ 版(1)
数据加密服务(1)
流量服务(1)
mongodb(1)
vr 视频解决方案(1)
express(1)
devops(1)
自动化(1)
运维(1)
html5(1)
决策树(1)
npm(1)
grep(1)
jenkins(1)
spring cloud(1)
socket编程(1)
数据可视化(1)
微服务(1)
nest(1)
任务调度(1)
密钥管理服务(1)
jupyter notebook(1)
分类算法(1)
ascii(1)
ipv6(1)
迁移(1)
负载测试(1)
智能客服机器人(1)
数据湖(1)
add(1)
client(1)
cloud(1)
com(1)
daemon(1)
databricks(1)
datasource(1)
dfs(1)
eof(1)
exit(1)
gateway(1)
grafana(1)
h2(1)
hana(1)
hdfs(1)
heap(1)
host(1)
io(1)
kill(1)
ldap(1)
monitoring(1)
mysql(1)
openldap(1)
private(1)
project(1)
queue(1)
replication(1)
sap(1)
status(1)
tabular(1)
visualization(1)
window(1)
worker(1)
布局(1)
部署(1)
测试(1)
队列(1)
管理(1)
架构(1)
脚本(1)
开发(1)
连接(1)
命令行(1)
生命周期(1)
协议(1)
性能(1)
异常(1)
优化(1)
主机(1)
标签(1)
搜索文章
搜索
搜索
关闭
0859-7.1.6-如何对Ranger审计日志进行调优
大数据
lucene/solr
什么是Ranger Audit?Ranger 审计功能 ,审计功能模块可以帮助我们更好的管理集群组件,例如 HDFS、HBase、Hive 等数据资源的访问,更快的定位权限导致的应用问题。并且使用 Ranger 控制权限的同时也可以很好地监控、查询用户的历史操作,做到有证可查,有理可依。
Fayson
2021-07-28
2.1K
0
0803-什么是Apache Ranger - 5 - Hive Plugin
kafka
apache
大数据
lucene/solr
hive
《0800-什么是Apache Ranger - 4 - Resource vs Tag Based Policies》
Fayson
2020-08-20
1.4K
0
0742-什么是Apache Ranger - 2
大数据
apache
hive
kafka
lucene/solr
作者:Eric Lin (林晨辉), Cloudera高级售后技术支持工程师。毕业于Monash大学计算机科学, Sir John Monash的奖学金获得者。曾就业于数据收集公司如Hitwise(现为Experian的子公司)和Effective Measure,担任高级工程师,负责设计,开发和管理用于采集, 处理和报告网络数据的平台(基于PHP,Java和CDH)。现任职Cloudera, 担任高级售后技术支持工程师,主要擅长解决在CDH生态系统中出现的各种疑难杂症。
Fayson
2020-02-10
1.3K
0
0504-使用Pulse为数据管道实现主动告警
lucene/solr
apache
专用宿主机
javascript
https
2017年年中,我们与世界上最大的医疗保健公司中的一家合作,将新的数据应用投入生产。这家公司通过收购其他公司来进行扩张,为了保持对FDA的合规性,他们需要从公司的数十个不同部门实时汇总数据。这个应用程序的消费者并不关心我们如何构建数据管道。他们关心的是如果数据管道出问题了,导致最终用户没有获得他们的数据,这家公司将因为无法满足合规可能遭受巨额罚款。
Fayson
2019-11-28
721
0
全文搜索引擎选ElasticSearch还是Solr?
Elasticsearch Service
lucene/solr
apache
搜索引擎
开源
最近项目组安排了一个任务,项目中用到了全文搜索,基于全文搜索 Solr,但是该 Solr 搜索云项目不稳定,经常查询不出来数据,需要手动全量同步,而且是其他团队在维护,依赖性太强,导致 Solr 服务一出问题,我们的项目也基本瘫痪,因为所有的依赖查询都无结果数据了。所以考虑开发一个适配层,如果 Solr 搜索出问题,自动切换到新的搜索--ES。
Fayson
2019-11-28
1K
0
0703-6.2.0-使用Sentry为Solr进行赋权
kerberos
lucene/solr
访问管理
xml
文件存储
在CDH中,Sentry服务是一个基于角色授权的管理组件,通常我们将Sentry用来管理Hive、Impala等组件,但是同样的,Sentry也可以为Solr提供基于角色的细粒度授权,在启用Sentry后,可以对各种操作进行权限上的限制,无论对数据的访问是来自命令行、浏览器还是Hue,都会基于授予的角色拥有的权限来进行管理和限制。要注意的是,启用Sentry对Solr进行权限控制前需要先启用Kerberos,本文档将介绍如何使用Sentry对Solr进行赋权。
Fayson
2019-09-25
907
0
0701-6.2.0-使用Solr7对结构化csv文件建立全文索引
lucene/solr
文件存储
全文检索
专用宿主机
http
在上一篇《6.2.0-使用Solr7对多种格式文件建立全文索引》中介绍了如何在CDH6.2.0中使用Solr7对多种格式的文件进行全文索引,测试中使用的主要是非结构化的word、ppt、pdf等非结构化的数据,很多时候需要使用Solr对结构化的数据进行索引,根据其中某些字段进行精准的查询或者范围查询,本文档将介绍如何使用Solr对csv文件建立全文索引。
Fayson
2019-09-18
1.2K
0
0700-6.2.0-使用Solr7对多种格式文件建立全文索引
lucene/solr
xml
专用宿主机
jar
java
Solr是一个开源搜索平台,用于构建搜索应用程序。它建立在Lucene(全文搜索引擎)之上。Solr是企业级的,快速的和高度可扩展的。使用Solr构建的应用程序非常复杂,可提供高性能 。它提供了层面搜索(就是统计)、命中醒目显示并且支持多种输出格式(包括XML/XSLT 和JSON等格式),并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。Solr7要求JDK为1.8以上。在Solr7版本中新增了跨核(solr 跨核概念,是建立在solr存储方式的基础上,因为使用solr前必须创建Core,Core即为solr的核,那不同的业务有可能在不同的核中,之前版本是不支持跨核搜索的)搜索功能。本文主要介绍如何在CDH6.2.0集群中使用Solr7对多种格式的文件建立全文索引。
Fayson
2019-09-18
1.8K
0
0633-6.2.0-什么是Apache Sentry
大数据
hadoop
lucene/solr
hive
Apache Sentry是Hadoop中的一个基于角色的细粒度授权组件。Sentry可以在Hadoop集群上对通过身份认证的用户和应用程序控制数据访问权限。Sentry开箱即用的支持Hive,Hive Metastore/HCatalog,Solr,Impala,HDFS(仅限Hive表数据),Kafka和Kudu(通过Impala)。
Fayson
2019-05-21
1K
0
0617-6.1.0-使用Sentry给Solr的collection赋予Query权限后查询异常分析
专用宿主机
lucene/solr
apache
文件存储
Sentry在CDH平台中定位为统一的授权框架,即所有的组件都要受Sentry的管理,当然也是为了方便用户的操作,一个入口为所有数据相关进行授权。Solr作为CDH的关键组件之一也不例外,安全授权同样受到Sentry的管理。在前面的文章中,Fayson介绍过Sentry与Solr如何结合使用,参考《0294-如何使用Sentry为Solr赋权》,《0301-使用命令行创建collection时Sentry给Solr赋权的问题》和《0304-如何在Hue中使用Sentry为Solr赋权》。但在CDH5中,Solr的版本较低是4.10.3,而CDH6的Solr是7.4,Solr的更新较大,在使用上也会有些差别。
Fayson
2019-05-14
904
0
如何使用Sentry为Solr赋权
lucene/solr
github
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- Sentry在CDH平台中定位为统一的授权框架,即所有的组件都要受Sentry的管理,当然也是为了方便用户的操作,一个入口为所有数据相关进行授权。Fayson在前面的文章中介绍了大量Sentry与Hive/Impala的集成文章,其实Sentry除了可以给Hive/Impala表
Fayson
2018-07-12
994
0
如何在Kerberos下使用Solr
kerberos
lucene/solr
github
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看
Fayson
2018-07-12
1.7K
0
如何使用Lily HBase Indexer对HBase中的数据在Solr中建立索引
hbase
lucene/solr
github
存储
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 上一篇文章Fayson介绍了《如何使用HBase存储文本文件》,我们将文本文件存储到HBase中,文件名作为HBase表的Rowkey,每个文件转为二进制字节流存储到HBase表的一个column中。我们可以通过Rowkey来查询这些数据,但是我们却没办法实现这些文本文件的全文索引
Fayson
2018-07-12
4.8K
0
如何使用Flume准实时建立Solr的全文索引
lucene/solr
github
json
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- Fayson在上篇文章《如何在CDH中使用Solr对HDFS中的JSON数据建立全文索引》简单介绍了Solr,然后利用Cloudera提供的Morphline工具通过创建MapReduce可以实现对HDFS中的半/非结构化数据的批量建立全文索引。本文主要介绍如何使用Mor
Fayson
2018-07-12
1.6K
0
如何在CDH中使用Solr对HDFS中的JSON数据建立全文索引
lucene/solr
json
github
java
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- Solr是一个高性能,采用Java开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。SolrCloud是Sol
Fayson
2018-07-12
5.9K
0
Cloudera Enterprise 6 Beta发布
apache
hadoop
unity
专用宿主机
lucene/solr
盼星星盼月亮,C6终于来了,虽然是Beta,但没关系,至少可以玩起来了,对吧,哈哈。Cloudera在北京时间5月16日的半夜,在其社区(community.cloudera.com)对外宣布发布Cloudera Enterprise 6,Beta。咱们在5月没有等到CDH5.15,等到C6 beta也是不错的嘛。 C6相较于C5是一次各个组件的大版本升级,可以说是翻天覆地的,简单说你以前期待的Hadoop3的一些激动人心的新功能,C6统统都有了。这次更新是一次革命性的,举世无双的,前无古人后无来者的,是对
Fayson
2018-07-12
696
0
如何为Hadoop集群选择正确的硬件
hadoop
hbase
TDSQL MySQL 版
lucene/solr
存储
当我们想搭建一个Hadoop大数据平台时,碰到的第一个问题就是我们到底该如何选择硬件。
Fayson
2018-03-29
3.5K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档