首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

在Solr中更新文档时,hdfs空间急剧增加

的原因是Solr使用了Hadoop分布式文件系统(HDFS)作为其默认的存储引擎。当Solr更新文档时,它会将新的文档添加到索引中,并将索引文件写入到HDFS中。

HDFS是一个高容错性、高可靠性的分布式文件系统,它将文件切分成多个块,并在集群中的多个节点上进行存储。当Solr更新文档时,它会创建新的索引文件,并将这些文件写入到HDFS中的一个或多个块中。

由于Solr的索引文件通常比较大,因此每次更新文档都会导致HDFS空间的急剧增加。这是因为Solr会创建新的索引文件,而不是直接在原有的索引文件上进行更新。这种设计可以确保数据的完整性和一致性,并且可以支持并发的读写操作。

为了解决HDFS空间急剧增加的问题,可以考虑以下几个方面:

  1. 定期优化索引:Solr提供了索引优化的功能,可以通过合并多个索引段来减少索引文件的数量,从而减少HDFS的空间占用。可以使用Solr的优化API或者定时任务来执行索引优化操作。
  2. 配置合适的副本数:在Solr的配置文件中,可以设置索引的副本数。通过减少副本数,可以减少索引文件的冗余存储,从而减少HDFS的空间占用。但是需要注意的是,减少副本数可能会影响系统的可靠性和容错性。
  3. 定期清理旧的索引文件:可以设置定期任务来清理旧的索引文件,从而释放HDFS的空间。Solr提供了删除旧索引的API,可以根据时间或者其他条件来删除不再需要的索引文件。

总结起来,Solr在更新文档时会导致HDFS空间急剧增加,这是因为Solr使用HDFS作为存储引擎,并且每次更新都会创建新的索引文件。为了解决这个问题,可以定期优化索引、配置合适的副本数和定期清理旧的索引文件。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

0859-7.1.6-如何对Ranger审计日志进行调优

而在CDP目前的使用存在着部分问题需要处理,Ranger 的审计日志信息存储Solr,出现如Solr数据目录空间占用过高,Solr shard连接超时亦或者如下数据量过大,会导致Ranger Audit...测试环境 1.CDP7.1.6 、启用Kerberos 2.操作步骤 2.1修改Solr存储目录 CDP7.1.5之前的版本,集群Solr 的索引数据文件存储HDFS。...文档没有_ttl_字段和_expire_at_字段,solrconfig.xml ranger_audits config 设置的 updateRequestProcessorChain 的处理器顺序不正确...2.3修改ranger_audits 的shard 的数量 该步骤强烈建议集群安装配置,CDP最新版本CDP7.1.6,ranger_audits 的shards 数量为1,这种情况下容易因硬件故障或者其他因素导致数据丢失的数量...或者CDP 7.1.5之前的版本HDFS 的/solr 目录占用空间大的情况。另外也强烈建议以上的配置集群安装就规划好,通过上述文档的调优,相信可以得到有效的解决。

2K30

Hive作业产生的临时数据占用HDFS空间大问题处理

Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1 文档编写目的 Hive作业在运行时会在HDFS的临时目录产生大量的数据文件...,这些数据文件会占用大量的HDFS空间。...及更高版本默认值为:/tmp/hive/${user.name} 当前Fayson的CDH5.15.0Hive版本为1.1.0,Hive作业的临时或中间数据集HDFS的/tmp/hive/${user.name...3.Linux配置crontab定时任务,脚本如下: [root@cdh3 ~]# chmod +x /opt/cloudera/clean/hive-clean.sh [root@cdh3 ~]...4 总结 1.Hive作业在运行时会将临时或中间结果存储HDFS,如果Hive客户端作业异常退出会导致HDFS上存储的临时数据不能被清除而导致HDFS空间被占用。

7.4K40

0487-CDH6.1的新功能

从CDH6.0到CDH6.1是一次minor version的更新,但更新内容较多,开始接下来的细化功能讨论前,我们先看看几项重点更新的内容: 1.组件版本:Kafka 2.0, Spark 2.4,...注意:源生Solr7.4的Log4j2CDH6.1不包含,CDHSolr使用的是Log4j 1.2.17。...以前,solr.log文件记录了较慢的一些请求。 2.scaling solr的leader-follower模型,当在复制期间leader上检测到全新索引,follower不再提交空索引。...8.如果副本发生故障,则自动添加副本的功能仅当你的索引是保存在HDFS才起作用。它已移植到自动扩展框架,即使其索引位于本地磁盘上,AutoAddReplicas现在也可供所有用户使用。...Oracle的numeric数据或Postgres的numeric或decimal数据,支持avro schema中指定默认precision和scale。

2.4K40

使用FreeIPA为CDP DC集群部署安全

设置KDC页面,依次填写配置相关的KDC信息,包括类型、KDC服务器、KDC Realm、加密类型以及待创建的Service Principal(hdfs,yarn,,hbase,hive等)的更新生命期等...Hdfs验证 1) FreeIPA系统已经存在admin用户,使用admin用户认证后,访问hdfs正常。Kdestroy掉已有的凭据,hdfs访问报权限问题,无法访问。...Hue验证 使用admin用户hue执行hive和访问hdfs ? ? 使用admin用户往/user目录上传文件失败,用户没有权限。 ?...2) CDP数据中心版上使用Kerberos认证也变得更加简单,例如beeline连接串不需要写凭据等。 3) CDP数据中心版界面向导性更强。...解决方案: /etc/krb5.conf增加: ticket_lifetime = 24h renew_lifetime = 7d forwardable = true 然后重启hue服务即可

1.6K10

Solr学习笔记 - 关于近实时搜索

当客户端更新请求包含commit=true参数,这将确保索引更新完成后,所有添加和删除操作影响的索引段都被写入磁盘。...这些设置将控制挂起的更新自动推送到索引的频率。autoCommit交的另一种选择是使用commitWithin,它可以Solr发出更新请求定义。或在更新请求程序。 maxDocs。...当重建索引进行update检测时,保持最大版本的bucket的数量;增加这个值可以减少大容量索引期间同步访问版本桶的成本,这需要每个Solr核心的堆空间(8 bytes (long) * numVersionBuckets...发生不适当的关闭(电源丢失、JVM崩溃、kill -9等),任何写入tlog但在Solr停止还没有通过hard commit提交的文档都将在启动重新播放。因此数据不会丢失。...当Solr被优雅地关闭(使用bin/Solr stop命令),Solr将关闭tlog文件和索引段,因此启动不需要重播。 令人困惑的一点是事务日志包含多少数据。

4.5K10

0862-CDP Private Cloud Base 7.1.7正式GA

当 doAs = false ,超级用户“hive”将是指定存储创建表的用户,这样创建表使用的是hive用户的授权,而不是发出“create/alter table”命令的原始用户的授权。...Ranger audits最长保留天数的配置选项 当用户和组从同步源(UNIX、LDAP、AD 或 PAM)删除,Usersync服务会更新Ranger。...这样可以确保用户和组及其相关访问权限在从同步源删除不会保留在Ranger。 CM上可以为Ranger配置Maximum Retention Days属性。...用户现在可以CM为Ranger配置ranger.audit.solr.config.ttl和ranger.audit.solr.config.delete.trigger参数来更新Solr document...的过期时间,同时刷新配置以获得使用ttl和delete trigger更新过后的Ranger audit的Solr collection。

94830

CDP私有云基础版审计信息到外部系统

根据Ponemon研究所的研究,全球内幕威胁的平均成本两年内增长了31%,达到1,145万美元,而事件频发的频率同一期激增了47%。...CDP: 可以使用基于TLS或SASL的加密方式对所有有线协议进行加密 可以使用HDFS透明数据加密(私有云)或对象存储加密(公共云)对所有静态数据进行加密 公共云和私有云中,所有用户访问均通过Kerberos...Solr审核,默认情况下仅审核查询发生的事实: {"repoType":8,"repo":"cm_solr","reqUser":"admin","evtTime":"2021-05-04 02:...启用了文档级授权,那么我们还将看到查询文本: 2021-05-04T06:23:00-07:00 host1.example.com Solr: {"repoType":8,"repo":"cm_solr...在此博客,我们讨论了使用基于文件的审计和基于Syslog的审计生成将CDP的审计事件发送到外部SIEM的方法。 有关配置和使用Apache Ranger的更多信息,请查阅CDP文档

1.6K10

数据治理(六):编译Atlas安装包

以上这些所有框架在安装Atlas可以使用Atlas集成自带的,也可以使用外部安装好的,一般企业开发,都会选择让Atlas使用外部安装好的这些框架,所以打包需要选择不使用内嵌框架方式。...三、安装Hadoop3.1.4版本 安装Hadoop3.1.4版本之前首先卸载旧的Hadoop版本,卸载步骤如下: 1、停止HDFS集群,Zookeeper删除HDFS对应的元数据目录 [root@...#node1格式化namenode [root@node1 ~]# hdfs namenode -format #node1启动namenode,以便同步其他namenode [root@...node1 ~]# hdfs --daemon start namenode #高可用模式配置namenode,使用下列命令来同步namenode(需要同步的namenode执行,这里就是node2...Solr索引的实现方法很简单,用POST方法向Solr服务器发送一个描述Field及其内容的XML文档Solr根据XML文档添加、删除、更新索引。

93351

升级到 CDP 私有云基础 - 分步指南

在下面的视频,我们将介绍从 CDH 到 CDP 私有云基础的完整的端到端升级。 步骤 1:准备升级 继续升级之前,有必要查看文档中指定的先决条件。...某些情况下, CDP 中将特定的旧组件替换为新的等效组件可能需要额外的代码更新才能与您的操作完全集成。...添加新的 Solr 服务——Ranger 需要一个专门的 Solr 来处理审计日志。 注意:这与运行以业务为中心的用例的其他 Solr 实例单独的端口上运行。...一旦您对升级状态感到满意,您就可以完成 HDFS 元数据。重要提示:执行此步骤之前,不会删除任何已删除的块,这意味着可以回滚。您完全准备好之前,不要执行最终确定步骤!...一旦完成了 HDFS,就无法回滚。 总结 端到端的过程相对简单,主要是向导驱动的。应注意确保较低的环境测试应用程序和工作负载,并在生产之前消除任何不兼容性。

74110

CentOs7.3 搭建 SolrCloud 集群服务

启动可以指定把Solr的相关配置文件上传 Zookeeper,多机器共用。这些ZK的配置不会再拿到本地缓存,Solr直接读取ZK的配置信息。配置文件的变动,所有机器都可以感知到。...另外,Solr的一些任务也是通过ZK作为媒介发布的。目的是为了容错。接收到任务,但在执行任务崩溃的机器,重启后,或者集群选出候选者,可以再次执行这个未完成的任务。...如果查询压力大,可以通过扩展机器,增加Replication来减缓。 自动分发的索引和索引分片发送文档到任何节点,它都会转发到正确节点。 事务日志确保更新无丢失,即使文档没有索引到磁盘。...SolrCloud中使用的配置是Zookeeper的,而传统的Solr Core的配置文件是磁盘上的配置目录。...Config Set存储Zookeeper,可以重新上传或者使用upconfig命令进行更新,可以用Solr的启动参数bootstrap_confdir进行初始化或者更新

1.2K70

【搜索引擎】提高 Solr 性能

撰写本文,我们很自豪地提到,该 API 每分钟服务约 15 万个请求,并每小时向我们最大区域的 Solr 发送约 21 万个更新。...运行在 CPU 之上的 SearchExecutor 线程,以及垃圾收集器 SearchExecutor 线程缓存预热抛出异常 (LRUCache.warm) 响应时间从 ~30 ms 增加到 ~1500...不,当您进一步阅读,您会发现更多信息。 文档与磁盘大小 假设我们有大约 1000 万个文档。假设平均文档大小为 2 kb。...堆和操作系统内存设置的这种差异为环境提供了一些空间来适应零星的内存使用高峰,例如后台合并或昂贵的查询,并允许 JVM 有效地执行 GC。例如, 28Gb RAM 计算机设置 18Gb 堆。...最初的担忧是为什么我们文档的“单位”配置这些值,如下所示: 根据之前共享的公式,考虑到我们有 700 万份文档,估计的 RAM 约为 3800 Gb。

65510

如何卸载CDH(附一键卸载github源码)

/xxx | |:----| 注:此命令需运行在目标集群执行,确保目标集群空间足够,以上数据目录根据自己集群的真实环境做相应的修改; namenodeA:源集群namenode节点ip地址 port:...数据库可以同样备份 2.3备份CDH集群配置数据 通过Cloudera Manager提供的API接口,导出一份JSON文档,该文档包含Cloudera 管理器实例的配置数据,可以通过这份JSON文档备份或恢复...hadoop-hdfs-nfs3 hadoop-httpfs hadoop-kms hbase-solr hive-hbase hive-webhcat hue-beeswax hue-hbase...为了备份数据,启动卸载过程之前,使用distcp命令将其复制到另一个集群。...:集群所有组件安装所使用的用户名 脚本使用 [klt8wqcm0n.png] 注:脚本是第五步操作完成后,namenode节点进行一键卸载 运行截图 [ckorc9omfy.jpeg] [8i2y3pll6q.jpeg

2.1K60

FAQ系列之SDX

ABAC(也称为基于标签的访问控制)支持细粒度访问控制,并允许访问控制决策考虑更多变量。...CDP 版本可能有一些新的 API,可能会出现在 CDP 版本(和 Apache 主版本),但尚未反映在 Apache 文档链接。...我知道审计日志是并行写入 SolrHDFS 的,而 HDFS 用于长时间存储。如果 Solr 崩溃并且没有运行几个小时或几天会发生什么?...稍后可以从 HDFS 索引丢失的数据以使其 Solr 可用吗? 每个组件都在本地假脱机审核日志,然后直到目标接收器再次启动。 仅受可用磁盘空间的限制。...因此,资源规则、标签和沿袭用于基于标签的访问控制存储在内存以优化速度。用于评估策略条件的 Javascript 执行可以以微秒为单位进行测量。这些由标签同步操作定期更新

1.4K30

如何在CDH中使用SolrHDFS的JSON数据建立全文索引

本文主要是介绍如何在CDH中使用SolrHDFS的json数据建立全文索引。...2.Hue已经配置集成Solr服务 2.索引建立流程 ---- 见下图为本文档将要讲述的使用Solr建立全文索引的过程: 1.先将准备好的半/非结构化数据put到HDFS。...2.Solr建立collection,这里需要定义一个schema文件对应到本文要使用的json数据,需要注意格式对应。...4.然后启动Morphline作业,是一个MapReduce任务,它会首先读取存在HDFS的原始文件,然后开始创建Solr的全文索引,最终把索引也会保存到HDFS。....txt /fayson/solr [root@ip-172-31-8-230 ~]# hadoop fs -ls /fayson/solr (可左右滑动) 4.Solr建立collection

5.9K41

搜索概述

另外从ES中文社区的阿里招聘帖以及和从据https://www.elastic.co公司的朋友介绍,阿里已经开始寻求elastic.co的服务支持。 ?...Solr与ES各有特点,但都比较成熟,对于一般的需求,两者都能很好的胜任。两者的能力也逐 渐趋同。早几年ES更受欢迎,但最近Solr也已经补齐了短板。...完全开源 •ES:开源,但掌控于一家公司 (5)Hadoop支持 •Solr:支持与HDFS深入结合,但仅支持MR •ES:YARN、HDFS、SPARK、HIVE、PIG等方面均有支持,但index...on HDFS功能有限 (6)生态 •ES生态要好于Solr,至少从目前来看 (7)Learning to rank扩展 •两者均需要投入资源进行二次开发 4.2、总的来说: Solr/ES之间的区别不像很多其他开源组件...绝大多数情况下,Solr能完成的任务,ES也一样,反之亦然,而且性能差距很小。这就像VI/Emacs的编辑器之争一样,每个都有很多拥簇。 ?

1.9K50

如何使用Flume准实时建立Solr的全文索引

CDH中使用SolrHDFS的JSON数据建立全文索引》简单介绍了Solr,然后利用Cloudera提供的Morphline工具通过创建MapReduce可以实现对HDFS的半/非结构化数据的批量建立全文索引...内容概述 1.索引建立流程 2.准备数据 3.Solr建立collection 4.编辑Morphline配置文件 5.启动Flume监听并实时建立索引 6.查询验证 测试环境....Hue已经配置集成Solr服务 2.索引建立流程 ---- 见下图为本文档将要讲述的使用Solr建立全文索引的过程: 1.先将准备好的半/非结构化数据放置本地。...2.Solr建立collection,这里需要定义一个schema文件对应到本文要使用的json数据,需要注意格式对应。...对数据进行ETL,最后写入到solr的索引,这样就能在solr搜索引擎近实时的查询到新进来的数据了由贾玲人。"

1.6K20

0803-什么是Apache Ranger - 5 - Hive Plugin

当你Beeline运行CREATE TABLE语句创建新表,它将向HiveServer2提交查询,HiveServer2在运行该查询之前,它会先检查缓存的策略文件(图中所示为1),判断提交查询的用户有具有执行该操作的权限...Kafka的ATLAS_HOOK Topic,同时hive用户需要有权限Solr创建索引并写入数据到HDFS,假设Hive的模拟(Impersonation)已经关闭。...请注意,HDFS的数据仅用于备份,任何服务都不会使用,默认情况下,Solr的审计数据将在90天后过期。...一旦Ranger更新了标签信息,用户和组以及所有其他基于资源的策略都已正确同步,HiveServer2的Hive插件会将其拉到本地缓存,默认情况下策略会每30秒同步一次,图中所示为9,以便新的请求会采用新的策略...最终随着用户Hive创建或更新数据库,表或列,该循环又会往复一遍。

1.4K10

如何为Hadoop集群选择正确的硬件

“很多人在搭建Hadoop集群都没有去真正了解过工作负载” 硬件供应商更新了对应的产品来满足相应的需求,包括存储刀片,SAS(Serial Attached SCSI)交换机,外挂的SATA阵列和容量更大的机架...NameNode需要的内存与集群存储的数据块成正比。我们常用的计算公式是集群100万个块(HDFS blocks)对应NameNode的1GB内存。...经过一段时间的基准测试和监控,我们就可以了解需要如何增加什么样配置的新机器。异构的Hadoop集群是比较常见的,特别是随着数据量和用例数量的增加,集群需要扩容。...Cloudera Search在做节点规划比较有趣,你可以先在一个节点安装Solr,然后装载一些文档,建立索引,并以你期望的方式进行查询。...单个节点Solr的这些数据可以给你提供一些规划的参考,但不包括复制因子因素。

3.4K50

扫码

添加站长 进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

    运营活动

    活动名称
    广告关闭
    领券