首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

在Solr中更新文档时,hdfs空间急剧增加

的原因是Solr使用了Hadoop分布式文件系统(HDFS)作为其默认的存储引擎。当Solr更新文档时,它会将新的文档添加到索引中,并将索引文件写入到HDFS中。

HDFS是一个高容错性、高可靠性的分布式文件系统,它将文件切分成多个块,并在集群中的多个节点上进行存储。当Solr更新文档时,它会创建新的索引文件,并将这些文件写入到HDFS中的一个或多个块中。

由于Solr的索引文件通常比较大,因此每次更新文档都会导致HDFS空间的急剧增加。这是因为Solr会创建新的索引文件,而不是直接在原有的索引文件上进行更新。这种设计可以确保数据的完整性和一致性,并且可以支持并发的读写操作。

为了解决HDFS空间急剧增加的问题,可以考虑以下几个方面:

  1. 定期优化索引:Solr提供了索引优化的功能,可以通过合并多个索引段来减少索引文件的数量,从而减少HDFS的空间占用。可以使用Solr的优化API或者定时任务来执行索引优化操作。
  2. 配置合适的副本数:在Solr的配置文件中,可以设置索引的副本数。通过减少副本数,可以减少索引文件的冗余存储,从而减少HDFS的空间占用。但是需要注意的是,减少副本数可能会影响系统的可靠性和容错性。
  3. 定期清理旧的索引文件:可以设置定期任务来清理旧的索引文件,从而释放HDFS的空间。Solr提供了删除旧索引的API,可以根据时间或者其他条件来删除不再需要的索引文件。

总结起来,Solr在更新文档时会导致HDFS空间急剧增加,这是因为Solr使用HDFS作为存储引擎,并且每次更新都会创建新的索引文件。为了解决这个问题,可以定期优化索引、配置合适的副本数和定期清理旧的索引文件。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

0859-7.1.6-如何对Ranger审计日志进行调优

而在CDP目前的使用存在着部分问题需要处理,Ranger 的审计日志信息存储在Solr,出现如Solr数据目录空间占用过高,Solr shard连接超时亦或者如下数据量过大时,会导致Ranger Audit...测试环境 1.CDP7.1.6 、启用Kerberos 2.操作步骤 2.1修改Solr存储目录 在CDP7.1.5之前的版本中,集群中Solr 的索引数据文件存储在HDFS中。...文档中没有_ttl_字段和_expire_at_字段,在solrconfig.xml ranger_audits config 中设置的 updateRequestProcessorChain 中的处理器顺序不正确时...2.3修改ranger_audits 中的shard 的数量 该步骤强烈建议在集群安装时配置,在CDP最新版本CDP7.1.6中,ranger_audits 的shards 数量为1,这种情况下容易因硬件故障或者其他因素导致数据丢失的数量...或者在CDP 7.1.5之前的版本中HDFS 的/solr 目录占用空间大的情况。另外也强烈建议以上的配置在集群安装时就规划好,通过上述文档的调优,相信可以得到有效的解决。

2.3K30
  • 0487-CDH6.1的新功能

    从CDH6.0到CDH6.1是一次minor version的更新,但更新内容较多,在开始接下来的细化功能讨论前,我们先看看几项重点更新的内容: 1.组件版本:Kafka 2.0, Spark 2.4,...注意:源生Solr7.4中的Log4j2在CDH6.1中不包含,CDH中的Solr使用的是Log4j 1.2.17。...以前,solr.log文件中记录了较慢的一些请求。 2.在scaling solr的leader-follower模型中,当在复制期间在leader上检测到全新索引时,follower不再提交空索引。...8.如果副本发生故障,则自动添加副本的功能仅当你的索引是保存在HDFS中时才起作用。它已移植到自动扩展框架,即使其索引位于本地磁盘上,AutoAddReplicas现在也可供所有用户使用。...Oracle中的numeric数据或Postgres中的numeric或decimal数据时,支持在avro schema中指定默认precision和scale。

    2.5K40

    Hive作业产生的临时数据占用HDFS空间大问题处理

    Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1 文档编写目的 Hive作业在运行时会在HDFS的临时目录产生大量的数据文件...,这些数据文件会占用大量的HDFS空间。...及更高版本中默认值为:/tmp/hive/${user.name} 当前Fayson的CDH5.15.0中Hive版本为1.1.0,Hive作业的临时或中间数据集在HDFS的/tmp/hive/${user.name...3.在Linux中配置crontab定时任务,脚本如下: [root@cdh3 ~]# chmod +x /opt/cloudera/clean/hive-clean.sh [root@cdh3 ~]...4 总结 1.Hive作业在运行时会将临时或中间结果存储HDFS,如果Hive客户端作业异常退出会导致HDFS上存储的临时数据不能被清除而导致HDFS空间被占用。

    8.1K40

    使用FreeIPA为CDP DC集群部署安全

    在设置KDC页面中,依次填写配置相关的KDC信息,包括类型、KDC服务器、KDC Realm、加密类型以及待创建的Service Principal(hdfs,yarn,,hbase,hive等)的更新生命期等...Hdfs验证 1) 在FreeIPA系统中已经存在admin用户,使用admin用户认证后,访问hdfs正常。Kdestroy掉已有的凭据,hdfs访问报权限问题,无法访问。...Hue验证 使用admin用户在hue中执行hive和访问hdfs ? ? 使用admin用户往/user目录上传文件失败,用户没有权限。 ?...2) 在CDP数据中心版上使用Kerberos认证也变得更加简单,例如beeline连接串中不需要写凭据等。 3) 在CDP数据中心版中界面向导性更强。...解决方案: 在/etc/krb5.conf中增加: ticket_lifetime = 24h renew_lifetime = 7d forwardable = true 然后重启hue服务即可

    1.8K10

    Solr学习笔记 - 关于近实时搜索

    当客户端在更新请求中包含commit=true参数时,这将确保在索引更新完成后,所有添加和删除操作影响的索引段都被写入磁盘。...这些设置将控制挂起的更新自动推送到索引的频率。autoCommit交的另一种选择是使用commitWithin,它可以在向Solr发出更新请求时定义。或在更新请求程序中。 maxDocs。...当重建索引进行update检测时,保持最大版本的bucket的数量;增加这个值可以减少大容量索引期间同步访问版本桶的成本,这需要每个Solr核心的堆空间(8 bytes (long) * numVersionBuckets...在发生不适当的关闭(电源丢失、JVM崩溃、kill -9等)时,任何写入tlog但在Solr停止时还没有通过hard commit提交的文档都将在启动时重新播放。因此数据不会丢失。...当Solr被优雅地关闭时(使用bin/Solr stop命令),Solr将关闭tlog文件和索引段,因此在启动时不需要重播。 令人困惑的一点是事务日志中包含多少数据。

    4.6K10

    0862-CDP Private Cloud Base 7.1.7正式GA

    当 doAs = false 时,超级用户“hive”将是在指定存储中创建表的用户,这样创建表时使用的是hive用户的授权,而不是发出“create/alter table”命令的原始用户的授权。...Ranger audits最长保留天数的配置选项 当用户和组从同步源(UNIX、LDAP、AD 或 PAM)中删除时,Usersync服务会更新Ranger。...这样可以确保用户和组及其相关访问权限在从同步源中删除时不会保留在Ranger中。 CM上可以为Ranger配置Maximum Retention Days属性。...用户现在可以在CM中为Ranger配置ranger.audit.solr.config.ttl和ranger.audit.solr.config.delete.trigger参数来更新Solr document...的过期时间,同时刷新配置以获得使用ttl和delete trigger更新过后的Ranger audit的Solr collection。

    1K30

    CDP私有云基础版审计信息到外部系统

    根据Ponemon研究所的研究,全球内幕威胁的平均成本在两年内增长了31%,达到1,145万美元,而事件频发的频率在同一时期激增了47%。...在CDP中: 可以使用基于TLS或SASL的加密方式对所有有线协议进行加密 可以使用HDFS透明数据加密(私有云)或对象存储加密(公共云)对所有静态数据进行加密 在公共云和私有云中,所有用户访问均通过Kerberos...在Solr审核中,默认情况下仅审核查询发生的事实: {"repoType":8,"repo":"cm_solr","reqUser":"admin","evtTime":"2021-05-04 02:...中启用了文档级授权,那么我们还将看到查询文本: 2021-05-04T06:23:00-07:00 host1.example.com Solr: {"repoType":8,"repo":"cm_solr...在此博客中,我们讨论了使用基于文件的审计和基于Syslog的审计生成将CDP中的审计事件发送到外部SIEM的方法。 有关配置和使用Apache Ranger的更多信息,请查阅CDP文档。

    1.6K10

    数据治理(六):编译Atlas安装包

    以上这些所有框架在安装Atlas时可以使用Atlas集成自带的,也可以使用外部安装好的,一般企业开发中,都会选择让Atlas使用外部安装好的这些框架,所以打包时需要选择不使用内嵌框架方式。...三、安装Hadoop3.1.4版本 安装Hadoop3.1.4版本之前首先卸载旧的Hadoop版本,卸载步骤如下: 1、停止HDFS集群,在Zookeeper中删除HDFS对应的元数据目录 [root@...#在node1中格式化namenode [root@node1 ~]# hdfs namenode -format #在node1中启动namenode,以便同步其他namenode [root@...node1 ~]# hdfs --daemon start namenode #高可用模式配置namenode,使用下列命令来同步namenode(在需要同步的namenode中执行,这里就是在node2...Solr索引的实现方法很简单,用POST方法向Solr服务器发送一个描述Field及其内容的XML文档,Solr根据XML文档添加、删除、更新索引。

    1.1K51

    升级到 CDP 私有云基础 - 分步指南

    在下面的视频中,我们将介绍从 CDH 到 CDP 私有云基础的完整的端到端升级。 步骤 1:准备升级 在继续升级之前,有必要查看文档中指定的先决条件。...在某些情况下,在 CDP 中将特定的旧组件替换为新的等效组件可能需要额外的代码更新才能与您的操作完全集成。...添加新的 Solr 服务——Ranger 需要一个专门的 Solr 来处理审计日志。 注意:这与运行以业务为中心的用例的其他 Solr 实例在单独的端口上运行。...一旦您对升级状态感到满意,您就可以完成 HDFS 元数据。重要提示:在执行此步骤之前,不会删除任何已删除的块,这意味着可以回滚。在您完全准备好之前,不要执行最终确定步骤!...一旦完成了 HDFS,就无法回滚。 总结 端到端的过程相对简单,主要是向导驱动的。应注意确保在较低的环境中测试应用程序和工作负载,并在生产之前消除任何不兼容性。

    78610

    CentOs7.3 搭建 SolrCloud 集群服务

    启动时可以指定把Solr的相关配置文件上传 Zookeeper,多机器共用。这些ZK中的配置不会再拿到本地缓存,Solr直接读取ZK中的配置信息。配置文件的变动,所有机器都可以感知到。...另外,Solr的一些任务也是通过ZK作为媒介发布的。目的是为了容错。接收到任务,但在执行任务时崩溃的机器,在重启后,或者集群选出候选者时,可以再次执行这个未完成的任务。...如果查询压力大,可以通过扩展机器,增加Replication来减缓。 自动分发的索引和索引分片发送文档到任何节点,它都会转发到正确节点。 事务日志确保更新无丢失,即使文档没有索引到磁盘。...SolrCloud中使用的配置是在Zookeeper中的,而传统的Solr Core的配置文件是在磁盘上的配置目录中。...Config Set存储在Zookeeper中,可以重新上传或者使用upconfig命令进行更新,可以用Solr的启动参数bootstrap_confdir进行初始化或者更新。

    1.3K70

    如何卸载CDH(附一键卸载github源码)

    /xxx | |:----| 注:此命令需运行在目标集群中执行,确保目标集群空间足够,以上数据目录根据自己集群的真实环境做相应的修改; namenodeA:源集群namenode节点ip地址 port:...数据库可以同样备份 2.3备份CDH集群配置数据 通过Cloudera Manager提供的API接口,导出一份JSON文档,该文档包含Cloudera 管理器实例的配置数据,可以通过这份JSON文档备份或恢复...hadoop-hdfs-nfs3 hadoop-httpfs hadoop-kms hbase-solr hive-hbase hive-webhcat hue-beeswax hue-hbase...为了备份数据,在启动卸载过程之前,使用distcp命令将其复制到另一个集群中。...:集群所有组件安装时所使用的用户名 脚本使用 [klt8wqcm0n.png] 注:脚本是在第五步操作完成后,在namenode节点进行一键卸载 运行截图 [ckorc9omfy.jpeg] [8i2y3pll6q.jpeg

    2.2K60

    【搜索引擎】提高 Solr 性能

    在撰写本文时,我们很自豪地提到,该 API 每分钟服务约 15 万个请求,并每小时向我们最大区域的 Solr 发送约 21 万个更新。...运行在 CPU 之上的 SearchExecutor 线程,以及垃圾收集器 SearchExecutor 线程在缓存预热时抛出异常 (LRUCache.warm) 响应时间从 ~30 ms 增加到 ~1500...不,当您进一步阅读时,您会发现更多信息。 文档与磁盘大小 假设我们有大约 1000 万个文档。假设平均文档大小为 2 kb。...堆和操作系统内存设置的这种差异为环境提供了一些空间来适应零星的内存使用高峰,例如后台合并或昂贵的查询,并允许 JVM 有效地执行 GC。例如,在 28Gb RAM 计算机中设置 18Gb 堆。...最初的担忧是为什么我们在文档的“单位”中配置这些值,如下所示: 根据之前共享的公式,考虑到我们有 700 万份文档,估计的 RAM 约为 3800 Gb。

    70910

    FAQ系列之SDX

    ABAC(也称为基于标签的访问控制)支持细粒度访问控制,并允许在访问控制决策时考虑更多变量。...CDP 版本可能有一些新的 API,可能会出现在 CDP 版本(和 Apache 主版本)中,但尚未反映在 Apache 文档链接中。...我知道审计日志是并行写入 Solr 和 HDFS 的,而 HDFS 用于长时间存储。如果 Solr 崩溃并且没有运行几个小时或几天会发生什么?...稍后可以从 HDFS 索引丢失的数据以使其在 Solr 中可用吗? 每个组件都在本地假脱机审核日志,然后直到目标接收器再次启动。 仅受可用磁盘空间的限制。...因此,资源规则、标签和沿袭用于基于标签的访问控制存储在内存中以优化速度。用于评估策略条件的 Javascript 执行可以以微秒为单位进行测量。这些由标签同步操作定期更新。

    1.4K30

    如何在CDH中使用Solr对HDFS中的JSON数据建立全文索引

    本文主要是介绍如何在CDH中使用Solr对HDFS中的json数据建立全文索引。...2.Hue中已经配置集成Solr服务 2.索引建立流程 ---- 见下图为本文档将要讲述的使用Solr建立全文索引的过程: 1.先将准备好的半/非结构化数据put到HDFS。...2.在Solr中建立collection,这里需要定义一个schema文件对应到本文要使用的json数据,需要注意格式对应。...4.然后启动Morphline作业,是一个MapReduce任务,它会首先读取存在HDFS中的原始文件,然后开始创建Solr的全文索引,最终把索引也会保存到HDFS。....txt /fayson/solr [root@ip-172-31-8-230 ~]# hadoop fs -ls /fayson/solr (可左右滑动) 4.在Solr中建立collection

    5.9K41

    java转大数据方向如何走?

    1.2 参考资料首选官方文档 特别是对于入门来说,官方文档永远是首选文档。相信搞这块的大多是文化人,英文凑合就行,实在看不下去的,请参考第一步。...有的朋友可能不知道数据仓库,数据仓库是逻辑上的概念,底层使用的是数据库,数据仓库中的数据有这两个特点:最全的历史数据(海量)、相对稳定的;所谓相对稳定,指的是数据仓库不同于业务系统数据库,数据经常会被更新...2.5 试试使用Hive 请参考1.1 和 1.2 ,在Hive中创建wordcount表,并运行2.2中的SQL语句。 在Hadoop WEB界面中找到刚才运行的SQL任务。...3.1 HDFS PUT命令 这个在前面你应该已经使用过了。put命令在实际环境中也比较常用,通常配合shell、python等脚本语言来使用。建议熟练掌握。...课程​ 1) 什么是solr 2) 为什么工程中要使用solr 3) Solr的原理 4) 如何在tomcat中运行solr 5) 如何利用solr进行索引与搜索 6) solr的各种查询

    9810

    搜索概述

    另外从ES中文社区中的阿里招聘帖以及和从据https://www.elastic.co公司的朋友介绍,阿里已经开始寻求elastic.co的服务支持。 ?...Solr与ES各有特点,但都比较成熟,对于一般的需求,两者都能很好的胜任。两者的能力也在逐 渐趋同。早几年ES更受欢迎,但最近Solr也已经补齐了短板。...完全开源 •ES:开源,但掌控于一家公司 (5)Hadoop支持 •Solr:支持与HDFS深入结合,但仅支持MR •ES:在YARN、HDFS、SPARK、HIVE、PIG等方面均有支持,但index...on HDFS功能有限 (6)生态 •ES生态要好于Solr,至少从目前来看 (7)Learning to rank扩展 •两者均需要投入资源进行二次开发 4.2、总的来说: Solr/ES之间的区别不像很多其他开源组件...在绝大多数情况下,Solr能完成的任务,ES也一样,反之亦然,而且性能差距很小。这就像VI/Emacs的编辑器之争一样,每个都有很多拥簇。 ?

    2K50

    如何使用Flume准实时建立Solr的全文索引

    CDH中使用Solr对HDFS中的JSON数据建立全文索引》简单介绍了Solr,然后利用Cloudera提供的Morphline工具通过创建MapReduce可以实现对HDFS中的半/非结构化数据的批量建立全文索引...内容概述 1.索引建立流程 2.准备数据 3.在Solr中建立collection 4.编辑Morphline配置文件 5.启动Flume监听并实时建立索引 6.查询验证 测试环境....Hue中已经配置集成Solr服务 2.索引建立流程 ---- 见下图为本文档将要讲述的使用Solr建立全文索引的过程: 1.先将准备好的半/非结构化数据放置在本地。...2.在Solr中建立collection,这里需要定义一个schema文件对应到本文要使用的json数据,需要注意格式对应。...对数据进行ETL,最后写入到solr的索引中,这样就能在solr搜索引擎中近实时的查询到新进来的数据了由贾玲人。"

    1.6K20

    0803-什么是Apache Ranger - 5 - Hive Plugin

    当你在Beeline中运行CREATE TABLE语句创建新表时,它将向HiveServer2提交查询,HiveServer2在运行该查询之前,它会先检查缓存的策略文件(图中所示为1),判断提交查询的用户有具有执行该操作的权限...Kafka的ATLAS_HOOK Topic中,同时hive用户需要有权限在Solr中创建索引并写入数据到HDFS,假设Hive的模拟(Impersonation)已经关闭。...请注意,HDFS中的数据仅用于备份,任何服务都不会使用,默认情况下,Solr中的审计数据将在90天后过期。...一旦在Ranger中更新了标签信息,用户和组以及所有其他基于资源的策略都已正确同步,HiveServer2中的Hive插件会将其拉到本地缓存中,默认情况下策略会每30秒同步一次,图中所示为9,以便新的请求会采用新的策略...最终随着用户在Hive中创建或更新数据库,表或列,该循环又会往复一遍。

    1.4K10
    领券