开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Prometheus保留时间设置为1年，但不会将数据保留超过默认的15天

Prometheus 是一个开源的系统监控和告警工具包，它通过拉取（pull）模型从目标系统中收集指标数据，并存储这些数据以便后续查询和分析。Prometheus 的数据保留策略是通过配置文件中的 storage.tsdb.retention 参数来设置的，这个参数决定了 Prometheus 保留数据的时间长度。

基础概念

时间序列数据库（TSDB）：Prometheus 使用时间序列数据库来存储时间戳和对应的指标值。
保留时间（Retention）：指定了 Prometheus 应该保留数据的时间长度。

相关优势

长期数据分析：设置较长的数据保留时间有助于进行长期的趋势分析和历史对比。
故障排查：在问题发生后，长时间的数据保留可以帮助分析问题的根本原因。

类型与应用场景

短期保留：适用于快速变化的环境，如开发测试阶段，或者对存储成本敏感的场景。
长期保留：适用于需要历史数据进行分析的场景，如性能优化、容量规划等。

可能遇到的问题及原因

如果设置了 storage.tsdb.retention 为1年，但实际上数据只保留了15天，可能的原因包括：

配置未生效：可能是配置文件没有被正确加载，或者配置项名称写错。
磁盘空间不足：Prometheus 的存储是基于本地磁盘的，如果磁盘空间不足，旧数据会被自动删除以释放空间。
版本兼容性问题：使用的 Prometheus 版本可能存在已知的 bug，导致保留策略未能正确执行。

解决方法

检查配置文件：确保 prometheus.yml 文件中有正确的配置，并且 Prometheus 服务已经重新加载了配置。
检查配置文件：确保 prometheus.yml 文件中有正确的配置，并且 Prometheus 服务已经重新加载了配置。
监控磁盘空间：定期检查 Prometheus 所在服务器的磁盘空间，并确保有足够的空间来存储数据。
监控磁盘空间：定期检查 Prometheus 所在服务器的磁盘空间，并确保有足够的空间来存储数据。
升级 Prometheus：如果怀疑是版本问题，可以尝试升级到最新稳定版本的 Prometheus。
手动清理：如果磁盘空间确实紧张，可以手动删除一些旧的数据目录，但这种方法需要谨慎操作，以免误删重要数据。
使用远程存储：考虑使用远程存储解决方案，如腾讯云的云数据库CTSDB，它可以提供更灵活的数据保留策略和更大的存储容量。

示例代码

以下是一个简单的 Prometheus 配置示例，展示了如何设置数据保留时间为1年：

global:
  scrape_interval: 15s

storage:
  tsdb:
    retention: 1y

rule_files:
  - "alert.rules"

scrape_configs:
  - job_name: 'prometheus'
    static_configs:
      - targets: ['localhost:9090']

确保在修改配置后重启 Prometheus 服务以使更改生效。

通过以上步骤，应该能够解决 Prometheus 数据保留时间设置不生效的问题。如果问题依旧存在，建议查看 Prometheus 的日志文件，以获取更多详细的错误信息。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Prometheus Alertmanager生产配置趟过的坑总结

后面又翻各种源码, 终于发现这个是无法设置为三位数的 y 的: 设置 100y 报错, 设置 99y 正常运行....Reference: repeat_interval大于数据保留期。这可能导致通知的重复频率超过预期。...也就是说, repeat_interval 设置太大反而可能会导致通知的重复频率更高, 如果想把它设置的尽可能大, 也不要大于数据的保留时间....所以, 想要尽可能降低 AlertManager 未解决告警自动重发的频率, 就这么设置: repeat_interval: 但不要大于数据的保留(data retention)时间设置...AlertManager 的数据保留(data retention)时长接着上文来说, 默认的 AlertManager 的数据保留(data retention)时长是多久呢?

1K2 0

Prometheus Relabeling 重新标记的使用

之后，Prometheus 会将 instance 标签设置为 __address__ 的值。...设置一个固定的标签值最简单的 replace 例子就是将一个标签设置为一个固定的值，比如你可以把 env 标签设置为 production： action: replace replacement:...production target_label: env 这里我们并没有设置规则的大部分属性，这是因为大部分的默认值已经可以满足这里的需求了，这里会将替换的字符串 production 作为 target_label...Kubernetes 服务发现机制会将这些标签添加到 Prometheus 中去，标签名称格式为 __meta_kubernetes_service_label_，我们可以提取这些元数据标签中的...保留或删除标签有的时候我们也有保留或删除一些标签的需求，比如有的目标在时间序列上提供了许多额外的标签，这些标签用途不大，这个时候我们就可以使用 labelkeep 和 labeldrop 这两个操作，

5.3K3 0

Prometheus 的存储机制

WAL 机制基于日志文件，当 Prometheus 收集到新的指标数据时，它会将数据写入 WAL 文件中，然后再异步地将数据写入本地磁盘中的时间序列数据库。...在切分过程中，Prometheus存储引擎会将超过一定时间范围的数据删除，以保证数据量不会过大。这个时间范围可以通过配置文件中的参数进行设置。...说明 01D3EVB6S8SJP91GZM0RZP4YJF ├── chunks │ └── 000001 #数据目录,每个大小为 512MB 超过会被切分为多个 ├── index...–storage.tsdb.retention.time：这决定了何时删除旧数据。默认为15d。如果此标志设置为默认值以外的任何值，则覆盖storage.tsdb.retention。...当 Prometheus 收集到新的指标数据时，它会将数据发送到远程存储系统中。

1.9K2 0

Prometheus TSDB存储原理

当这些内存映射的块或内存中的块老化到某个时间点时，会作为持久块Block存储到磁盘。接下来多个Block在它们变旧时被合并，并在超过保留期限后被清理。...一旦active chunk被填满时（超过2小时或120样本），将旧的数据截断为head_chunk1。 head_chunk1被刷新到磁盘然后进行内存映射。...而checkpoint会将wal 清理过后的数据做过滤写成新的段。...Block是如何删除的？对于源数据的删除Prometheus TSDB采用了一种简单的方式：即删除该目录下不在我们保留时间窗口的块。...因此必须得有一个合并的上限，，这样块就不会增长到跨越整个数据库。通常我们可以根据保留窗口设置百分比。如何从大量的series中检索出数据？

1.8K3 0

普罗米修斯

主要由以下部分组成： prometheus server: 是 Prometheus 组件中的核心部分，负责实现对监控数据的获取，存储以及查询; exporter: 采集端，通过 http 服务的形式保留一个...Pushgateway: 由于 Prometheus 数据采集采用 pull 方式进行设置的，内置必须保证 prometheus server 和对应的 exporter 必须通信，当网络情况无法直接满足时...中数据普罗米修斯的数据存储采用的是时间序列数据(TimeSeries Data)，它是按照时间顺序记录系统、设备状态变化的数据。...默认情况下 Prometheus 会将采集的数据存储到本机的 /usr/local/prometheus/data 目录，存储数据的大小受限和扩展不便；如果只作为测试自然不需要担心这个问题，如果用于生产的话需要安装配置时序数据库...通常我们会结合grafana进行可视化的监控。 grafana 的简介及使用： grafana 是数据统计和展示工具，它展示数据，但不提供数据。

2.8K2 0

Prometheus PushGateway（五）

PushGateway 介绍 Pushgateway是Prometheus的一个组件，Prometheus 默认是通过exporter主动获取数据（默认采取pull拉取数据），Pushgateway...默认为--web.external-url --persistence.file="" 归档以保留metrics。如果为空，则metrics仅保留在内存中....数据指标推送时间≤ Prometheus 拉取的时间，以保证Prometheus保证每次拉取的数据是最新 Push 上来的。...-persistence.file 表示本地持久化的文件，将 Push 的指标数据持久化保存到指定文件，-persistence.interval 表示本地持久化的指标数据保留时间，若设置为 5m，则表示...指标值支持最大长度为 16 位，超过16 位后默认置为 0

2.4K4 0

监控神器Prometheus用不对，也就是把新手村的剑

以我们的一个 Prometheus Server为例，本地只保留 2 小时数据，95 万 Series，大概占用的内存如下： ?...p=1578 评估 Prometheus 的整体响应时间，可以用这个默认指标: ?...Prometheus 重启慢与热加载 Prometheus 重启的时候需要把 Wal 中的内容 Load 到内存里，保留时间越久、Wal 文件越大，重启的实际越长，这个是 Prometheus 的机制，...Prometheus 也曾经对启动时间做过优化，在 2.6 版本中对于Wal的 Load 速度就做过速度的优化，希望重启的时间不超过 1 分钟。...需要注意的点：对于容器标准输出，默认日志路径是/var/lib/docker/containers/xxx， kubelet 会将改日志软链到/var/log/pods，同时还有一份/var/log/containers

3.4K3 0

使用 Thanos 和 Prometheus 打造一个高可用的 Kubernetes 监控系统

架构我们的集群上没有可用的持久化存储（所有服务都保持无状态），所以默认的 Prometheus + Thanos sidecar 方法不可用，metric 存储必须置于集群之外。...还可以设置本地数据的保留时间。在这种情况下，所有本地数据都会保留 30 天以供日常使用和故障排除，这样可以加快查询速度。...超过 30 天的数据仅在 S3 上可用，最长可保留 1 年，用于长期评估和比较。数据查询数据被收集并存储在 receiver 中以供查询。这部分也设置为多数据中心可用。...远程数据查询该 Store 还保留存储在 S3 存储桶上的每个 TSDB 块的索引的本地副本，因此如果需要查询超过 30 天的数据，它知道要下载和使用哪些块来提供数据。...总结配置和设置上述架构大约需要一个月左右的时间，包括测试其他一些解决方案、验证架构、实现、在集群上开启收集以及创建所有仪表盘。在第一周，好处是显而易见的。

7962 0

使用 Thanos+Prometheus+Grafana 打造监控系统

K8sMeetup 架构我们的集群上没有可用的持久化存储（所有服务都保持无状态），所以默认的 Prometheus + Thanos sidecar 方法不可用，metric 存储必须置于集群之外。...还可以设置本地数据的保留时间。在这种情况下，所有本地数据都会保留 30 天以供日常使用和故障排除，这样可以加快查询速度。...超过 30 天的数据仅在 S3 上可用，最长可保留 1 年，用于长期评估和比较。 K8sMeetup 数据查询数据被收集并存储在 receiver 中以供查询。这部分也设置为多数据中心可用。...远程数据查询该 Store 还保留存储在 S3 存储桶上的每个 TSDB 块的索引的本地副本，因此如果需要查询超过 30 天的数据，它知道要下载和使用哪些块来提供数据。...K8sMeetup 总结配置和设置上述架构大约需要一个月左右的时间，包括测试其他一些解决方案、验证架构、实现、在集群上开启收集以及创建所有仪表盘。在第一周，好处是显而易见的。

2.4K2 0

Prometheus的配置文件prometheus.yml详细说明

# 如果honor_labels 设置为“true”，标签冲突通过从抓取的数据中保留标签值并忽略冲突的服务器端标签来解决。...# 将 Honor_labels 设置为“true”对于联邦和抓取 Pushgateway 等用例很有用，其中应保留目标中指定的所有标签。...[ honor_labels: | default = false ] # Honor_timestamps 控制 Prometheus 是否尊重抓取数据中存在的时间戳。...# 如果 Honor_timestamps 设置为“true”，则将使用目标公开的指标的时间戳。 # 如果honour_timestamps 设置为“false”，则目标公开的指标的时间戳将被忽略。...如果在目标之后存在超过此数量的目标重新标记，Prometheus 会将目标标记为失败而不抓取它们。 0 表示没有限制。这是一个实验性功能，这种行为可能未来改变。

11.8K3 1

快速上手Thanos：高可用的 Prometheus

我们在使用 Prometheus / Grafana 堆栈进行监控方面有一些经验，我们了解到我们希望创建一个更好、高可用性和弹性的基础架构，具有可行且具有成本效益的数据保留，此外，它还允许我们为HiredScore...每个Prometheus pods在专用PVC中保存最后几个小时，在规定的保留时间后，数据通过Thanos sidecar发送到S3桶。...需要在值中应用的一些更改：第1步：使 Prometheus 高可用：设置Prometheus Replica Count— 所需的Prometheus副本数（超过2个） https://github.com...，它们设置为2小时。...Prometheus 的保留时间建议不低于 min block duration 的3倍，即6小时。

2.1K1 0

Thanos的架构剖析

Prometheus在设计之初就是一款实时的监控系统。 Thanos Thanos是一组组件，可以组成具有长期存储功能的高可用性Prometheus设置。...其主要目标是简化操作并保留Prometheus的可靠性。Thanos依赖于Prometheus,且仅支持Prometheus2.0版本之后的数据格式。...数据降准对历史数据的检索需要用降准的方式进行：如果检索一天的数据，则通常以h或者10min中为维度；如果检索一个月的数据，则通常以d或者h为维度，因为，在浏览器渲染数据的时候，如果检索时间很长，维度很小...，则代表着会有大量的数据，甚至会超过屏幕的像素显示上限，从而失去意义，且网络的IO消耗，接口响应时间也会很高，所以需要将数据进行降准。...Thanos会将原始的监控数据降准汇聚，将初始30s为周期的监控数据经过两次压缩后，汇聚成以1h为周期的数据。

3K1 1

构建下一代万亿级云原生消息架构：Apache Pulsar 在 vivo 的探索与实践

Ledger 只有在翻转后才会创建新的 Ledger，Ledger 过大会导致某段时间内写入某个磁盘的数据过多，产生磁盘存储不均衡的问题；针对 Ledger 为对象的一些操作也会受到影响，产生无法及时卸载数据到二级存储...TTL：若某 Topic 没有活跃订阅，超过 TTL 存活时间的消息会被主动 Ack ，本质上是移动 cursor 第三阶段：消息保留时间检查 Retention：对已经 Ack 的消息的保留策略，按保留周期和保留大小设置来保留消息...超过 rentention 保留周期和保留大小的消息，系统会从当前已经 ack 消息的最新位置往前检查并获取已经过期的 ledger，将其标记删除。图 8....建议集群维护者建立简单统一的规则处理数据保留策略，如可以设置 TTL = Retention 保留周期值。数据删除此处介绍数据的物理删除。...Bookie 在处理数据写入过程时，会将同一段时间内的数据经过排序 flush 到同一个 Entry Log 文件中，将索引存放在 RocksDB 中。

7171 0

第03期：Prometheus 数据采集（二）

注意以下几点： Prometheus 在 relabel 步骤默认会为 target 新增一个名为 instance 的标签，并设置成 "__address__" 标签的值；在 relabel 结束后...请求超时时间配置在下的 "scrape_timeout"，默认 10s，可根据网络状况作相应调整。标签的合法性也会在这个过程中检查。...3.1 honor label 冲突检查 Prometheus 会默认给 metric 添加一些标签，如 "job"、"instance"，或者某些配置项配置了一些特定标签，如果采集回来的时间序列也存在同名的标签...下的 "honor_labels" 就是用来解决这样的场景的，如果 "honor_labels" 设置为 "true"，那么冲突标签的值会使用采集到的标签值；如果设置为 "false"，采集上来的冲突标签会被重命名...通常用于过滤掉意义不大、或采集成本过高的时间序列。 3.3 save 经过一系列处理后，采集到的数据会被持久化保存，关于数据存储会在后续文章中介绍。

2K2 0

构建企业级监控平台系列（十三）：Prometheus Server 配置详解

设置大小，保留时间默认为15d。支持单位:y, w, d, h, m, s, ms。...设置大小，保留时间默认为15d。支持单位:y, w, d, h, m, s, ms。...：存储的数据标签个数限制，如果超过限制，该数据将被忽略，不入存储；默认值为0，表示没有限制 relabel_configs：拉取数据重置标签配置 metric_relabel_configs：metric...prometheus数据目录中的每个block都是一个独立的数据库，采用的存储方式为被称"时间分片。其优势是可以提高查询效率，查哪个时间段的数据，只需要打开对应的block即可，无需打开多余数据。...Label Offset Table和Label Index i 这两个不再使用了；它们是为向后兼容而编写的，但不会从最新的 Prometheus 版本中读取Postings Offset Table和

1.5K2 2

高可用 Prometheus 的常见问题

以我们的一个 promserver 为例，本地只保留 2 小时数据，95 万 series，大概占用的内存如下：有什么优化方案： sample 数量超过了 200 万，就不要单实例了，做下分片，然后通过...评估 prometheus 的整体响应时间，可以用这个默认指标: prometheus_engine_query_duration_seconds{} 一般情况下响应过慢都是 promql 使用不当导致...可以根据已有数据预测未来趋势如果比较复杂且耗时的 sql，可以使用 record rule 减少指标数量，并使查询效率更高，但不要什么指标都加 record，一半以上的 metric 其实不太会查询到...wal 中的内容 load 到内存里，保留时间越久、wal 文件越大，重启的实际越长，这个是 prometheus 的机制，没得办法，因此能 reload 的，就不要重启，重启一定会导致短时间的不可用...但 prometheus 也曾经对启动时间做过优化，在 2.6 版本中对于 WAL 的 load 速度就做过速度的优化，希望重启的时间不超过 1 分钟[12] 你的应用应该暴露多少指标当你开发自己的服务的时候

1.6K2 0

Prometheus安装与使用

而我们起的另一个服务，叫 Prometheus （中文名普罗米修斯数据库）则是负责存储和查询数据的。...三者的关系准备工作在所有节点上安装 ntpdate 工具，并进行时间同步（因为 Prometheus 对时间要求非常严格） yum -y install ntpdate /usr/sbin/ntpdate...:9090/ 具体的数据： http://192.168.7.101:9090/metrics 例如输入 node_load1 我们就能看到使用influxdb 默认情况下 Prometheus 会将采集的数据存储到本机的...isDefault) { sql = sql + " DEFAULT"; } this.query(sql); } /** * 创建默认的保留策略...，由第一天插入的值得类型决定 fields.put("field2", 3.141592657); // 时间使用毫秒为单位 influxDBConnection.insert("表名",

1.7K2 0

记一次远程写性能问题引发的Prometheus版本升级事件

4.3.先将运行面和控制面采集 Prometheus 副本设置为 0,然后把控制面汇聚 Prometheus 重启，最后将运行面和控制面采集 Prometheus 副本设置为 1 有条件的集群最好可以删除历史数据再重启汇聚和采集...5.1.问题 prometheus 2.33.3 在保留原有数据的情况下升级为 2.43.1 时，报错"opening storage failed: lock DB directory: resource...Prometheus 修复了 OpenMetrics 解析器以正确排序大写标签。 Tracing 和 GRPC 方面仅 insecure 为 false 时设置 TLS 的认证凭据。...我们知道对于 Prometheus 而言，它默认使用了自己的 TSDB，并且有两个主要的限制：在给定的时间序列中，只能以基于时间戳的顺序附加样本，因此当相同 series 已有较新的样本时，不能摄取较旧的样本...；在整个 TSDB 中，最多只能追加比 TSDB 中最新样本早 1 小时的样本（这里假设默认是 2h 的 block 设置）；虽然这通常适用于实时监控用例，但有时您可能有指标生产者需要摄取无序数据或超过一小时的数据

1.7K2 0

高可用 Prometheus 的常见问题

以我们的一个 promserver 为例，本地只保留 2 小时数据，95 万 series，大概占用的内存如下：有什么优化方案： sample 数量超过了 200 万，就不要单实例了，做下分片，然后通过...保留时间 * 每秒获取样本数 * 样本大小保留时间(retention_time_seconds)和样本大小(bytes_per_sample)不变的情况下，如果想减少本地磁盘的容量需求，只能通过减少每秒获取样本数...评估 prometheus 的整体响应时间，可以用这个默认指标: prometheus_engine_query_duration_seconds{} 一般情况下响应过慢都是 promql 使用不当导致...wal 中的内容 load 到内存里，保留时间越久、wal 文件越大，重启的实际越长，这个是 prometheus 的机制，没得办法，因此能 reload 的，就不要重启，重启一定会导致短时间的不可用...但 prometheus 也曾经对启动时间做过优化，在 2.6 版本中对于 WAL 的 load 速度就做过速度的优化，希望重启的时间不超过 1 分钟[12] 你的应用应该暴露多少指标当你开发自己的服务的时候

3.1K4 3

Cloudflare 如何大规模运行 Prometheus

第 2 步：判断是新建还是更新时间序列在从应用程序收集了一系列样本后，Prometheus 就会将其保存到 TSDB——时间序列数据库——Prometheus 保存所有时间序列的数据库。...在设定的保留期内，Prometheus 会将每个样本块保存在磁盘上。样本块最终会被“压缩”，也就是说，Prometheus 会把多个样本块合并在一起，形成一个覆盖更大时间范围的样本块。...99% 的应用程序输出的指标都不会超过这些正常的默认值。默认情况下，每个时间序列上最多只能有 64 个标签，这远远超过了大多数指标所需的标签数量。...最后，默认情况下，我们将 sample_limit 设置为 200——这样，在不做任何操作的情况下，每个应用程序就可以输出多达 200 个时间序列。...通过在所有 Prometheus 服务器上设置这个限制，就可以保证抓取的时间序列永远不会超过我们的内存容量。这是我们为避免 Prometheus 服务器因内存不足而崩溃所设置的最后一道防线。

6032 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭