您可以通过 Ansible 在多个 Linux 主机上扩展 OpenTelemetry 收集器 的部署,使其在您的可观测性架构中既作为 网关 又作为 代理。在此双重身份中使用 OpenTelemetry 收集器能够将指标、跟踪和日志可靠地收集并转发到分析和可视化平台。
译自 Manage OpenTelemetry Collectors at scale with Ansible,作者 OpenTelemetry Authors; Docs CC BY。
我们概述了一种使用 Ansible 在整个基础架构中部署和管理 OpenTelemetry 收集器可扩展实例的策略。在以下示例中,我们将使用 Grafana 作为指标的目标后端。
在开始之前,请确保您满足以下要求:
OpenTelemetry 收集器角色 通过 Grafana Ansible 集合 提供,版本为 4.0。
要安装 Grafana Ansible 集合,请运行此命令:
ansible-galaxy collection install grafana.grafana
接下来,收集与您的 Linux 主机关联的 IP 地址和 URL,并创建一个清单文件。
Ansible 清单(位于名为 inventory 的文件中)将每个主机 IP 列在单独的行上,如下所示(显示 8 个主机):
10.0.0.1 # hostname = ubuntu-01
10.0.0.2 # hostname = ubuntu-02
10.0.0.3 # hostname = centos-01
10.0.0.4 # hostname = centos-02
10.0.0.5 # hostname = debian-01
10.0.0.6 # hostname = debian-02
10.0.0.7 # hostname = fedora-01
10.0.0.8 # hostname = fedora-02
[defaults]
inventory = inventory # 清单文件的路径
private_key_file = ~/.ssh/id_rsa # 私有 SSH 密钥的路径
remote_user=root
接下来,定义一个 Ansible playbook 来在您的主机上应用您选择或创建的 OpenTelemetry Collector 角色。
在与 ansible.cfg 和 inventory 文件相同的目录中创建一个名为 deploy-opentelemetry.yml 的文件:
- name: Install OpenTelemetry Collector
hosts: all
become: true
tasks:
- name: Install OpenTelemetry Collector
ansible.builtin.include_role:
name: opentelemetry_collectorr
vars:
otel_collector_receivers:
hostmetrics:
collection_interval: 60s
scrapers:
cpu: {}
disk: {}
load: {}
filesystem: {}
memory: {}
network: {}
paging: {}
process:
mute_process_name_error: true
mute_process_exe_error: true
mute_process_io_error: true
processes: {}
otel_collector_processors:
batch:
resourcedetection:
detectors: [env, system]
timeout: 2s
system:
hostname_sources: [os]
transform/add_resource_attributes_as_metric_attributes:
error_mode: ignore
metric_statements:
- context: datapoint
statements:
- set(attributes["deployment.environment"],
resource.attributes["deployment.environment"])
- set(attributes["service.version"],
resource.attributes["service.version"])
otel_collector_exporters:
prometheusremotewrite:
endpoint: https://<prometheus-url>/api/prom/push
headers:
Authorization: 'Basic <base64-encoded-username:password>'
otel_collector_service:
pipelines:
metrics:
receivers: [hostmetrics]
processors:
[
resourcedetection,
transform/add_resource_attributes_as_metric_attributes,
batch,
]
exporters: [prometheusremotewrite]
注意:调整配置以匹配您打算收集的特定遥测以及您计划将其转发到的位置。此配置片段是一个基本示例,旨在收集转发到 Prometheus 的主机指标。
之前的配置将配置 OpenTelemetry Collector 以从 Linux 主机收集指标。
通过运行以下命令在您的主机上部署 OpenTelemetry Collector:
ansible-playbook deploy-opentelemetry.yml
在您的 OpenTelemetry 收集器开始向 Prometheus 发送指标后,请按照以下步骤在 Grafana 中对其进行可视化:
docker run -d -p 3000:3000 --name=grafana grafana/grafana
有关其他安装方法和更详细的说明,请参阅 Grafana 文档。
http://<your_prometheus_host>
,以及任何其他必需的详细信息。100 - (avg by (cpu) (irate(system_cpu_time{state="idle"}[5m])) * 100)
此查询计算过去 5 分钟内每个 CPU 核心未处于“空闲”状态的 CPU 时间的平均百分比。