概述
LogListener 服务日志功能支持记录 LogListener 端运行状态和采集监控的日志数据并配置可视化视图,提供重要指标数据,便于用户观测了解 LogListener 的运行状态和日志采集统计情况。
默认配置
默认配置项 | 配置内容 |
日志主题 | 当在某一地域下首次为机器组开启 LogListener 服务日志时,会在该地域自动为您创建一个 cls_service_logging 日志集,并将当前以及未来该地域下所有开启 LogListener 服务日志的机器组所产生的 LogListener 服务日志保存到以下3个日志主题中: loglistener_status:对应 LogListener 的心跳状态日志。 loglistener_alarm:对应 LogListener 的采集指标/错误类型监控日志。 loglistener_business :对应 LogListener 的采集操作日志,每条日志对应一次请求。 |
日志存储时间 | 默认保存7天,不支持修改存储时间。 |
索引 | 默认为采集到的所有日志数据开启键值索引。不支持修改索引配置。 |
仪表盘 | 默认生成 CLS 日志采集状态监控预置仪表盘。 |
说明:
LogListener 服务日志专属用于 LogListener 采集监控产生的日志,不支持写入其他数据。
LogListener 服务日志功能产生的日志数据不产生费用。
cls_service_logging 为统一的 LogListener 服务日志的日志集。
前提条件
当前仅支持 Linux 机器组开启服务日志,并且机器组需要关联采集配置才能上报服务日志数据,如果机器组未关联任何采集配置,则不会上报任何服务日志。
应用场景
查看 LogListener 状态
开通 LogListener 服务日志功能后,您可以查看 LogListener 运行状态和采集统计情况。用户可以通过 service_log_dashboard 仪表盘,查看活跃 LogListener 数、LogListener 状态分布等统计指标。
采集端监控配置
开通 Loglistener 服务日志功能后,您可以按指标/错误类型,配置采集端监控指标,例如:
根据 MEM、CPU、采集速度、采集延时等指标进行监控。
根据 LogListener 解析错误次数的维度进行监控。
文件级监控
开通 Loglistener 服务日志功能后,您可以查看文件及目录的监控日志,例如:
某个 IP 上所有文件的采集统计文件。
某个 IP 上某个路径下的采集日志量情况,如 app1 应用日志位于/var/log/app1/,统计这个路径下的日志采集情况。
某个 topic 的采集统计情况。
前提条件
操作步骤
开通服务日志
1. 登录 日志服务 控制台。
2. 在左侧导航栏中单击机器组管理,进入机器组列表页。
3. 在机器组列表页,选择目标机器组,单击
,即可开启 LogListener 服务日志。
关闭服务日志
1. 登录 日志服务 控制台。
2. 在左侧导航栏中单击机器组管理,进入机器组列表页。
3. 在机器组列表页,选择目标机器组,单击
,即可关闭 LogListener 服务日志。说明:
关闭服务日志功能后,日志集 cls_service_logging 中保存的日志数据不会自动删除,如果您需要删除这部分日志数据,可以手动删除保存服务日志的日志集。
服务日志仪表盘
开启 LogListener 服务日志后,日志服务会默认生成 CLS 日志采集状态监控预置仪表盘,展示 LogListener 采集监控统计。
CLS 日志采集状态监控仪表盘
单击仪表盘的名称,查看 LogListener 采集相关的统计信息,包括 LogListener 状态展示、LogListener 解析失败率、LogListener 发送成功率等指标信息。
日志字段描述
LogListener 状态日志(Loglistener_status)
日志主题 Loglistener_status 的字段具体说明如下:
字段 | 描述 |
InstanceId | LogListener 唯一标识值,可以在 LogListener 安装目录的 etc/loglistener.conf 中查看具体值,或者在机器组详情中查看 |
IP | 机器组 IP |
Label | 机器标识数组 |
Version | 版本号 |
MemoryUsed | 组件内存使用情况 |
MemMax | Agent 在该机器上设置的内存使用阈值 |
CpuUsage | 组件 CPU 使用率 |
Status | LogListener 运行状态,取值说明为如下: 1:心跳正常 10:鉴权失败 11:日志主题不存在 13:日志上传请求超频 20:CPU 利用率超限 21:目标采集文件数超限 22:目标采集目录数超限 23:内存占用超限 |
TotalSendLogSize | 发送日志量大小 |
SendSuccessLogSize | 发送成功日志量大小 |
SendFailureLogSize | 发送失败日志量大小 |
SendTimeoutLogSize | 发送超时日志量大小 |
TotalParseLogCount | 解析总日志条数 |
ParseFailureLogCount | 解析失败日志条数 |
TotalSendLogCount | 总发送日志条数 |
SendSuccessLogCount | 发送成功日志条数 |
SendFailureLogCount | 发送失败日志条数 |
SendTimeoutLogCount | 发送超时日志条数 |
TotalSendReqs | 总发送请求数 |
SendSuccessReqs | 发送成功请求数 |
SendFailureReqs | 发送失败请求数 |
SendTimeoutReqs | 发送超时请求数 |
TotalFinishRsps | 收到的全部 .rsp 文件 |
TotalSuccessFromStart | LogListener 启动到现在总的成功数 |
AvgReqSize | 平均请求包大小 |
SendAvgCost | 平均发送耗时 |
AvailConnNum | 可用连接数 |
QueueSize | 排队请求大小 |
LogListener 告警日志(Loglistener_alarm)
日志主题 Loglistener_alarm 的字段具体说明如下:
监控指标分类 | 描述 |
InstanceId | LogListener 唯一标识值 |
Label | 机器标识数组 |
IP | 机器组 IP |
Version | LogListener 版本 |
AlarmType.count | 告警类型统计 |
AlarmType.example | 告警类型样例 |
AlarmType :
alarm type | type ID | 描述 |
UnknownError | 0 | 初始化 alarm 类型 |
UnknownError | 1 | 解析失败 |
CredInvalid | 2 | 认证失败 |
SendFailure | 3 | 发送失败 |
RunException | 4 | LogListener 运行异常 |
MemLimited | 5 | 触发 mem limited 限制 |
FileProcException | 6 | 文件处理异常 |
FilePosGetError | 7 | 获取 file pos 失败 |
HostIpException | 8 | host IP 线程异常 |
StatException | 9 | 获取进程相关信息异常 |
UpdateException | 10 | cls update 功能异常 |
DoSendError | 11 | dosend 失败 |
FileAddError | 12 | 文件新增失败 |
FileMetaError | 13 | 元数据文件新增失败 |
FileOpenError | 14 | open file 失败 |
FileReadError | 15 | read file 失败 |
FileStatError | 16 | stat file 失败 |
GetTimeError | 17 | getTimeFromLogContent 失败 |
HandleEventError | 18 | handle file event 异常 |
HandleFileCreateError | 19 | handleFileCreateEvent() 异常 |
LineParseError | 20 | log item 解析失败 |
Lz4CompressError | 21 | 压缩失败 |
ReadEventException | 22 | readEvent 失败 |
ReadFileBugOn | 23 | 触发 bugon |
ReadFileException | 24 | procReadyFile() 异常 |
ReadFileInodeChange | 25 | file inode 发生变化 |
ReadFileTruncate | 26 | Readfile 截断 |
WildCardPathException | 27 | addWildcardPathInotify() 异常 |
LogListener 采集日志(Loglistener_business)
日志主题 Loglistener_business 的字段具体说明如下:
字段 | 描述 |
InstanceId | LogListener 唯一标识值 |
Label | 机器标识数组 |
IP | 机器组 IP |
Version | LogListener 版本 |
TopicId | 文件采集到的目标 topic |
FileName | 文件路径名 |
RealPath | 文件实际路径 |
FileInode | 文件 inode |
FileSize | 文件大小 |
LastReadTime | 上次读取文件时间 |
ParseFailLines | 时间窗口,解析失败日志条数 |
ParseFailSize | 时间窗口,解析失败日志大小 |
ParseSuccessLines | 时间窗口,解析成功日志条数 |
ParseSuccessSize | 时间窗口,解析成功日志大小 |
ReadOffset | 读取文件的偏移量,单位字节 |
TruncateSize | 时间窗口内,truncate 的文件大小 |
ReadAvgDelay | 时间窗口内,读取平均时延 |
TimeFormatFailuresLines | 时间窗口内,时间戳匹配错误次数 |
SendSuccessSize | 时间窗口内,发送成功日志大小 |
SendSuccessCount | 时间窗口内,发送成功日志条数 |
SendFailureSize | 时间窗口内,发送失败日志大小 |
SendFailureCount | 时间窗口内,发送失败日志条数 |
SendTimeoutSize | 时间窗口内,发送超时日志大小 |
SendTimeoutCount | 时间窗口内,发送超时日志条数 |
DroppedLogSize | 时间窗口内,丢掉日志大小 |
DroppedLogCount | 时间窗口内,丢掉日志条数 |
ProcessBlock | 标记一个统计周期内,当前文件是否触发过采集阻塞(一个文件的滑动窗口10分钟未移动过,即为触发) |