前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >关于 takin-data,你想知道的都在这里(二)trace 日志篇

关于 takin-data,你想知道的都在这里(二)trace 日志篇

原创
作者头像
数列科技
修改2021-09-13 14:55:05
2540
修改2021-09-13 14:55:05
举报
文章被收录于专栏:Takin应用Takin应用

相信大家在使用takin的过程中都见到过压测过程中实时展示的请求流量明细和请求详情了吧,像这样:

在这里插入图片描述
在这里插入图片描述

还有这样:

在这里插入图片描述
在这里插入图片描述

这样的请求流量明细和调用链详情是怎么实现的呢,今天就带大家探究下。

在前面的启动命令篇(https://news.shulie.io/?p=3450),我们简单介绍了surge-deploy的启动命令,里面关于IP映射的章节相信大家都还有印象,我们会读取IP映射信息将我们的日志接收服务注册到zk上,供我们的linkAgent读取,并发送日志到上面。发送的是什么日志呢,就是我们今天要说的trace日志。

先来看一下日志的文件路径,在我们的应用接入linkAgent并成功启动后,在我们的/apps/logs_pradar(默认日志输出目录,可以通过agent.properties中simulator.log.path配置进行调整)目录下面将会看到以下内容:

在这里插入图片描述
在这里插入图片描述

这里面的tank_demo和tank-gateway-demo就是我们接入到linkAgent的应用,打开tank-gateway-demo:

在这里插入图片描述
在这里插入图片描述

我们能看到以下几个日志文件,不知道大家有没有查看过里面的内容呢,其实我们的trace日志就保存在pradar_trace.log.0这个文件里。

说到这,需要给大家解释下trace日志的含义:我们的LinkAgent采用的是字节码增强的技术,当请求流经各个应用时,将会记录应用代码中的真实的调用关系,包含请求的上下游应用名称,接口名称,服务名称等等信息,其中最重要的就是一个全局的traceId,这个traceId在请求第一次到达时生成,随后不断传递,一直到请求完成的最下游应用,即调用链的底部,这样生成的数据就是我们的trace日志。

接下来,我们来看下pradar_trace.log.0文件里面的内容,我们选取demo应用中的user-center应用:

在这里插入图片描述
在这里插入图片描述

相信大家初看这个文件,肯定不知从何看起,这里就要给大家介绍下我们的日志格式了:

traceId|startTime|agentId|invokeId|invokeType|appName|cost|middlewareName|serviceName|methodName|resultCode|request|response|flags|callbackMsg|#samplingInterval|@attributes|@localAttributes

日志的每个字段之间用竖线|进行分割,每一行日志则是用换行符(\r\n)进行分割。有了这个,相信大家再入手肯定不难了。我们以图片中最后一条为例,给大家解读下:

在这里插入图片描述
在这里插入图片描述

用一句通俗的话说,这条trace日志的含义就是,部署在127.0.0.1上,进程号为33212的easy-demo-usercenter-1.0.0应用在1628712100533这个时间收到了一条/user-center/user/shadow_data#POST的请求,应用的容器为tomcat,请求参数为空,响应码为200,没有返回具体的响应信息。哈哈,这样一来大家是不是好理解了!

但是还有一些同学肯定更好学,想知道各个字段在不同中间件下的含义,没关系,这个我们也有!!!

下面就是关于我们的trace日志的各个字段解释:

traceId:关联一次请求相关的日志,全局唯一,在各个系统间传递,组成:

代码语言:txt
复制
IP 地址(8位):ip地址16进制压缩
代码语言:txt
复制
创建时间(13):在存储时用于分区
代码语言:txt
复制
顺序数(4):用于链路采样
代码语言:txt
复制
标志位(1):可选,用于调试和标记
代码语言:txt
复制
进程号(4):可选,单机多进程的应用使用

startTime:方法调用开始时间

agentId:一般为ip+进程号

invokeId:标识日志埋点顺序和嵌套关系,也在各个系统间传递

顺序编号:1、2、3…

多级编号:0、0.1、0.2、0.2.1…

invokeType:

代码语言:txt
复制
web的server端 TYPE_WEB_SERVER = 0
代码语言:txt
复制
远程调用 TYPE_RPC = 1
代码语言:txt
复制
MQ调用 TYPE_MQ = 3
代码语言:txt
复制
数据库调用 TYPE_DB = 4
代码语言:txt
复制
缓存调用 TYPE_CACHE = 5
代码语言:txt
复制
搜索调用 TYPE_SEARCH = 6
代码语言:txt
复制
job类型调用 TYPE_JOB = 7
代码语言:txt
复制
文件系统调用 TYPE_FS = 8
代码语言:txt
复制
本地方法调用 TYPE_LOCAL = 9
代码语言:txt
复制
未知调用 TYPE_UNKNOW = -1

appName:应用名称

cost:方法耗时(ms)

middlewareName:中间件名称

serviceName:

代码语言:txt
复制
web的server端:url, 不带参数,不带协议、域名和端口
代码语言:txt
复制
远程调用:类名
代码语言:txt
复制
MQ调用:topic/ueueq
代码语言:txt
复制
数据库调用:库名
代码语言:txt
复制
缓存调用:库名
代码语言:txt
复制
搜索调用:索引名
代码语言:txt
复制
job类型调用:jobClassName / job 名称
代码语言:txt
复制
文件系统调用:服务地址
代码语言:txt
复制
本地方法调用:类名

methodName:

代码语言:txt
复制
web的server端:http method,统一大写
代码语言:txt
复制
远程调用:方法名(参数列表)、如 test(String,int)、test()
代码语言:txt
复制
MQ调用:group/group|tags/routingKey 
代码语言:txt
复制
数据库调用:表名
代码语言:txt
复制
缓存调用:方法 如 add/pop/spop/delete等等
代码语言:txt
复制
搜索调用:操作的方法名
代码语言:txt
复制
job类型调用:jobType
代码语言:txt
复制
文件系统调用:文件路径
代码语言:txt
复制
本地方法调用:方法名(参数列表)、如 test(String,int)、test()

resultCode:00(成功)/01(失败)/02(业务错误)/03(超时)/04(未知)/05(断言失败)

request:

代码语言:txt
复制
web的server端:请求体内容
代码语言:txt
复制
缓存调用:key

response:

代码语言:txt
复制
web的server端:响应体内容

flags:

代码语言:txt
复制
位标签,用~分割(第一位标记压测标、第二位标记debug流量、第3位标记是否是trace入口、第4位标记是否是server、第5位标记是否是流量引擎日志)
代码语言:txt
复制
例:true~false~false~true~false

callbackMsg:

代码语言:txt
复制
web的server端:响应码

数据库调用:sql

代码语言:txt
复制
缓存调用:redis客户端名称(例:redis-redisson)

#samplingInterval:采样率

代码语言:txt
复制
例:#1

@attributes:包括 traceAppName(入口应用名称)、traceServiceName(入口服务名)、traceMethod(入口方法名称)、taskId(压测报告ID)

代码语言:txt
复制
例:@easydemo~/get~POST~14

@localAttributes:包括 upAppName(上游应用名称)、remoteIp(主机ip)、remotePort(主机端口)、requestSize(请求大小)、responseSize(响应大小)

代码语言:txt
复制
例:@easydemo~127.17.0.1~3306~0~0

那知道了trace日志的含义和组成后,我们回到开始的问题:请求详情和调用链是怎么实现的?相信有不少小伙伴也已经猜到了:linkAgent会将我们的trace日志推送给surge-deploy,由我们的大数据写入到clickhouse中,最后再从clickhouse中查询得到这些信息!

下面,再附上clickhouse的连接命令,小伙伴们也可以直接查询clickhouse来查询自己的请求数据:

  • 登录容器

docker exec -it ${containerid} bash

  • 登录clikhouse

clickhouse-client -h 0.0.0.0 --password='rU4zGjA/'

  • 查询t_trace_all表

select * from t_trace_all limit 10;

t_trace_all的表结构,小伙伴们也可以看一下:

在这里插入图片描述
在这里插入图片描述

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
消息队列 TDMQ
消息队列 TDMQ (Tencent Distributed Message Queue)是腾讯基于 Apache Pulsar 自研的一个云原生消息中间件系列,其中包含兼容Pulsar、RabbitMQ、RocketMQ 等协议的消息队列子产品,得益于其底层计算与存储分离的架构,TDMQ 具备良好的弹性伸缩以及故障恢复能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档