有奖捉虫:行业应用 & 管理与支持文档专题 HOT

概述

您可以通过 日志服务控制台,将数据按照 Parquet 格式投递到对象存储(Cloud Object Storage,COS),Parquet 文件可以被 Hive 加载,多用于大数据的计算分析,下面将为您详细介绍如何创建 Parquet 格式日志投递任务。
注意
Parquet 文件大多用于大数据平台,由于 Parquet 本身有一定的压缩率,加上文件压缩格式(snappy/lzop/gzip),因此,投递文件大小要配置的大一些,建议不小于200MB(投递到 COS 大约在50M)。

前提条件

1. 开通日志服务,创建日志集与日志主题,并成功采集到日志数据。
2. 开通腾讯云对象存储服务,并且在待投递日志主题的地域已创建存储桶,详细配置请参见 创建存储桶 文档。
3. 子账号/协作者需要主账号授权,授权步骤参考 基于 CAM 管理权限,复制授权策略参考 自定义权限策略示例
4. 已授权给腾讯云 CLS 服务角色访问 COS 的权限。大部分用户通过控制台操作时,系统会引导用户完成授权;小部分用户跨过控制台,直接调用 API,这部分客户需要手动去授权,详情参考 投递权限查看及配置

操作步骤

2. 在左侧导航栏中,单击日志主题
3. 单击需要投递的日志主题ID/名称,进入日志主题管理页面。
4. 单击投递至 COS 页签,进入投递至 COS 配置页面,依次填写配置信息。


配置项说明如下:
配置项
解释说明
规则
是否必填
投递任务名称
配置投递任务的名称。
字母、数字、_和-
必填
COS 存储桶
与当前日志主题同地域的存储桶作为投递目标存储桶。
列表选择
必填
COS 路径
COS 存储桶的路径。默认按照/年/月/日/小时/如/2022/7/31/14/ 这种格式在COS上来存储投递的日志文件,这里支持 strftime 的语法 ,例如投递时间是2022/7/31 14:00,/%Y/%m/%d/生成的路径是/2022/7/31/。/%Y%M%d/%H/生成的路径是/20220731/14/。
/开头
可选
文件命名
选项1:投递时间命名,推荐这个选项,例如202208251645_000_132612782.gz代表的是投递时间_日志主题分区_offset,Hive 也可以加载这种文件。选项2:随机数命名,旧版的命名方式,这种命名方式 Hive 不识别,因为 Hive 不识别_开头的文件,可以在 COS 路径配置项里面添加自定义前缀,例如/%Y%M%d/%H/Yourname。
/
必填
压缩格式
为了帮助用户节约读流量费用,我们将日志文件压缩后再投递到 COS,支持 Snappy\\lzop\\gzip。
gzip\\snappy\\lzop
必填
投递文件大小
需要投递的原始日志文件的大小,和投递间隔时间配合使用,哪个条件先触发,就按照哪个规则去压缩文件,然后投递到 COS。例如配置256M,15分钟,如果文件大小在5分钟就到了256MB,那么文件大小这个条件先触发投递任务。
5 - 256,单位:MB
必填
投递间隔时间
指定间隔多长时间,触发一次投递,和投递文件大小配合使用,哪个条件先触发,就按照哪个规则去压缩文件,然后投递到 COS。例如配置256MB,15分钟,如果文件大小在15分钟时仅为200MB,间隔时间这个条件先触发投递任务。
300 - 900,单位:s
必填
5. 单击下一步,进入高级配置,选择投递格式为 Parquet,如下图所示, __SOURCE____FILENAME____HOSTNAME__是 CLS 的元数据字段,如果不需要,可以删除。配置项说明参考下表。


配置项说明如下:
配置项
解释说明
规则
是否必填
键值名称(key)
写入 Parquet 文件的键值(key)字段。系统会自动拉取日志中的键值供用户选择,如果后续用户在日志中又新增了其他字段,可以单击下方的添加按钮自行添加,但不能和已有的键值重名,字段名支持字母、数字、_和-。
列表选择
必填
数据类型
该字段在 Parquet 文件中的数据类型,String、boolean、int32、int64、float、double。
列表选择
必填
解析失败赋值
数据类型解析(转换)失败时,可以自定义赋值,String类型的空就是空字符串"",NULL表示未知。布尔、整型、浮点型均可自定义赋值。
列表选择
必填