前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >巧用KubeFATE聚合FATE的联邦学习日志

巧用KubeFATE聚合FATE的联邦学习日志

作者头像
Henry Zhang
发布2021-07-12 10:36:48
4310
发布2021-07-12 10:36:48
举报
文章被收录于专栏:亨利笔记

题图摄于北京奥利匹克公园

注:微信公众号不按照时间排序,请关注公众号“亨利笔记”,并加星标以置顶,以免错过更新。

本文作者为VMware研发工程师,KubeFATE开源项目维护者。

KubeFATE 日志聚合

从 KubeFATE v1.5.1开始支持对 FATE 集群日志的收集功能。通过使用kubefate cluster log命令,可以轻松地收集FATE集群各个组件,或指定单一组件的日志。

为什么要日志聚合

在一个程序运行的生命周期内,日志往往提供了丰富的信息,给予了运维工程师或者程序的用户对程序更好的掌控。日志通常记录在日志文件中,集群应用的日志往往都分散在不同的主机中,这就使得日志的查看十分困难,日志的收集和管理就十分必要。

KubeFATE 的日志聚合功能,就是解决了 FATE 集群的日志分散不容易查看的问题。

日志聚合的价值

使用日志聚合功能可以方便的完成下面的工作:

运行状态监控

集群应用的运行状态是集群是否健康的重要指标。对于 FATE 来说,通过查看日志是了解 FATE 集群运行是否健康的很好的方式。

任务错误排查

程序应用的开发不可避免的会有各式各样的错误,而在使用过程中能够及时的发现问题,定位原因是非常必要的。

KubeFATE 的日志聚合功能对使用 FATE 的用户来说是很好的排查工具

算法调试

针对联邦学习的 AI 计算任务,往往需要多方参与,不同方的集群实例分散在各种复杂的环境当中,这就对了联邦学习算法设计调试带来了非常大的挑战。

KubeFATE 的日志聚合可以收集单方的所有日志信息,对调试分析提供了有力的支持。

任务监控

AI 计算正式生产的任务通常需要巨大的计算量,也需要较长的任务时间,在这期间保证集群的健康运行就显得非常重要,通过集群的所有日志了解集群的健康状态是一个非常重要的手段。

使用方法

KubeFATE的日志聚合功能对使用FATE带来了极大的改变,那么接下了看下如何使用这些功能。

命令

代码语言:javascript
复制
kubefate cluster logs [options] <cluster_ID>  [modules_name]

[options] 是命令的选项

<cluster_ID> 是指定FATE集群的ID (必选)

[modules_name] FATE对应的模块组件

选项

示例

代码语言:javascript
复制
$ kubefate cluster list
UUID                                  NAME       NAMESPACE  REVISION  STATUS   CHART  ChartVERSION  AGE
8b980f0b-b139-40b2-a94d-d5aebd14d913  fate-9999  fate-9999  1         Running  fate   v1.5.1        100s

通过日志检查指定组件是否成功运行

查看python组件的日志

代码语言:javascript
复制
kubefate cluster logs 8b980f0b-b139-40b2-a94d-d5aebd14d913 python

查看rollsite组件的日志

代码语言:javascript
复制
kubefate cluster logs 8b980f0b-b139-40b2-a94d-d5aebd14d913 rollsite

持续监控组件的日志

监控python组件的日志

代码语言:javascript
复制
kubefate cluster logs -f 8b980f0b-b139-40b2-a94d-d5aebd14d913 python

持续监控集群所有组件的日志

代码语言:javascript
复制
kubefate cluster logs -f 8b980f0b-b139-40b2-a94d-d5aebd14d913

监控错误日志

代码语言:javascript
复制
kubefate cluster logs 8b980f0b-b139-40b2-a94d-d5aebd14d913 | grep ERROR

查看单个任务日志

代码语言:javascript
复制
kubefate cluster logs b4db45a6-e9b5-4350-8be3-511ea72c76cf | grep <Job_ID>

要想了解云原生、机器学习和区块链等技术原理,请立即长按以下二维码,关注本公众号亨利笔记 ( henglibiji ),以免错过更新。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-06-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 亨利笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • KubeFATE 日志聚合
    • 任务监控
    相关产品与服务
    联邦学习
    联邦学习(Federated Learning,FELE)是一种打破数据孤岛、释放 AI 应用潜能的分布式机器学习技术,能够让联邦学习各参与方在不披露底层数据和底层数据加密(混淆)形态的前提下,通过交换加密的机器学习中间结果实现联合建模。该产品兼顾AI应用与隐私保护,开放合作,协同性高,充分释放大数据生产力,广泛适用于金融、消费互联网等行业的业务创新场景。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档