开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

使用Kedro钩子将git_sha作为参数记录在Mlflow上

Kedro是一个基于Python的开源数据和机器学习工作流管理框架，它可以帮助开发者组织、管理和复现数据和机器学习项目。

Git SHA是指Git版本控制系统中的提交哈希值，它唯一标识了代码库中的一个提交。通过记录Git SHA，我们可以追踪代码的版本和变化，并将这些信息与Mlflow集成，以便更好地管理和追踪机器学习实验。

在Kedro中，我们可以使用钩子（hook）来执行一些额外的操作。在这个问题中，我们要使用Kedro钩子将Git SHA作为参数记录在Mlflow上。下面是实现这个目标的步骤：

首先，确保你的项目中已经集成了Kedro和Mlflow。
创建一个Python文件，命名为git_hook.py（或者任意你喜欢的名称），用来定义Kedro钩子。
在git_hook.py中，引入需要的依赖库，如kedro.framework.hooks和mlflow。
创建一个继承自kedro.framework.hooks.AbstractHook的类，命名为GitHook。
在GitHook类中，重写after_catalog_created方法。该方法会在Kedro项目的数据目录（catalog）创建后被调用。
在after_catalog_created方法中，使用subprocess库执行git rev-parse HEAD命令获取当前Git仓库的最新提交的SHA值。
将获取到的Git SHA值传递给Mlflow的log_param方法，以记录在Mlflow中。
在Kedro项目的根目录中创建一个hooks.py文件，用来注册和启用我们定义的钩子。
在hooks.py中，引入git_hook.py并将GitHook类注册到Kedro中。
运行Kedro命令，如kedro run，触发钩子的执行。钩子将在数据目录创建后被调用，执行Git SHA获取和记录的操作。

通过以上步骤，我们就可以使用Kedro钩子将Git SHA作为参数记录在Mlflow上。这样，我们可以在Mlflow中查看每个实验对应的Git版本，并追踪代码的变化和效果。

在腾讯云中，你可以使用以下相关产品和服务来支持这个流程：

腾讯云代码仓库：提供了一个托管Git仓库的服务，可以用来存储和管理你的代码。链接地址：腾讯云代码仓库
腾讯云容器服务（TKE）：提供了弹性的容器化服务，可以用来运行和管理Kedro项目和相关容器。链接地址：腾讯云容器服务
腾讯云云服务器（CVM）：提供了可扩展的云服务器实例，可以用来部署和运行Kedro项目和相关应用。链接地址：腾讯云云服务器

这些产品和服务可以帮助你在腾讯云上构建和管理你的云计算和机器学习工作流。请根据实际需求选择合适的产品和服务配置。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

etcd源码分析 - 0.搭建学习etcd的环境

但如果要更深入地研究etcd，就需要我们涉及到源码、并结合实践进行学习。那么，接下来，我将基于v3.4这个版本，做一期深入的环境搭建。

02

还在用Github管理机器学习项目？你早该了解这些更专业的新工具！

机器学习，不过是和数据和软件打交道。那就应该是是运行代码、迭代算法的简单问题呀？一段时间后，我们就能拥有一个完美的训练有素的ML模型。

00

训练可视化工具哪款是你的菜？MMCV一行代码随你挑

在深度学习中可视化模型的训练过程有助于我们分析模型的状态。可视化训练过程的库很多，我们将一些常用的库集成到 MMCV 中方便用户使用。在 MMCV 中使用这些库只需简单配置。在本文中将介绍这些库以及它们在 MMCV 中的使用方法。

03

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

雷锋网 AI 研习社按：机器学习开发有着远超传统软件开发的复杂性和挑战性，现在，Databricks 开源 MLflow 平台有望解决其中的四大痛点。

01

一站式机器学习开业平台 MLflow 怎么样？

机器学习(ML)通常需要使用广泛的数据集、数据预处理步骤和算法逻辑进行实验，以构建最优指标的模型。模型构建成功后，还需要将其部署到生产系统，监控其效果和性能，并根据新数据不断对其进行重新训练和迭代模型工作，如下：1

03

独家 | 6个Python数据科学库正在狂飙，你一定要学来提升文化素养

作者：Bex T翻译：wwl 校对：张睿毅本文约3200字，建议阅读8分钟计算类数据科学库，已经不再局限在Pandas、NumPy、Scikit-learn之内了！动机 2023年的开始，自然需要探索数据科学和机器学习的新趋势。经典的数据科学库Pandas、NumPy、Matplotlib、Scikit-learn虽然很重要，但是已经不够用了。这个系列的上一篇文章（https://towardsdatascience.com/8-booming-data-science-libraries-you-mu

05

代替Git进行机器学习实验管理的工具推荐

机器学习从业者通常通过实验算法、数据和超参数来开发新的机器学习模型。随着实验和项目规模的不断扩大，特别是在大中型企业中，越来越多的模型需要进行有效管理，上图展示了在谷歌中人工智能相关的存储库正在呈指数级增长。机器学习从业者需要一种高效的方法来存储、检索和利用模型版本、超参数和性能指标等细节。

02

Flux 如何监听镜像标签更新实现 GitOps

前面我们在使用 Flux 进行 Gitops 实践的过程中，我们每次都需要在 CI 流水线去手动更新 Git 代码仓库中的 Values 文件的镜像版本，这样就会比较麻烦，和 Argo CD 类似，Flux 也提供了一个 Image Automation 控制器的功能。

04

如何优雅的玩转 Git

Git 和其它版本控制系统（包括 Subversion 和近似工具）的主要差别在于 Git 对待数据的方式。从概念上来说，其它大部分系统以文件变更列表的方式存储信息，而 Git 是把数据看作是对小型文件系统的一系列快照。

03

8.3 自定义 Git - Git 钩子

和其它版本控制系统一样，Git 能在特定的重要动作发生时触发自定义脚本。有两组这样的钩子：客户端的和服务器端的。客户端钩子由诸如提交和合并这样的操作所调用，而服务器端钩子作用于诸如接收被推送的提交这样的联网操作。你可以随心所欲地运用这些钩子。

02

利用Git钩子实现代码发布

客户端钩子分为很多种。下面把它们分为：提交工作流钩子、电子邮件工作流钩子和其它钩子。

03

【Git实战技巧】恢复被强制推送push失踪的代码

Git是一个易学难精的分布式版本控制系统，被我们码农常用于代码的管理。如果你还不了解Git，建议先通过廖雪峰的Git教程进行了解，再来看本文，因为本文以使用技巧为主，不会在基础名词上做过多解释。

01

明月机器学习系列025：机器学习建模实验的最佳实践

我们平时使用scikit-learn做机器学习建模，主要是实验环境是notebook(jupyter)，有些问题就像牛皮癣一样，很难去除，例如：

03

【Git实战技巧】恢复被强制推送push失踪的代码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

04

【机器学习】使用MLflow管理机器学习模型版本

在机器学习项目中工作通常需要大量的实验，例如尝试不同的模型、特征、不同的编码方法等。

02

机器学习需要掌握的九种工具！

学术界在推进技术方面发挥了巨大作用，但学术界和工业界往往存在一种分割状态。我们经常会看到这种现象：无数很棒的辅助工具在学术界被忽视，但在工业界很受欢迎。对于很多研究者来说，学习一种新工具可能存在困难，不愿意花费过多的时间去尝试，在当前自己掌握的工具足以应对各种问题时尤其如此。

03

Spark团队新作MLFlow 解决了什么问题

中午的时候看到了Spark团队新作MLFlow，因为我本身也在做类似的解决方案MLSQL,自然要看看Meitai是怎么做的。所以第一时间把MLFlow相关文档浏览了一遍，并且将MLFlow源码 clone下来大致也看了一遍。

02

你可能不知道的20个Git命令，但真的很实用

如果您曾经浏览过git 手册（或 run man git），那么您会注意到 git 的功能比我们大多数人每天使用的要多得多。很多这些命令都非常强大，可以让你的生活更轻松（其他命令有点小众，但仍然很高兴知道）。

00

强烈推荐掌握的九种工具！好用到飞起

学术界在推进技术方面发挥了巨大作用，但学术界和工业界往往存在一种分割状态。我们经常会看到这种现象：无数很棒的辅助工具在学术界被忽视，但在工业界很受欢迎。对于很多研究者来说，学习一种新工具可能存在困难，不愿意花费过多的时间去尝试，在当前自己掌握的工具足以应对各种问题时尤其如此。

02

Git 使用记录 - 各种撤销

以上操作用于撤销保存在工作区修改，但是不会撤销暂存区中的修改。由于修改还没记录到 git 中，撤销无法恢复，请慎重！

03

机器学习研究需要掌握的9个工具

学术界在推进技术方面发挥了巨大作用，但学术界和工业界往往存在一种分割状态。我们经常会看到这种现象：无数很棒的辅助工具在学术界被忽视，但在工业界很受欢迎。对于很多研究者来说，学习一种新工具可能存在困难，不愿意花费过多的时间去尝试，在当前自己掌握的工具足以应对各种问题时尤其如此。

02

明月深度学习实践002：关于模型训练你应该关注的内容

前面我们已经建立了一个简单的LeNet模型，已经训练它了来做手写数字识别，基于mnist数据集上的效果还是不错的。今天接着写一些模型训练相关的内容。

04

Git Pro深入浅出（三）

前面已经阐述了Git基本的运作机制和使用方式，介绍了许多Git提供的工具来帮助你简单且有效地使用它。本部分将演示如何借助Git的一些重要的配置方法和钩子机制，来满足自定义的需求。

06

8.4 自定义 Git - 使用强制策略的一个例子

在本节中，你将应用前面学到的知识建立这样一个 Git 工作流程：检查提交信息的格式，并且指定只能由特定用户修改项目中特定的子目录。你将编写一个客户端脚本来提示开发人员他们的推送是否会被拒绝，以及一个服务器端脚本来实际执行这些策略。

04

《Redis设计与实现》读书笔记（三十四） ——Redis Lua脚本环境设计与实现

《Redis设计与实现》读书笔记（三十四） ——Redis Lua脚本环境设计与实现（原创内容，转载请注明来源，谢谢）一、创建lua环境为了在redis服务器执行lua脚本，redis服务器内嵌了一个lua环境，redis服务器启动的时候，会自动创建lua环境，步骤如下： 1）创建一个基础lua环境。调用lua的C API函数lua_open，创建新的lua环境。但是这个是原生的环境，redis会对其进行定制。 2）载入多个lua函数库，以便lua脚本的执行。包括基础库、表格库、字符串库、数学库

05

剑桥计算机博士推荐，毕业之前，我需要掌握这9个工具

选自towardsdatascience 作者：Aliaksei Mikhailiuk 机器之心编译编辑：陈萍无论你在创业还是在做学术研究，这些工具都将使你的技能更上一层楼。学术界在推进技术方面发挥了巨大作用，但学术界和工业界往往存在一种分割状态。我们经常会看到这种现象：无数很棒的辅助工具在学术界被忽视，但在工业界很受欢迎。对于很多研究者来说，学习一种新工具可能存在困难，不愿意花费过多的时间去尝试，在当前自己掌握的工具足以应对各种问题时尤其如此。其实，有些工具一时未见到效果，在后期可能会有十倍的回

01

git commit时到底发生了什么？

这个步骤是创建了一个提交对象，提交对象里面就记录了提交的时间、作者、以及提交的原因等信息。

02

MLFlow︱机器学习工作流框架：介绍（一）

之前的很多研究其实跟工程化是比较脱节的，模型在小环境中工作得很好，并不意味着它在任何地方都可以工作得很好。各类开源项目其实很大程度上满足了我这样的调包工程师的需求，那么工程化就非常有必要了。之前《DataOps、MLOps 和 AIOps，你要的是哪个Ops？》文章提到：DataOps、MLOps 和 AIOps的一些异同：

02

使用 git 和 dvc 解决版本控制机器学习模型

和传统的软件开发操作(简称devOps)相比，机器学习操作(简称mlOps)。其中一个原因在于除了代码这种小型简单文件，机器学习实验需要大型数据库和模型组件。

02

云服务仿真：完全模拟 AWS 服务的本地体验 | 开源日报 No.45

LocalStack 是一个云服务仿真器，可以在您的笔记本电脑或 CI 环境中以单个容器运行。它提供了一个易于使用的测试/模拟框架，用于开发云应用程序。主要功能包括：

04

Azure云工作站上做Machine Learning模型开发 - 全流程演示

了解如何在 Azure 机器学习云工作站上使用笔记本开发训练脚本。本教程涵盖入门所需的基础知识：

05

如何将Apache Hudi应用于机器学习

如果要将AI嵌入到企业计算系统中，企业必须重新调整其机器学习（ML）开发流程以使得数据工程师、数据科学家和ML工程师可以在管道中自动化开发，集成，测试和部署。本博客介绍了与机器学习平台进行持续集成（CI），持续交付（CD）和持续培训（CT）的平台和方法，并详细介绍了如何通过特征存储（Feature Store）执行CI / CD机器学习操作（MLOps）。以及特征存储如何将整体的端到端ML管道重构为特征工程和模型训练管道。

03

MLFlow︱机器学习工作流框架：MLFlow docker 实践（二）

本来按照这个MLFlow教程（MLflow系列1：MLflow入门教程（Python）），找台机器跑起来没啥问题；不过，看到项目的github有Dockerfile那必须上啊！然后就被各类报错虐了一下午。。

02

Git目录为什么这么大

本文围绕git的目录过大，从git进行版本控制底层存储出发，简要分析Git目录过大的原因，以及如何处理

01

20个你（可能）不知道的Git命令

如果你曾经浏览过git手册（或运行man git），那么你会注意到git的内容比我们大多数人日常使用的多得多。这些命令中有很多是非常强大的，可以让你的生活变得更轻松（其他的则有点小众，但还是要知道的）。

04

Semgrep结合GitLab实现代码审计实践-服务端

前段时间在做代码审计，发现很多项目都存在安全隐患，大多数是来自于参数未过滤所造成的；为了解决这个问题，我将Web安全开发规范手册V1.0进行了培训，但是效果并不是太理想，原因是培训后开发者的关注点主要在功能完成度上，安全编码对于他们来说并不是核心指标；

03

Git 中文参考（五）

给定一个或多个现有提交，还原相关修补程序引入的更改，并记录一些记录它们的新提交。这需要您的工作树是干净的（没有 HEAD 提交的修改）。

01

开源项目汇总：机器学习前沿探索 | 开源专题 No.60

xFormers 是一个加速 Transformer 研究的工具包，主要功能如下：

01

使用 GitHub 和 Python

借助 GitHub 的网络钩子webhook，开发者可以创建很多有用的服务。从触发一个 Jenkins 实例上的 CI（持续集成）任务到配置云中的机器，几乎有着无限的可能性。这篇教程将展示如何使用 Python 和 Flask 框架来搭建一个简单的持续部署（CD）服务。

01

面向 Kaggle 和离线比赛实用工具库 nyaggle，解决特征工程与验证两大难题（附代码）

在机器学习和模式识别中，特征工程的好坏将会影响整个模型的预测性能。其中特征是在观测现象中的一种独立、可测量的属性。选择信息量大、有差别性、独立的特征是模式识别、分类和回归问题的关键一步，可以帮助开发者最大限度地从原始数据中提取特征以供算法和模型使用。

01

代码托管从业者 Git 指南

六七年前，我机缘巧合进入了代码托管行业，做过基于 Git 支持 SVN 客户端接入、Git 代码托管平台分布式、Git 代码托管读写分离、Git 代码托管高可用等工作，所幸学到了一些知识，积累了一些经验，本次分享我的一点经验之谈，希望对即将进入或者已在代码托管行业的朋友有所帮助。

03

独家｜数据科学家应该了解的5个 Python库（附链接）

作者：Artem Shelamanov 翻译：陈之炎校对：赵茹萱本文约2800字，建议阅读5分钟本文介绍了机器学习库，并掌握了模型架构之后，便可以训练模型解决现实问题。

01

防手抖开源之 Git 钩子

最近“从开源到跑路”的事件逐渐增多，给涉事企业造成了不小的损失。因而相关的防范工作显得愈发重要。

01

Git内部原理介绍

git 是一个内容寻址的文件系统，其核心部分是一个简单的键值对数据库(key-value data store),可以向该数据库插入任意类型的内容，它会返回一个40位长的哈希键值。并在此基础上提供了一个版本控制系统的用户界面。

08

用了5年的Git，你竟然还不晓得它的实现原理！

作者 | 杨夕来源 | https://zhuanlan.zhihu.com/p/53750883 越了解事物的本质就越接近真相。我发现学习Git内部是如何工作的以及Git的内部数据结构这部分内容，对于理解Git的用途和强大至关重要。若你理解了Git的思想和基本工作原理，用起来就会知其所以然，游刃有余。这是Git系列的第一篇，主要会介绍Git的特点以及内部数据结构设计，和完成一次完整提交流程的时候数据是如何变化的。 Git有什么特点？ fast，scalable，distributed revision

02

从工具选择到团队沟通，看ML工程师一步步打造生产级机器学习

这些年，随着数据和计算技术的发展，「机器学习」和「深度学习」已经变成了热门研究领域。对公司来说，虽然使用机器学习很时髦，但首先还是需要评估一下自己的业务能否从中受益。如果你的公司已经认定机器学习对公司的下一步发展来说是必需的，那么作为机器学习工程师的你就该思考如何为生产环境构建机器学习过程了。希望本文能帮你明晰你需要考虑的一些东西。

01

如何在 CentOS 7 上安装 Couchdb

Apache CouchDB 是一个由 Apache 软件基金会开发的免费并且开源的 NoSQL 数据库。

02

代码托管从业者 Git 指南

六七年前，我机缘巧合进入了代码托管行业，做过基于 Git 支持 SVN 客户端接入、Git 代码托管平台分布式、Git 代码托管读写分离、Git 代码托管高可用等工作，所幸学到了一些知识，积累了一些经验，本次分享我的一点经验之谈，希望对即将进入或者已在代码托管行业的朋友有所帮助。

03

大数据开发：Git工作原理解析

本质上，Git是一套内容寻址（content-addressable）文件系统，而和我们直接接触的Git界面，只不过是封装在其之上的一个应用层。这个关系颇有点类似于计算机网络中应用层和下属层的关系。在Git中，那些和应用层相关的命令（也就是我们最常用的命令，如git commit、 git push等），我们称之为porcelain命令（瓷器之意，意为成品、高级命令）；而和底层相关的命令（几乎不会在日常中使用，如git hash-object、git update-index等），则称之为plumbing命令（管道之意，是连接git应用界面和git底层实现的一个管道，类似于shell，底层命令）。要了解Git的底层原理，就需要了解Git是如何利用底层命令来实现高层命令的。在此之前，让我们先来看一下Git的目录结构，和各个文件在Git中的作用。

01

6. Git 补充内容

显式引用和隐式引用用来指代每一次提交。尽管有时两种引用都不方便,但是幸运的是, Git 提供了许多不同的机制来为提交命名，这些机制有各自的优势,需要根据上下文来选择。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭