首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

开源推荐 | 针对训练&大模型场景,提供端到端命令行&可视化调试调优工具,帮助用户快速提高模型开发效率

一、项目简介

Ascend Training Tools,昇腾训练工具链。针对训练&大模型场景,提供端到端命令行&可视化调试调优工具,帮助用户快速提高模型开发效率。

二、开源协议

使用 Apache-2.0 开源许可协议

三、模型训练迁移全流程

四、使用说明

分析迁移工具

脚本分析工具

脚本分析工具提供分析脚本,帮助用户在执行迁移操作前,分析基于GPU平台的PyTorch训练脚本中算子、三方库套件、亲和API分析以及动态shape的支持情况。

(推荐)自动迁移工具

自动迁移只需在训练脚本中导入库代码即可完成模型脚本迁移,使用方式较简单,且修改内容最少。

脚本迁移工具

脚本迁移工具提供后端命令行用于将GPU上训练的PyTorch脚本迁移至NPU上,得到新的训练脚本用于训练。

精度工具

api_accuracy_checker(Ascend模型精度预检工具)

在昇腾NPU上扫描用户训练模型中所有API,进行API复现,给出精度情况的诊断和分析。

ptdbg_ascend(PyTorch精度工具)

进行PyTorch整网API粒度的数据dump、精度比对和溢出检测,从而定位PyTorch训练场景下的精度问题。

性能工具

compare_tools(性能比对工具)

提供NPU与GPU性能拆解功能以及算子、通信、内存性能的比对功能。

cluster_analyse(集群分析工具)

提供多机多卡的集群分析能力(基于通信域的通信分析和迭代耗时分析), 当前需要配合Ascend Insight的集群分析功能使用。

merge_profiling_timeline(合并大json工具)

融合多个Profiling的timeline在一个json文件中的功能。

五、Tensorboard

Tensorboard支持NPU性能数据可视化插件PyTorch Profiler TensorBoard NPU Plugin。

支持将Ascend平台采集、解析的Pytorch Profiling数据可视化呈现,也兼容GPU数据采集、解析可视化。

六、分支维护状态

ATT分支名称格式为:版本号-ATT,而版本号命名规则如下:

ATT仓每年发布4个版本,每个版本都将对应一个分支;以v6.0为例,其将对应v6.0.RC1、v6.0.RC2、v6.0.RC3以及v6.0.0四个版本,在仓库中将存在与之对应的分支(增加后缀ATT,例如v6.0.0-ATT);

同时每个版本都将对应一个标签,例如v6.0.RC1-ATT,后续在对分支进行维护过程中将定期进行对应版本标签的更新,例如对v6.0.RC1-ATT标签再次更新之后将打标签v6.0.RC1.1,后续更新末尾数字依次增加。

七、源码地址

本项目代码仓库:

https://gitee.com/ascend/att

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Osy7dZOzjkbwH5k5aRDqUpgw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券