前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >tensorflow 性能调优相关

tensorflow 性能调优相关

作者头像
xuyaowen
发布2020-12-30 14:22:03
8040
发布2020-12-30 14:22:03
举报
文章被收录于专栏:XUYAOWEN的专栏

如何进行优化tensorflow 将极大得加速机器学习模型的训练的时间,下面是一下tensorflow性能调优相关的阅读链接:

阅读摘要:

  • input pipeline 优化:
    • 使用 nvidia-smi -l 2 确认一个GPU是否被充分利用;通过gpu 利用率查看瓶颈是否在 input pipeline;
    • 生成一个 timeline, 观察等待状态。判断每一阶段的耗时;
    • 预估当前训练所需要的吞吐,验证所使用的磁盘,能否支持该吞吐量;
  • CPU 预处理:
    • 在CPU上面,进行处理 input pipeline 操作。来进行释放GPU;
  • 使用Dataset API:
    • dataset api 会使用C++多线程机制,会比基于python的queue_runner的开销更低;使用 feed_dict 来进行装载数据将会存在性能问题;
  • 针对于数据集进行融合和裁剪,也能已经程度上加快tensorflow 的处理速度,在尽量少损失数据的情况下,减少整个数据集的大小,以提高处理速度;
  • 使用大文件:
    • 读取大量小文件可以极大影响I/O性能。获取最大的I/O吞吐量的其中一种方法是,将数据预取处理成更大的文件(TFRecord文件)。对于更小数据集,最好的方法是加载整个数据集到内存中。
  • fused Ops:
    • Fused Ops会将多个Op结合成单个kernel来提升性能。在Tensorflow中有许多fused Ops,当可能时XLA会创建fused Ops来自动提升性能。下面的示例会使用fused Ops,可以极大提升性能。
  • Fused batch norm: 没看懂,之前没有使用过,所以不知道如何来进行使用;
  • 编译安装:缺省的TensorFLow二进制包面向大多数的硬件,以便TensorFlow能为所有人所使用。如果使用CPU进行training或inference,推荐使用CPU的所有优化来编译TensorFlow。开启当前适合于当前CPU的优化;
  • GPU优化:数据并行于模型并行,以及考虑GPU之间来进行共享数据;以及CPU 与 GPU 之间的模型共享;
  • CPU优化:Intel® 已经添加了Intel® Math Kernel Library for Deep Neural Networks (Intel® MKL-DNN) 支持;

保持更新,内容来源于网络。更多内容请关注 cnblogs.com/xuyaowen;

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019-12-02 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档