在TPU上训练时，验证损失变为nan，但在GPU上完全正常 - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

caffe+报错︱深度学习参数调优杂记+caffe训练时的问题+dropout/batch Normalization

从云到端，谷歌的AI芯片2.0

对于智能终端厂商来说，能够自研SoC芯片似乎才是顶级实力的象征。众所周知，盘踞全球智能手机前三甲的三星、华为、苹果，无一例外都拥有自研的SoC芯片。

我用24小时、8块GPU、400美元在云上完成训练BERT！特拉维夫大学新研究

之前有做过统计，使用谷歌云TPU或英伟达GPU训练完整个模型需要虽然只需1个小时，但是上千块TPU/GPU均需耗价上万美元。

Matlab 使用CNN拟合回归模型预测手写数字的旋转角度

一个深度学习文档分享一下，很简单，但思路不错，在个人项目上也可以按照需求变化数据集来实现CNN回归计算。

Transformer在进化！谷歌大脑用架构搜索方法找到Evolved Transformer

在过去的几年里，神经架构搜索领域取得了极大进展。通过强化学习和进化得到的模型已经被证明可以超越人类设计的模型（Real et al., 2019; Zoph et al., 2018）。这些进展大多聚焦于改善图像模型，但也有一些研究致力于改善序列模型（Zoph & Le, 2017; Pham et al., 2018）。但在这些研究中，研究者一直致力于改良循环神经网络（RNN），该网络长期以来一直用于解决序列问题（Sutskever et al., 2014; Bahdanau et al., 2015）。

灵魂三问 TPU

从 2018 年 10 月到 2019 年 6 月，NLP 三大模型横空出世，分别是 Google 的 BERT，OpenAI 的 GPT-2 和 CMU 和 Google 联手的 XLNet。

一行代码让训练速度提升2倍，飞桨自动混合精度技术详解

随着生活节奏的加快，「等待」已经越来越成为人们希望远离的事情。但是在深度学习领域，模型的参数、数据集的规模等等动辄就是以亿为单位，甚至更大，因此当模型训练成功之时，放一首张靓颖的「终于等到你」作为背景音乐实在是太应景了。

卷积网络又行了？DeepMind推翻Transformer最强传说，LeCun怒赞

DeepMind的研究人员给出了自己的回答——Compute is all you need！

精通 TensorFlow 1.x：16~19

TensorFlow 模型还可用于在移动和嵌入式平台上运行的应用。 TensorFlow Lite 和 TensorFlow Mobile 是资源受限移动设备的两种 TensorFlow。与 TensorFlow Mobile 相比，TensorFlow Lite 支持功能的子集。由于较小的二进制大小和较少的依赖项，TensorFlow Lite 可以获得更好的表现。

从PyTorch到PyTorch Lightning —简要介绍

PyTorch非常易于使用，可以构建复杂的AI模型。但是一旦研究变得复杂，并且将诸如多GPU训练，16位精度和TPU训练之类的东西混在一起，用户很可能会引入错误。

【技术分享】改进官方TF源码，进行BERT文本分类的多卡训练

Google-research开源的BERT代码中，微调BERT进行文本分类的demo代码是基于TPUEstimator的单卡实现，即使机器上有多块GPU，也无法并行训练，不满足大规模训练的要求。本文分析开源demo代码无法多卡训练的原因，并给出修改代码，支持多卡训练的方案。

一行代码安装，TPU也能运行PyTorch，修改少量代码即可快速移植

对于PyTorch开发者来说，Google Colab上的TPU资源不能用，恐怕是最遗憾的事情了。Google的云计算资源眼看着不能用，转TensorFlow又是不可能的。

柯洁中盘再败！谷歌乘AlphaGo之势强推TPU，与英伟达必有一战

【新智元导读】人机对战第二场，柯洁认输，AlphaGo中盘获胜将比分改写为2：0，TPU可谓是本次AlphaGo升级的秘密武器。由此，许多人认为，谷歌与英伟达必有一战。谷歌已经开始向中国市场上的企业和开发者兜售自己的TPU，加上TensorFlow和谷歌云等标志性业务。这对在深度学习上获利丰厚的英伟达来说可能并不是一件好事。柯洁又输了，与AlphaGo的对决比分被改写为0：2 ! AlphaGo变得更强大了，此前DeepMind和谷歌团队在新闻发布会上说，。除了算法上的改进之外，他们也特别强调了谷歌云和

你的batch size是2次方吗？奇葩选手：我用2的8.5次方

---- 新智元报道编辑：LRS 【新智元导读】你的batch size是多少？最近有大佬做实验表示没必要非得2次方，训练速度影响微乎其微，但评论区却吵翻天了！你有没有疑惑过，为啥batch size都是2的幂数？有人觉得是「习惯」，也有人说这算是一种约定俗成的标准，因为从「计算」的角度来看，batch size为2的幂数有助于提高训练效率。但计算机科学就是一门实践的学科，理论再完美也需要实验结果来验证。最近一位AI研究者Sebastian动手试了一下所有的batch size，结果发

【Pytorch】谈谈我在PyTorch踩过的12坑

1. nn.Module.cuda() 和 Tensor.cuda() 的作用效果差异

PyTorch踩过的12坑 | CSDN博文精选

1. nn.Module.cuda() 和 Tensor.cuda() 的作用效果差异

PyTorch踩过的12坑

1. nn.Module.cuda() 和 Tensor.cuda() 的作用效果差异

【Pytorch填坑记】PyTorch 踩过的 12 坑

1. nn.Module.cuda() 和 Tensor.cuda() 的作用效果差异

评测 | 谷歌 TPU 二代来了，英伟达 Tesla V100 尚能战否？

AI 研习社按：谷歌去年年中推出的 TPUv1 一度让英伟达感受到威胁将近，而现在的谷歌 TPU 二代 TPUv2 则着着实实得将这份威胁变成了现实，去年的评测中英伟达 Tesla V100 尚能不惧谷歌 TPUv1 的挑战，但是现在谷歌 TPU 二代来了，英伟达 Tesla V100 尚能战否？

用免费TPU训练Keras模型，速度还能提高20倍！

很长一段时间以来，我在单个 GTX 1070 显卡上训练模型，其单精度大约为 8.18 TFlops。后来谷歌在 Colab 上启用了免费的 Tesla K80 GPU，配备 12GB 内存，且速度稍有增加，为 8.73 TFlops。最近，Colab 的运行时类型选择器中出现了 Cloud TPU 选项，其浮点计算能力为 180 TFlops。

【NLP应用之智能司法】最强之谷歌BERT模型在智能司法领域的实践浅谈

知乎链接：https://zhuanlan.zhihu.com/p/54934304

聊聊预训练模型的微调

翻译自：Fine-tuning a model with the Trainer API

在TPU上运行PyTorch的技巧总结

Google定制的打机器学习专用晶片称之为TPU（Tensor Processing Unit），Google在其自家称，由于TPU专为机器学习所运行，得以较传统CPU、 GPU降低精度，在计算所需的电晶体数量上，自然可以减少，也因此，可从电晶体中挤出更多效能，每秒执行更复杂、强大的机器学习模组，并加速模组的运用，使得使用者更快得到答案，Google最早是计划用FPGA的，但是财大气粗，考虑到自己的特殊应用，就招了很多牛人来做专用芯片TPU。

预训练小模型也能拿下13项NLP任务，谷歌ALBERT三大改造登顶GLUE基准

通常而言，在预训练自然语言表征时增加模型大小可以提升模型在下游任务中的性能。但在某些情况下，由于 GPU/TPU 内存限制、训练时间延长以及意外的模型退化等原因，进一步增加模型大小的难度也随之增加。

深入了解Google的第一个Tensor Processing Unit（TPU）

作者： Kaz Sato（谷歌云Staff Developer Advocate） Cliff Young（谷歌大脑软件工程师） David Patterson（谷歌大脑杰出工程师）谷歌搜索，街景，

改动一行代码，PyTorch训练三倍提速，这些「高级技术」是关键

近日，深度学习领域知名研究者、Lightning AI 的首席人工智能教育者 Sebastian Raschka 在 CVPR 2023 上发表了主题演讲「Scaling PyTorch Model Training With Minimal Code Changes」。

2017图灵奖得主：通用芯片每年仅提升3%，神经专用架构才是未来

作者：Norman P. Jouppi, Cliff Young, Nishant Patil, David Patterson

ChatGPT 背后的经济账

ChatGPT能否取代Google、百度这样的传统搜索引擎？为什么中国不能很快做出ChatGPT？当前，对这些问题的探讨大多囿于大型语言模型（LLM）的技术可行性，忽略或者非常粗糙地估计了实现这些目标背后的经济成本，从而造成对LLM的开发和应用偏离实际的误判。本文作者从经济学切入，详细推导了类ChatGPT模型搜索的成本、训练GPT-3以及绘制LLM成本轨迹的通用框架，为探讨LLM成本结构和其未来发展提供了可贵的参考视角。来源 | OneFlow、作者｜Sunyan、翻译｜杨婷、徐佳渝、贾川重点概览：

一日一卡挑战：RTX2080Ti搞定大模型训练，算力节省136倍，学界欢呼

机器之心报道编辑：小舟、泽南任何 transformer 变体、任何数据集都通用。在一块消费级 GPU 上只用一天时间训练，可以得到什么样的 BERT 模型？最近一段时间，语言模型再次带火了 AI 领域。预训练语言模型的无监督训练属性使其可以在海量样本基础上进行训练，并获得大量语义语法知识，不论分类还是问答，似乎没有 AI 解决不了的问题。然而，大模型既带来了技术突破，也对算力提出了无穷无尽的需求。最近，来自马里兰大学的 Jonas Geiping、Tom Goldstein 讨论了所有关于扩

分布式流水线计算模式，学机器学习的同学要注意了

通过前面几篇文章，我们一起学习了分布式计算模式中的 MapReduce、Stream 和 Actor，它们各显神通解决了很多实际问题（分布式计算技术MapReduce 详细解读，分布式计算技术之流计算Stream，打通实时数据处理）。

2020年AI领域有哪些让人惊艳的研究？

前段时间，Google Brain科学家Barret Zoph表示，他们设计了一个名叫「Switch Transformer」的简化稀疏架构，将语言模型的参数量扩展至 1.6 万亿同时带来了诸多评测上的提升。

Julia加入TPU，这是一个靠自己也要融入机器学习的编程语言

过去的几年里推动机器学习技术稳步发展的根本性改变之一是训练和优化机器学习模型的巨大计算力。许多技术都是很年前就已经提出，唯有近几年提升的计算力可以为现实世界的问题提供足够优质的解决方案。这些计算能力的很大一部分是通过 GPU 获取的，其针对向量的计算能力最初是为图形而设计的，但机器学习模型通常需要执行复杂的矩阵运算，因此 GPU 同样表现出了非常好的性能。

解读主流的人工智能芯片有什么不同？

在全球规模最大的2018北美消费电子产品展上，参展的科技企业超过4000家，包括高通、英伟达、英特尔、LG、IBM、百度在内的业界科技巨头纷纷发布了各自最新的人工智能芯片产品和战略，作为本届展会的最

Improved Baselines with Momentum Contrastive Learning

对比无监督学习最近显示出令人鼓舞的进展，例如在动量对比(MoCo)和SimCLR中。在这篇笔记中，我们通过在MoCo框架中实现SimCLR的两个设计改进来验证它们的有效性。通过对MoCo的简单修改，即使用MLP投影头和更多的数据增强，我们建立了比SimCLR更强的基线，并且不需要大量的训练。我们希望这将使最先进的无监督学习研究更容易获得。

Colab提供了免费TPU，机器之心帮你试了试

我们在网上只发现比较少的信息与资源，最开始介绍 Colab 免费 TPU 的内容还是谷歌开发者 Sam Wittevee 最近的演讲 PPT。因此本文的测试和探索都是基于官方文档和实例所实现的，还有很多 TPU 特性没有考虑到，感兴趣的读者可查阅文末的参考资料，了解更多 Colab 免费 TPU 的特性。

谷歌大脑提出“洗发水”二阶优化算法，Transformer训练时间减少40%，Jeff Dean点赞

无论是SGD还是Adam，此类优化算法在都是计算损失函数的一阶导数——梯度，然后按照某种规定的方式让权重随梯度下滑方向迭代。

人工智能芯片是什么？有什么用？

2018年1月9日，全球规模最大的2018北美消费电子产品展在美国拉斯维加斯拉开帷幕。本次参展的科技企业超过4000家，包括高通、英伟达、英特尔、LG、IBM、百度在内的业界科技巨头纷纷发布了各自最新的人工智能芯片产品和战略，作为本届展会的最大看点，人工智能芯片产品无疑受到了最为广泛的关注。

大白话5分钟带你走进人工智能-第36节神经网络之tensorflow的前世今生和DAG原理图解(4)

Tensorflow由Google Brain谷歌大脑开源出来的，在2015年11月在GitHub上开源，2016年是正式版，2017年出了1.0版本，趋于稳定。谷歌希望让优秀的工具得到更多的去使用，所以它开源了，从整体上提高深度学习的效率。在Tensorflow没有出来之前，有很多做深度学习的框架，比如caffe，CNTK，Theano，公司里更多的用Tensorflow。caffe在图像识别领域也会用。Theano用的很少，Tensorflow就是基于Theano。中国的百度深度学习PaddlePaddle也比较好，因为微软、谷歌、百度它们都有一个搜索引擎，每天用户访问量非常大，可以拿到用户海量的数据，就可以来训练更多的模型。

一番实验后，有关Batch Size的玄学被打破了

作者：Sebastian Raschka 机器之心编译编辑：泽南有关 batch size 的设置范围，其实不必那么拘谨。我们知道，batch size 决定了深度学习训练过程中，完成每个 epoch 所需的时间和每次迭代（iteration）之间梯度的平滑程度。batch size 越大，训练速度则越快，内存占用更大，但收敛变慢。又有一些理论说，GPU 对 2 的幂次的 batch 可以发挥更好性能，因此设置成 16、32、64、128 … 时，往往要比设置为其他倍数时表现更优。后者是否是一种玄

观点 | 为什么 AI 芯片时代必然到来——从 TPU 开始的几十倍性能之旅

AI 科技评论按：ACM 通讯（ACM Communications）在线杂志近期刊登了一篇作者来自谷歌的文章，带领我们重新审视了近几十年的半导体发展历程，以及 AI 研究、应用人员们如今已经接受了的问题：专用处理器为什么好、为什么火起来。值得注意的是，这篇文章的作者之一正是谷歌 TPU 团队成员、UC 伯克利大学退休教授、2017 年图灵奖获得者 David Patterson。AI 科技评论全文编译如下。

简单粗暴上手TensorFlow 2.0，北大学霸力作，必须人手一册！

这是一本简明的 TensorFlow 2.0 入门指导手册，基于 Keras 和 Eager Execution（即时运行）模式，力图让具备一定机器学习及 Python 基础的开发者们快速上手 TensorFlow 2.0。

改动一行代码，PyTorch训练三倍提速，这些「高级技术」是关键

GitHub 地址：https://github.com/rasbt/cvpr2023

知识精讲 | Yolov3和Yolov4核心内容、代码梳理

从2018年Yolov3年提出的两年后，在原作者声名放弃更新Yolo算法后，俄罗斯的Alexey大神扛起了Yolov4的大旗。

一番实验后，有关Batch Size的玄学被打破了

点击上方↑↑↑“OpenCV学堂”关注我来源：公众号机器之心授权有关 batch size 的设置范围，其实不必那么拘谨。我们知道，batch size 决定了深度学习训练过程中，完成每个 epoch 所需的时间和每次迭代（iteration）之间梯度的平滑程度。batch size 越大，训练速度则越快，内存占用更大，但收敛变慢。又有一些理论说，GPU 对 2 的幂次的 batch 可以发挥更好性能，因此设置成 16、32、64、128 … 时，往往要比设置为其他倍数时表现更优。后者是否是一种

010

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐