终于能用Google的TPU跑代码了,每小时6.5美元

AI科技大本营消息,北京时间周一(2月12日)晚间,Google 宣布,在 Google Cloud Platform(GCP)上正式推出Cloud TPUs 测试版服务,帮助研究人员更快地训练和运行机器学习模型 。目前的收费标准为 6.5美元/Cloud TPU/小时,而且供应有限,需要提前申请。

TPU(Tensor Processing Unit)的全名为张量处理单元 ,是 Google 专为机器学习而定制的一款芯片。在去年 5 月 18 日的Google I/O 大会上,Google 正式推出第二代 TPU —— Cloud TPU,相比第一代,第二代对推理和训练都进行了优化。

然而,Google 的 TPU 一直只在内部使用,此次 Google 首次对外全面开放自家的 TPU,这或许意味着谷歌正式向英伟达的 GPU 开炮,加速 TPU 的商业化进程,在 AI 基础设施领域抢占地盘。

以下是 Google Cloud 的官方博客内容:

Cloud TPUs 是 Google 设计的一系列硬件加速器,专门针对加速和扩大使用 TensorFlow 编程的机器学习工作负载进行了优化。每个 Cloud TPU 由四个定制的 ASIC 构成,单个 Cloud TPU 的浮点计算能力可以达到 180 teraflops(万亿次每秒),内存宽带 64GB。

这些板卡可以单独使用,也可以通过超快的专用网络连接在一起,共同构建成 multi-petaflop(几千万亿次每秒) 的机器学习超级计算机,我们称之为“TPU pods”。今年晚些时候,我们将在 GCP 上提供这些大型的“超级计算机”。

我们设计 Cloud TPUs 的目的是为了给 TensorFlow 工作负载提供差异化的性能,让机器学习工程师和研究人员能够更快地迭代(机器学习模型)。比如:

  • 从此以后,你不用再等待共享计算机集群的调度,只需通过可以控制并自定义的 Google 计算引擎虚拟机,就可以独占联网的 Cloud TPU。
  • 以前训练商用机器学习模型可能要等上几天甚至几周,现在只需要一个晚上,你就可以在 Cloud TPUs 机群上训练出统一模型的不同变体,第二天就可以将准确率最高的训练模型部署到生产活动中去。
  • 使用单个 Cloud TPU,并遵循该教程(https://cloud.google.com/tpu/docs/tutorials/resnet),你就可以在不到一天的时间内训练出符合你期望的 ResNet-50 网络,使其在 ImageNet 基准挑战上达到你所期望的准确率,而且花费不超过 200 美元。

▌让机器学习模型训练更容易

传统上,为定制的 ASIC 和超级计算机编写程序需要深入的专业知识,但是对于 Cloud TPU 而言,你可以使用高级的 TensorFlow APIs 进行编程。我们开源了一系列高性能 Cloud TPU 模型实现,帮助你快速上手:

  • ResNet-50(https://cloud.google.com/tpu/docs/tutorials/resnet),其他常用的图像分类模型(https://github.com/tensorflow/tpu/tree/master/models/official)。
  • 用于机器翻译和语言建模的 Transformer(https://cloud.google.com/tpu/docs/tutorials/transformer (https://research.googleblog.com/2017/08/transformer-novel-neural-network.html))
  • 用于目标检测的 RetinaNet(https://github.com/tensorflow/tpu/blob/master/models/official/retinanet/README.md)

为了节约你的时间和精力,我们将持续测试这些模型实现在标准数据集上的性能和收敛至期望准确率的情况。

之后,我们还将开源更多的模型实现。热爱探索的机器学习专家可以使用我们提供的文档(https://cloud.google.com/tpu/docs/)和工具(https://cloud.google.com/tpu/docs/cloud-tpu-tools),优化其他在 Cloud TPUs 运行的 TensorFlow 模型。

如果你现在就开始使用 Cloud TPU,那么在今年晚些时候我们推出 TPU pod 时,你将会从训练时间到准确率的大幅提升中收益。正如我们在 NIPS 2017 上宣布的那样,在一个完整的 TPU pod 上,ResNet-50 和 Transformer 的训练时间将从大半天将至 30 分钟以内,而且无需修改任何代码。

▌可扩展的机器学习平台

Cloud TPU 同样简化了机器学习计算资源的规划和管理过程:

你可以为自己的团队提供顶尖的机器学习加速,并且根据需求的变化动态调整自己的容量;

  • 相比于花费时间和金钱,并聘请专业的人才来设计、安装、维护一个需要专门的功能、冷却、网络和存储设备的实体机器学习计算集群,你可以从 Google 持续多年专门优化过的大规模、高集成的机器学习基础设施中受益。
  • 不需要费力地保证各种工作站和服务器的驱动更新升级,因为 Cloud TPU 根本不要安装驱动。
  • Google Cloud 将提供同样复杂的安全机制和实践保护。

除了 Cloud TPUs,Google Cloud 也会提供一系列的高性能 CPU(包括英特尔 Skylake)和 GPU (包括英伟达 Tesla V100)。

目前,Cloud TPU 的供应依然受限,价格将以秒计费,大约为 6.5 美元/Cloud TPU/小时,申请地址为:https://services.google.com/fb/forms/cloud-tpu-beta-request/。

原文发布于微信公众号 - AI科技大本营(rgznai100)

原文发表时间:2018-02-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

构建实战机器学习系统的10点经验(二)

17230
来自专栏Spark学习技巧

深度解析京东个性化推荐系统演进史

作者 | fisherman、Davidxiaozhi ? 本文摘自《决战618:探秘京东技术取胜之道》,两位作者时任京东推荐系统负责人和系统架构师。 在电商领...

331100
来自专栏点滴积累

人工智能入门

前言 这个名字起的非常大,但是本文只能从一些概念和我自己的理解上介绍一下什么是人工智能。本文只是给从未接触过此块的人一个大致的印象和思路,其余人请直接略过。 一...

48270
来自专栏新智元

AI 再造搜索3招:谷歌如何用机器学习和深度学习直接给你答案

【新智元导读】搜索是最先一批被人工智能深刻改变的行业,这不仅仅是因为搜索公司(谷歌、百度、微软)跑在了AI 革命的前面。本文从搜索结果、视频搜索和精准营销/SE...

32540
来自专栏Miguel三先生

今天,大家都在搜“爸爸”

16750
来自专栏华章科技

收藏 | 来自微软大神的机器学习秘籍!

在这个人人都可能是学霸的全民学习时代,为什么人与人的差距依然很大?像优达学城这样的学习网站可以为每一个人想要学习的人带去技能和知识的补充,但要成为一个优秀的人才...

10930
来自专栏AI科技评论

谷歌人工智能专家:机器学习出现全新挑战

GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,雷锋网将发布“人工智能&机器人Top25创新企...

41030
来自专栏数据科学与人工智能

【知识】推荐系统中的常用算法

目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。 一、基于内容推荐 基于内容的推荐(Content...

29890
来自专栏CDA数据分析师

机器学习开发者的现代化路径:不需要从统计学微积分开始

机器学习算法的传统学习路径,是从统计学、概率论、线性代数、微积分等多种数学知识开始,但专业程序员、机器学习爱好者、MachineLearningMastery....

21450
来自专栏大数据挖掘DT机器学习

【解析】数据挖掘工具的评判

要做数据挖掘,当然需要工具。但若靠传统的自我编程来实现,未免有些费时费力,而且其性能也不一定比商业工具来得强和稳定。目前,世界上已经有很多商业公司和研究机构开发...

29740

扫码关注云+社区

领取腾讯云代金券